data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

📌PyTorch Sentiment Analysis — анализ эмоциональной составляющей текста

В этом репозитории содержатся разные реализации анализа текста в PyTorch:
— с использованием "мешка слов" (bag of words)
— с помощью рекурретной нейросети (RNN)
— посредством свёртной нейросети (CNN)
— с помощью модных трансформеров

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Common Voice 17 теперь на hf.

Common Voice 17 - датасет С 31 175 часами аудиозаписей (и транскрипций) на 124 языках 🎶

Большинство аудио в датасете содержат демографические метаданные, такие как возраст, пол и акцент, которые могут помочь повысить точность систем распознавания речи.

Хотите попробовать?


from datasets import load_dataset

cv17 = load_dataset("mozilla-foundation/common_voice_17_0",
"hi",
split="test",
streaming=True)


https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Open AI только что добавили новую функцию памяти в Chatgpt.

Память теперь доступна всем пользователям ChatGPT Plus.

Пользоваться памятью очень просто: просто запустите новый чат и напишите ChatGPT все, что вы хотели бы, чтобы он запомнил.

Функция памяти ChatGPT позволяет запоминать нужные вам детали, чтобы в будущем сделать общение актуальным и персонализированны.

ChatGPT автоматически сохраняет такие детали, как ваши личные предпочтения, но вы также можете попросить ChatGPT запомнить конкретную информацию, сказав:
"Запомнить это" или "Сохрани это в своей памяти".

Примечание:
1. Эта функция доступна только в GPT-4, но не в версии 3.5.
2. Если вы хотите удалить что-либо из памяти, вы можете сделать это через настройки управления памятью
3.Похоже, что это замедляет работу GPT-4, потому что он пытается получить доступ к памяти, а затем отвечает.

Память можно включить или отключить в настройках.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⭐️ Data Science разбор реальной задачи с собеседования. Прогнозирование оттока клиентов.

Смотреть
Данные
Ноутбук

@machinelearning_interview

Читать полностью…

Анализ данных (Data analysis)

🖥 Giskard — библиотека Python для оценки и тестирования LLM-, ML-моделей

Помогает обнаруживать проблемы в моделях.
Сканирует LLM, позволяет определить производительность, фиксирует проблемы безопасности.

Установка: pip install "giskard[llm]" -U

▶️ Попробовать в Google Colab
🖥 GitHub 3.1k ⭐️

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Mage-ai — отличная замена Airflow

Позволяет:
• интегрировать и синхронизировать данные из сторонних источников
• создавать конвейеры обработки данных в реальном времени и в пакетном режиме, используя Python, SQL и R
• производить запуск, мониторинг и оркестровку тысяч конвейеров

🖥 GitHub 7k ⭐️

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌Классификация и ординация с помощью R

В этой статье мы поговорим о том, как делать кластерный анализ и строить тепловые карты экспрессии в R.

Рассмотрим такие понятия как:
• Многомерные данные
• Облако точек в многомерном пространстве
• Коэффициенты сходства-различия
• Евклидово расстояние
• Коэффициент Жаккара
• Иерархическая кластеризация
• Алгоритмы иерархической кластеризации на основании расстояний
• Метод ближайшего соседа
• Метод отдаленного соседа
• Метод невзвешенного попарного среднего

📎 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Когда опять ничего не получается

Помните, как котёнок в мультике складывает кубики и приговаривает: «Опять ничего не получается. Ну, и пожалуйста, ну и не нужно»? Так многие бросают английский, думая, что научиться звучать уверенно невозможно.

На самом деле всё реально. Есть три слагаемых в изучении английского, которые помогают прийти к результату и повысить уровень. Первое: чёткая цель, которая будет мотивировать двигаться дальше. Второе: продуманный план обучения, а не отдельные занятия время от времени, чтобы видеть постоянный прогресс. И третье: большое количество разговорной практики, чтобы наконец избавиться от языкового барьера.

На курсах английского от Яндекс Практикума всё именно так:
✺ Преподаватели-профессионалы, прошедшие отбор: они сфокусированы на вашем результате и помогают достигать целей в комфортной обстановке.
✺ План обучения, который адаптируется под текущий уровень языка — так вы не будете снова учить то, что хорошо знаете, а сможете сосредоточиться на темах, которые пока вызывают сложности.
✺ Много разговорной практики, в том числе с иностранцами, чтобы раскрепоститься в общении и почувствовать себя увереннее, например в поездках.
✺ Программа, разработанная методистами с кембриджским дипломом DELTA: чтобы развивать навыки по международным стандартам обучения.

Начните путь к новому уровню английского с малого: запишитесь на бесплатную консультацию. Куратор определит языковой уровень и подберёт курс под ваши цели и амбиции. Всего 30 минут, которые ни к чему вас не обязывают, но помогут поверить в свои силы.

Читать полностью…

Анализ данных (Data analysis)

Эффективный способ быстрого освоения ChatGPT.

Создание правильных промптов и обучение нейронной сети - это долгий процесс, требующий значительных временных затрат.

Здесь разработан краткий курс из 5 уроков по ChatGPT. После его прохождения вы сможете создать 9 нейронных сетей, которые помогут вам:

▪️ найти ошибки и оптимизировать код
▪️ генерировать посты в Телеграме
▪️ создавать заголовки для рекламы
* отдать всю рутину на выполнение нейронке

Вы также сможете разработать своих нейро-помощников для продаж, маркетинга и других целей.

Бесплатный доступ доступен сразу после регистрации.

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KYXR3

Читать полностью…

Анализ данных (Data analysis)

⚡️ Quix Streams - это облачная нативная библиотека для обработки данных в Kafka с использованием Python.

Инструмент разработан, чтобы предоставить возможности распределенной системы в виде легкой библиотеки, сочетая низкоуровневую масштабируемость и отказоустойчивость функций Kafka с простым в использовании интерфейсом Python.

Отлично подходит для новичков, которые хотят познакомиться с потоковой обработкой.

python -m pip install quixstreams

Github
Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Обнаружение статистических выбросов в Python

Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами.

Имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.

В этой статье — несколько подходов к обнаружению выбросов в Python; от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.

📎 Поехали
📎 Кстати, по анализу выбросов в R

#junior

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 С Transformers.js, теперь вы можете запускать CLIP в своем браузере со скоростью более 20 кадров в секунду с использованием WebGPU для классификации изображений в режиме реального времени!

Как всегда, все работает на 100% локально, что означает, что вам не нужноAPI! 🔥

🔗 Демо: https://hf.co/spaces/Xenova/webgpu-clip

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

❓Как писать User Story на минималках по канонам и что у них под капотом? В каких кейсах польза от историй будет максимальная? 

Расскажем на бесплатном практическом уроке «User Story по шаблону и даже лучше» от OTUS. На вебинаре разберем: 

- User Story и беклог продукта;
- расширение историй: сценарии использования и критерии приемки;
- в каких командах и проектах они работают.

Урок идеально подойдет тем, кто планирует стать системным аналитиком и оценивает курсы, а также начинающим аналитикам. 

Встречаемся 26 апреля в 20:00 мск в рамках курса «Специализация Системный аналитик». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS! 

Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок и получить запись: https://otus.pw/b0ky/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8Jz6Nt

Читать полностью…

Анализ данных (Data analysis)

Ozon Tech приглашает на ML&DS митап

📍26 апреля | 19:00 мск | онлайн

Ребята научили машины полезному и докладывают, как они справляются.

Какие темы в программе:
1. Как команда адаптировала LLM под задачи Ozon — от разметки до генерации изображений.
2. Развитие генеративного ИИ, продуктовые разработки в генеративном дизайне и языковых моделях.
3. Кейс Ozon Tech: создание медиаконтента в карточке товара за 5 минут при помощи StableDiffusion, ControlNet и адаптеров.

Зарегистрируйтесь, чтобы присоединиться к трансляции.

Реклама. Рекламодатель ООО «Озон Технологии».
erid: LjN8KBPSq

Читать полностью…

Анализ данных (Data analysis)

📌L1 и L2 регуляризация в ML

Регуляризация - подход, который позволяет снизить сложность модели за счет "штрафования" вектора параметров θ.
Это один из эфективных методов борьбы с "переобучением", наряду с кросс-валидацией и уменьшением количества фичей, о которых мы поговорим позже. Регуляризация дает возможность выделить фичи,которые вносят наибольший вклад в принятия решения, и снизить влияние фич создающих "шум".

Существует два вида регуляризации - L1 и L2, выбор вида регуляризации отвечает на вопрос "как штрафовать". Рассмотрим различия между ними.

📎 О L1 и L2
📎 Ещё статья (en)

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 О работе трансформеров с контекстом

Отличная статья для глубокого понимания, как трансформеры работают с контекстом.
Детально описаны механизмы, благодаря которым это вообще возможно, в том числе и механизм внимания.

Выдвигается гипотеза, что обучение трансформеров в контексте возникает благодаря неявной реализации градиентного спуска по функции потерь, построенной на основе данных, взятых из контекста.

📎 Arxiv
🟡 Кстати, полезная статья об архитектуре трансформеров на Хабре
🟡 Визуализация механизма внимания от 3b1b

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Cognita — опенсорсный RAG-фреймворк для построения сложных приложений с LLM

🟡Langchain/LlamaIndex предоставляют простые в использовании абстракции, которые можно использовать для быстрых экспериментов и создания прототипов в Jupyter Notebook. Но когда нужно сделать что-то крупнее пет-проекта, возникают ограничения — например, компоненты должны быть модульными и легко масштабируемыми.
И вот здесь отлично пригодится Cognita.

🟡Cognita использует Langchain/Llamaindex под капотом и обеспечивает организацию вашей кодовой базы, где каждый из компонентов RAG является модульным, управляемым API и легко расширяемым. Cognita может быть легко использована локально, при этом инструмент предоставляет вам готовую к производству среду вместе с поддержкой пользовательского интерфейса без кода.

🖥 GitHub
▶️ Затестить Cognita можно тут

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Perplexica — открытый поисковой движок с AI

Созданный на основе Perplexity AI, этот движок с открытым исходным кодом не просто ищет в интернете, но и понимает ваши вопросы.
Perplexica использует передовые ML-алгоритмы для уточнения результатов и предоставляет четкие ответы со ссылками на источники.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👨‍🎓 100 лекций по математике от Оксфорда

Оксфорд публикует лекции по математике, чтобы дать представление об опыте студентов и о том, как они преподают математику в Оксфорде.

В этом плейлисте собраны лекции из различных курсов за все студенческие годы (включая целые курсы).

За всеми лекциями следуют учебные занятия, на которых студенты встречаются со своим преподавателем и решают задачи.

Примерно 80 часов отборной математики.

Плейлист

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌ИИ может определить политические взгляды по лицу

🟡Исследователи из Высшей школы бизнеса Стэнфордского университета подтвердили, что распознавание лиц можно использовать, чтобы определять политические убеждения человека. Это создаёт новые угрозы приватности со стороны систем распознавания лиц.

🟡591 человека спросили об их политических предпочтениях, а потом «скормили» их фотографии обученной на распознавание лиц модели. Та смогла по чертам лица определить политические предпочтения участников исследования.

🟡Точность определения сравнивали с точностью предсказаний того, как хорошо собеседования определяют успех на работе или алкоголь повышает агрессивность. Достоверность увеличивалась, если показывать ИИ не только фото, но и добавлять контекст: возраст, пол, этническую принадлежность. Модель определяет не принадлежность к конкретной партии, а скорее спектр взглядов человека — консервативные они или либеральные. Судя по представлению модели и небольшой выборке, у либералов лица меньше, а у консерваторов — больше. Вот и пришли мы к ИИ, который мерит черепа и даёт людям оценку, ориентируясь на «большие данные».

📎 Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

▶️Microsoft представила Infra Copilot, который использует GitHub Copilot для генерации инфраструктурного кода

Microsoft представила новый инструмент Infra Copilot, предназначенный для помощи в написании кода для инфраструктурных систем (подход Infrastructure as Code). В качестве основы инструмент использует GitHub Copilot.

«Infra Copilot использует возможности машинного обучения для интерпретации намерений, стоящих за промптами, и быстрого создания инфраструктурного когда. Он понимает контекст инфраструктурных задач и позволяет профессионалам задавать вопросы на естественном языке и получать соответствующие предложения по коду», — указывает Microsoft.

Infra Copilot доступен пользователям, у которых установлена последняя версия Visual Studio Code и есть лицензия GitHub Copilot.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Искусственный интеллект Adobe превращает размытое видео в HD

🟡Исследователи из Adobe разработали модель генеративного искусственного интеллекта (ИИ) VideoGigaGAN, которая может до восьми раз увеличить разрешение видео, снятого в низком качестве. В описании технологии разработчики утверждают, что новый ИИ превосходит другие методы повышения разрешения видео (VSR), поскольку он обеспечивает высокую детализацию, не добавляя заметных артефактов редактирования.

🟡Как правило, при масштабировании видео с помощью генеративно-состязательных нейросетей в кадрах появляются эффекты мерцания и другие нежелательные артефакты. Другие методы позволяют избежать этого, но картинка теряет четкость и детализацию. VideoGigaGAN обеспечивает высокое качество видео с меньшим количеством проблем, заявляют разработчики.

🟡Компания предоставила несколько примеров, демонстрирующих работу ИИ. В демонстрационных клипах действительно видно высокое качество обработки и незаметны эффекты редактирования. Например, текстура кожи или детали внешности выглядят естественно.
Пока неизвестно, будет ли VideoGigaGAN доступен простым пользователям в Creative Cloud или Adobe планирует иначе использовать новую модель.

▶️ Вживую посмотреть на работу VideoGigaGAN можно тут

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌Вопросы и ответы к собеседованию по Data Science

Держите, полезная подборка ответов на распространенные вопросы из собеседований по Data Science и немного по ML

🔗 Вопросы/ответы
🔗 14 типичных вопросов с собеседования по ML
🔗 Большая подборка вопросов для собеседования по DS
🔗 Подготовка к собеседованию по ML: ответы на основные вопросы
🔗 Вопросы для собеседования на позицию ML-инженера
🔗 Вопросы с собеседований статистика
🔗 Вопросы по теории вероятности
🔗Материалы для подготовки к интервью по направлению
🔗Задачи с собеседований SQL

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Snowflake только что запустила самую крупную модель с открытым исходным кодом на сегодняшний день.

482 млрд параметр MoE.

17 млрд. активных параметров и 128 экспертов, обученных на 3,5 Т токенов.

Даже описание данных с открытым исходным кодом!

pip install git+https://github.com/Snowflake-Labs/transformers.git@arctic

https://huggingface.co/Snowflake/snowflake-arctic-instruct

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Пробный ЕГЭ по информатике: бесплатно!

Центральный университет приглашает 11-классиков, которые хотят:
– потренироваться в написании ЕГЭ и проверить свой уровень знаний в баллах ЕГЭ
– повысить свои шансы на успех
– разобрать ошибки и понять, как не потерять баллы на экзамене
– подготовиться морально к экзамену, снизив стресс

📅 Когда: 28 апреля, 10:00 МСК
📍 Где: Центральный университет, Москва, ул. Гашека, 7 или онлайн на платформе edu.tinkoff.ru
📚 Что: ты получишь: диагностику знаний, опыт сдачи ЕГЭ, экспертные комментарии, разбор ошибок

Регистрируйся до 25 апреля 23:59

erid:2VtzqwXpLcQ
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Анализ данных (Data analysis)

Tarantool Column Store — это новая российская in-memory колоночная СУБД для гибридной транзакционно-аналитической обработки данных (HTAP) в реальном времени.

Позволяет анализировать данные в real-time, ускорять аналитические расчеты. Обладает высокой производительностью благодаря многопоточности.

Где можно применять новую СУБД:

• Формирование финансовой отчетности в real-time;
• Ускорение и повышение точности антифрод-систем — обнаружение подозрительных транзакций практически с нулевой задержкой;
• Повышение производительности системы выдачи кредитов. Tarantool Columnstore в реальном времени анализирует матрицы, в которых содержится более 100 000 вариантов кредитных предложений и дополнительных услуг.

Попробуйте высокую производительность и скорость — 1,6 млн. сканирований и 200 тыс. агрегаций в секунду на ядро, <200 микросекунд на запрос.

➡️ Оставить заявку

Читать полностью…

Анализ данных (Data analysis)

🍏 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework by Apple

Сегодня Apple выпустили Openly.

- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода
- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения
- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.

Cписок моделей и подробная информации о каждой из них:

- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct

gitHub: https://github.com/apple/corenet
hf: https://huggingface.co/apple/OpenELM
abs: https://arxiv.org/abs/2404.14619

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

⭐ IDM-VON - модель, которая превосходит другие подходы, основанные на диффузии и GAN, для переноса любых деталей одежды на фотографии.

Только посмотрите на примеры выше)

Github: https://github.com/yisol/IDM-VTON
Demo: https://huggingface.co/spaces/yisol/IDM-VTON
Paper: https://arxiv.org/abs/2403.05139
Project: https://idm-vton.github.io/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

☁️ Stable Diffusion запуск в облаке.

Видео

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

GitVerse – теперь и для малого и среднего бизнеса

На онлайн-презентации «GitVerse: открой вселенную кода» СберТех рассказал про новые фичи платформы. Cреди них – CI/CD-инструменты, ускоряющие разработку, и новые функции GigaCode – персонального AI-ассистента разработчика (AI, artificial intelligence — искусственный интеллект).

Но это еще не все: теперь возможности GitVerse доступны не только индивидуальным разработчикам, но и малому и среднему бизнесу. Это очень удобно: можно организовывать совместную работу команды с GitVerse и управлять доступами к своим репозиториям.

Готовы попробовать? Присоединяйтесь.

Читать полностью…
Subscribe to a channel