🌟 Mage-ai — отличная замена Airflow
Позволяет:
• интегрировать и синхронизировать данные из сторонних источников
• создавать конвейеры обработки данных в реальном времени и в пакетном режиме, используя Python, SQL и R
• производить запуск, мониторинг и оркестровку тысяч конвейеров
🖥 GitHub 7k ⭐️
@data_analysis_ml
📌Классификация и ординация с помощью R
В этой статье мы поговорим о том, как делать кластерный анализ и строить тепловые карты экспрессии в R.
Рассмотрим такие понятия как:
• Многомерные данные
• Облако точек в многомерном пространстве
• Коэффициенты сходства-различия
• Евклидово расстояние
• Коэффициент Жаккара
• Иерархическая кластеризация
• Алгоритмы иерархической кластеризации на основании расстояний
• Метод ближайшего соседа
• Метод отдаленного соседа
• Метод невзвешенного попарного среднего
📎 Статья
@data_analysis_ml
Когда опять ничего не получается
Помните, как котёнок в мультике складывает кубики и приговаривает: «Опять ничего не получается. Ну, и пожалуйста, ну и не нужно»? Так многие бросают английский, думая, что научиться звучать уверенно невозможно.
На самом деле всё реально. Есть три слагаемых в изучении английского, которые помогают прийти к результату и повысить уровень. Первое: чёткая цель, которая будет мотивировать двигаться дальше. Второе: продуманный план обучения, а не отдельные занятия время от времени, чтобы видеть постоянный прогресс. И третье: большое количество разговорной практики, чтобы наконец избавиться от языкового барьера.
На курсах английского от Яндекс Практикума всё именно так:
✺ Преподаватели-профессионалы, прошедшие отбор: они сфокусированы на вашем результате и помогают достигать целей в комфортной обстановке.
✺ План обучения, который адаптируется под текущий уровень языка — так вы не будете снова учить то, что хорошо знаете, а сможете сосредоточиться на темах, которые пока вызывают сложности.
✺ Много разговорной практики, в том числе с иностранцами, чтобы раскрепоститься в общении и почувствовать себя увереннее, например в поездках.
✺ Программа, разработанная методистами с кембриджским дипломом DELTA: чтобы развивать навыки по международным стандартам обучения.
Начните путь к новому уровню английского с малого: запишитесь на бесплатную консультацию. Куратор определит языковой уровень и подберёт курс под ваши цели и амбиции. Всего 30 минут, которые ни к чему вас не обязывают, но помогут поверить в свои силы.
Эффективный способ быстрого освоения ChatGPT.
Создание правильных промптов и обучение нейронной сети - это долгий процесс, требующий значительных временных затрат.
Здесь разработан краткий курс из 5 уроков по ChatGPT. После его прохождения вы сможете создать 9 нейронных сетей, которые помогут вам:
▪️ найти ошибки и оптимизировать код
▪️ генерировать посты в Телеграме
▪️ создавать заголовки для рекламы
* отдать всю рутину на выполнение нейронке
Вы также сможете разработать своих нейро-помощников для продаж, маркетинга и других целей.
Бесплатный доступ доступен сразу после регистрации.
Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KYXR3
⚡️ Quix Streams - это облачная нативная библиотека для обработки данных в Kafka с использованием Python.
Инструмент разработан, чтобы предоставить возможности распределенной системы в виде легкой библиотеки, сочетая низкоуровневую масштабируемость и отказоустойчивость функций Kafka с простым в использовании интерфейсом Python.
Отлично подходит для новичков, которые хотят познакомиться с потоковой обработкой.python -m pip install quixstreams
• Github
• Docs
@data_analysis_ml
🖥 Обнаружение статистических выбросов в Python
Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами.
Имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.
В этой статье — несколько подходов к обнаружению выбросов в Python; от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.
📎 Поехали
📎 Кстати, по анализу выбросов в R
#junior
@data_analysis_ml
🔥 С Transformers.js, теперь вы можете запускать CLIP в своем браузере со скоростью более 20 кадров в секунду с использованием WebGPU для классификации изображений в режиме реального времени!
Как всегда, все работает на 100% локально, что означает, что вам не нужноAPI! 🔥
🔗 Демо: https://hf.co/spaces/Xenova/webgpu-clip
@data_analysis_ml
❓Как писать User Story на минималках по канонам и что у них под капотом? В каких кейсах польза от историй будет максимальная?
Расскажем на бесплатном практическом уроке «User Story по шаблону и даже лучше» от OTUS. На вебинаре разберем:
- User Story и беклог продукта;
- расширение историй: сценарии использования и критерии приемки;
- в каких командах и проектах они работают.
Урок идеально подойдет тем, кто планирует стать системным аналитиком и оценивает курсы, а также начинающим аналитикам.
Встречаемся 26 апреля в 20:00 мск в рамках курса «Специализация Системный аналитик». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS!
Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок и получить запись: https://otus.pw/b0ky/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8Jz6Nt
Ozon Tech приглашает на ML&DS митап
📍26 апреля | 19:00 мск | онлайн
Ребята научили машины полезному и докладывают, как они справляются.
Какие темы в программе:
1. Как команда адаптировала LLM под задачи Ozon — от разметки до генерации изображений.
2. Развитие генеративного ИИ, продуктовые разработки в генеративном дизайне и языковых моделях.
3. Кейс Ozon Tech: создание медиаконтента в карточке товара за 5 минут при помощи StableDiffusion, ControlNet и адаптеров.
Зарегистрируйтесь, чтобы присоединиться к трансляции.
Реклама. Рекламодатель ООО «Озон Технологии».
erid: LjN8KBPSq
📌L1 и L2 регуляризация в ML
Регуляризация - подход, который позволяет снизить сложность модели за счет "штрафования" вектора параметров θ.
Это один из эфективных методов борьбы с "переобучением", наряду с кросс-валидацией и уменьшением количества фичей, о которых мы поговорим позже. Регуляризация дает возможность выделить фичи,которые вносят наибольший вклад в принятия решения, и снизить влияние фич создающих "шум".
Существует два вида регуляризации - L1 и L2, выбор вида регуляризации отвечает на вопрос "как штрафовать". Рассмотрим различия между ними.
📎 О L1 и L2
📎 Ещё статья (en)
@data_analysis_ml
🌟 С большой долей вероятности GPT-5 появится уже этим летом и будет значительно лучше прошлых моделей
🟡GPT-5, следующая LLM от OpenAI, находится в процессе разработки и должна быть запущена в течение нескольких месяцев, как сообщают независимые источники.
🟡GPT-5, скорее всего, будет ориентирован на корпоративных клиентов OpenAI, которые обеспечивают большую часть доходов компании. Потенциально, с запуском новой модели компания может создать систему уровней, подобную уровню Google Gemini LLM, с различными версиями моделей для разных целей и клиентов. В настоящее время модели GPT-4 и GPT-4 Turbo известны тем, что на них работает платный потребительский продукт ChatGPT Plus, а на модели GPT-3.5 – оригинальный и все еще бесплатный чатбот ChatGPT.
📎 Подробнее
@data_analysis_ml
⚡️ Phi-3 7B только что был выпущен и уверенно превосходит Llama-3 7B.
С MLU 75,3 модель приближается к 70-B моделям SOTA!! 🤯
Я не удивлюсь, если к концу года у нас появится модель 7B, которая превзойдет GPT-4.
https://arxiv.org/pdf/2404.14219.pdf
@data_analysis_ml
27 и 28 апреля приглашаем специалистов робототехники и reinforcement learning на ROS Meetup в Москве 📅
Это возможность для робототехников всех уровней: от новичков до экспертов, — посвятить выходные практическому обучению и нетворкингу. Вы получите советы и рекомендации экспертов, сможете поделиться идеями с другими разработчиками. Доклады охватывают весь спектр тем: от ROS до reinforcement learning и антропоморфных роботов.
Инженеры и руководители компаний поделятся реальным опытом использования ROS в исследовательских и коммерческих проектах.
В этот раз мы решили разбавить технические доклады большим количеством тематических дискуссий и нетворкинга.
На какие темы будем общаться:
✔️Антропоморфные роботы
✔️ Reinforcement learning
✔️ Large Language Models, Deep learning
✔️ Беспилотные автомобили и мобильные роботы
✔️ Манипуляторы и алгоритмы в манипуляции, в том числе MOVEit
✔️ ROS-пакеты и другие темы в робототехнике
Локация: г. Москва, Кутузовский проспект 32к1, офис Сбера.
Регистрируйтесь по ссылке 👈
🔥 Модель Metals Segment Anything (SAM) теперь может работать в вашем браузере с WebGPU (+ fp16), что означает скорость обработки изображений выросла в 8 раз (10 секунд = 1,25 секунды)! 🤯 ⚡️
Сегментация видео работает с прежней скоростью!
Все работает на 100% локально благодаря 🤗 Transformers.js и onnxruntime-web!
🔗 Demo: https://hf.co/spaces/Xenova/segment-anything-webgpu
📌Функции потерь в Python — простая реализация
Функции потерь Python являются важной частью ML-моделей. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического.
Существует несколько способов вычислить эту разницу.
В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь, а именно:
🟡Среднеквадратическая ошибка
🟡Средняя абсолютная ошибка
🟡Кросс-энтропийные потери
📎 Поехали
@data_analysis_ml
▶️Microsoft представила Infra Copilot, который использует GitHub Copilot для генерации инфраструктурного кода
⏩Microsoft представила новый инструмент Infra Copilot, предназначенный для помощи в написании кода для инфраструктурных систем (подход Infrastructure as Code). В качестве основы инструмент использует GitHub Copilot.
⏩«Infra Copilot использует возможности машинного обучения для интерпретации намерений, стоящих за промптами, и быстрого создания инфраструктурного когда. Он понимает контекст инфраструктурных задач и позволяет профессионалам задавать вопросы на естественном языке и получать соответствующие предложения по коду», — указывает Microsoft.
⏩Infra Copilot доступен пользователям, у которых установлена последняя версия Visual Studio Code и есть лицензия GitHub Copilot.
@data_analysis_ml
⚡️ Искусственный интеллект Adobe превращает размытое видео в HD
🟡Исследователи из Adobe разработали модель генеративного искусственного интеллекта (ИИ) VideoGigaGAN, которая может до восьми раз увеличить разрешение видео, снятого в низком качестве. В описании технологии разработчики утверждают, что новый ИИ превосходит другие методы повышения разрешения видео (VSR), поскольку он обеспечивает высокую детализацию, не добавляя заметных артефактов редактирования.
🟡Как правило, при масштабировании видео с помощью генеративно-состязательных нейросетей в кадрах появляются эффекты мерцания и другие нежелательные артефакты. Другие методы позволяют избежать этого, но картинка теряет четкость и детализацию. VideoGigaGAN обеспечивает высокое качество видео с меньшим количеством проблем, заявляют разработчики.
🟡Компания предоставила несколько примеров, демонстрирующих работу ИИ. В демонстрационных клипах действительно видно высокое качество обработки и незаметны эффекты редактирования. Например, текстура кожи или детали внешности выглядят естественно.
Пока неизвестно, будет ли VideoGigaGAN доступен простым пользователям в Creative Cloud или Adobe планирует иначе использовать новую модель.
▶️ Вживую посмотреть на работу VideoGigaGAN можно тут
@data_analysis_ml
📌Вопросы и ответы к собеседованию по Data Science
Держите, полезная подборка ответов на распространенные вопросы из собеседований по Data Science и немного по ML
🔗 Вопросы/ответы
🔗 14 типичных вопросов с собеседования по ML
🔗 Большая подборка вопросов для собеседования по DS
🔗 Подготовка к собеседованию по ML: ответы на основные вопросы
🔗 Вопросы для собеседования на позицию ML-инженера
🔗 Вопросы с собеседований статистика
🔗 Вопросы по теории вероятности
🔗Материалы для подготовки к интервью по направлению
🔗Задачи с собеседований SQL
@data_analysis_ml
⚡️ Snowflake только что запустила самую крупную модель с открытым исходным кодом на сегодняшний день.
482 млрд параметр MoE.
17 млрд. активных параметров и 128 экспертов, обученных на 3,5 Т токенов.
Даже описание данных с открытым исходным кодом!
pip install git+https://github.com/Snowflake-Labs/transformers.git@arctic
https://huggingface.co/Snowflake/snowflake-arctic-instruct
@data_analysis_ml
Пробный ЕГЭ по информатике: бесплатно!
Центральный университет приглашает 11-классиков, которые хотят:
– потренироваться в написании ЕГЭ и проверить свой уровень знаний в баллах ЕГЭ
– повысить свои шансы на успех
– разобрать ошибки и понять, как не потерять баллы на экзамене
– подготовиться морально к экзамену, снизив стресс
📅 Когда: 28 апреля, 10:00 МСК
📍 Где: Центральный университет, Москва, ул. Гашека, 7 или онлайн на платформе edu.tinkoff.ru
📚 Что: ты получишь: диагностику знаний, опыт сдачи ЕГЭ, экспертные комментарии, разбор ошибок
Регистрируйся до 25 апреля 23:59
erid:2VtzqwXpLcQ
Реклама, АНО ВО «Центральный университет», ИНН 7743418023
Tarantool Column Store — это новая российская in-memory колоночная СУБД для гибридной транзакционно-аналитической обработки данных (HTAP) в реальном времени.
Позволяет анализировать данные в real-time, ускорять аналитические расчеты. Обладает высокой производительностью благодаря многопоточности.
Где можно применять новую СУБД:
• Формирование финансовой отчетности в real-time;
• Ускорение и повышение точности антифрод-систем — обнаружение подозрительных транзакций практически с нулевой задержкой;
• Повышение производительности системы выдачи кредитов. Tarantool Columnstore в реальном времени анализирует матрицы, в которых содержится более 100 000 вариантов кредитных предложений и дополнительных услуг.
Попробуйте высокую производительность и скорость — 1,6 млн. сканирований и 200 тыс. агрегаций в секунду на ядро, <200 микросекунд на запрос.
➡️ Оставить заявку
🍏 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework by Apple
Сегодня Apple выпустили Openly.
- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода
- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения
- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.
Cписок моделей и подробная информации о каждой из них:
- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct
• gitHub: https://github.com/apple/corenet
• hf: https://huggingface.co/apple/OpenELM
• abs: https://arxiv.org/abs/2404.14619
@ai_machinelearning_big_data
⭐ IDM-VON - модель, которая превосходит другие подходы, основанные на диффузии и GAN, для переноса любых деталей одежды на фотографии.
Только посмотрите на примеры выше)
• Github: https://github.com/yisol/IDM-VTON
• Demo: https://huggingface.co/spaces/yisol/IDM-VTON
• Paper: https://arxiv.org/abs/2403.05139
• Project: https://idm-vton.github.io/
@data_analysis_ml
GitVerse – теперь и для малого и среднего бизнеса
На онлайн-презентации «GitVerse: открой вселенную кода» СберТех рассказал про новые фичи платформы. Cреди них – CI/CD-инструменты, ускоряющие разработку, и новые функции GigaCode – персонального AI-ассистента разработчика (AI, artificial intelligence — искусственный интеллект).
Но это еще не все: теперь возможности GitVerse доступны не только индивидуальным разработчикам, но и малому и среднему бизнесу. Это очень удобно: можно организовывать совместную работу команды с GitVerse и управлять доступами к своим репозиториям.
Готовы попробовать? Присоединяйтесь.
erid: 2RanynkawgU
CodeFest — это ежегодная тёплая ламповая айтишная конференция, на которую слетаются русскоговорящие айтишники с разных уголков страны, чтобы встретиться с коллегами, поделиться новостями и обсудить последние тенденции в мире разработки.
Ключевые направления программы: Backend, Frontend, Management, QA, Data Science, Mobile, Design, Web 3, System Аnalysis, а также дискуссионный народный поток Kvartirniki и вдохновляющие Keynote выступления от айти-звёзд.
Изюминка CodeFest — неформальное общение, которого много, которое невероятно дружелюбное, и зачином для которого служат те самые выступления в ключевых секциях. Начали с доклада в зале — закончили спонтанным митапом в холле.
Присоединяйтесь к невероятной атмосфере конференции:
■ 25-26 мая, Новосибирск, Экспоцентр.
■ 1800 участников на одной площадке.
■ Участие офлайн и онлайн.
■ Более 120 докладов.
■ Насыщенная программа от партнёров конференции.
Приезжайте командой, участвуйте лично.
Регистрация 👉 https://l.codefest.ru/data_analysis_ml
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
📌Генерация и отбор признаков в ML
Невероятно полезный и практический notebook на тему генерации и отбора признаков.
Здесь обсуждается очень много полезных вещей, освежить которые перед собеседованием не будет лишним
Вот некоторые из обсуждаемых тем:
🟡Типы признаков: вещественные, категориальные
🟡Преобразования категориальных признаков: label encoding, one-hot encoding, count encoding, кодирование по вещественному признаку, Target encoding, embedding, кодирование циклических категориальных признаков
🟡Преобразования вещественных признаков: бинаризация, округление, binning
🟡Отбор признаков: полный перебор, одномерный отбор признаков
📎 Notebook
@data_analysis_ml
🦾 Dataset of 15 trillion tokens
Только что был опубликован датасет из 15 триллионов токенов (столько же, сколько было использовано для обучения Llama 3)!!!
Скачайте его, пока он не был удален из-за авторских прав.
https://huggingface.co/datasets/HuggingFaceFW/fineweb
@data_analysis_ml
⁉️ Как следить за жизненным циклом ML-моделей, чтобы вовремя их корректировать?
💻 Узнайте на бесплатном практическом уроке «MLFlow и переобучение ML-моделей» от OTUS.
На вебинаре вы узнаете:
- как экспериментировать сразу с несколькими ML-моделями с разными гиперпараметрами;
- как, проводя регулярное переобучение, сравнивать качество работы моделей и выбирать лучший результат;
- как не потерять накопленный опыт и воспроизводить более ранние эксперименты.
👉 Встречаемся 24 апреля в 20:00 мск в рамках курса «MLOps». Все участники вебинара получат специальную цену на обучение и консультацию от менеджеров OTUS!
🔥 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/4c4t/?erid=LjN8KAkvC
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Полезные инструменты недели
• LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀
• Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B.
• LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
• Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично.
• AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект).
• Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI.
• OmniFusion 1.1. - гибридная LLM для работы с картинками
• VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech
📚 Бесплатные книги недели:
▪ Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
▪Google выпустила крутой бесплатный учебник по промпт-инжинирингу!
▪Foundation of computer Vision
▪ Бесплатня книга научная визуализация: Python + Matplotlib
📄Статьи:
— Простейшая нейронная сеть, мой опыт и выводы
— LOCOST и SPECTRUM, два подхода к суммаризации
— Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
— Scaling Instructable Agents Across Many Simulated Worlds
— Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов
— На чем программируют суровый ML в Гугле
— Заменят ли LLM людей в разметке данных для AI?
— Как мы тестировали большие языковые модели для модерации отзывов
— Распознавание лиц на микрокомпьютерах
— Книга «Разработка приложений на базе GPT-4 и ChatGPT»
— Что такое Charmed Kubeflow?
— Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology?
— The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
— From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
— From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications
— The Topos of Transformer Networks
— Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
— Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome
— Increased LLM Vulnerabilities from Fine-tuning and Quantization
— The Use of Generative Search Engines for Knowledge Work and Complex Tasks
— 94% on CIFAR-10 in 3.29 Seconds on a Single GPU
👨🎓 Бесплатные курсы недели
▪ Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета
▪ Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI
с Hugging
▪ Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science.
@data_analysis_ml