908
Добро пожаловать! Меня зовут Мария Жарова, и это мой блог про науку о данных✨ Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝 Автор @NaNCat
Привет, друзья!
Сегодня разберём громкую новинку уходящей недели - Gemini Embedding 2. Это первая омнимодальная модель от Google: она умеет мапить текст, изображения, видео, аудио и документы в единое векторное пространство.
👍 Технические детали:
- Длина вектора 3072, модель может принимать сразу несколько типов данных (но может и один).
- Есть ограничения по входу для каждой модальности:
• текст - до 8192 входных токенов
• изображения - до 6 файлов PNG или JPEG в одном запросе
• видео - до 120 секунд в формате MP4 или MOV
• аудио - принимается без транскрибации (обычно лимит ~80 сек, но здесь явно не пишут)
• документы - PDF до 6 страниц
Привет, друзья!
Сегодня вместо туториалов несколько реальных кейсов из жизни ML-щика. Попробуйте предположить, в чём могут быть проблемы 🧐
😔 Кейс 1 (про ранжирование)
Команда построила улучшенную модель (относительно текущей), которая ранжирует статьи на портале по вероятности клика.
Модель обучается как обычный бинарный классификатор: предсказывает вероятность клика для каждой статьи.
Offline-показатели (в т.ч. на валидации) выглядят отлично:
• ROC-AUC выше, чем у предыдущей версии модели
• LogLoss падает, переобучения нет
Но в онлайн-эксперименте CTR почти не вырос:(
👉 В чем проблема этой модели и как её улучшить?
Есть модель бинарной классификации (например, обнаружение мошеннических операций). Команда решила откалибровать вероятности.
❤️Напомним: то что предсказывает классификатор - это "степень уверенности модели", а процедура калибровки переводит предсказания в интерпретируемые вероятности в математическом смысле.
После калибровки, на отложенной выборке:
• ROC-AUC почти не изменился
• Recall заметно упал...
👉 Почему это могло произойти и как исправить?
Модель предсказывает, вернёт ли пользователь товар после покупки. Таргет простой: returned = 1, если пользователь оформил возврат, и 0 - иначе.
Команда разработала улучшенную версию модели, метрики на offline-валидации получились отличными. Чтобы получить как можно лучшие результаты и в A/B-тесте, команда переобучила модель для тестовой группы на самых свежих данных за последнюю неделю.
Однако после запуска A/B-теста онлайн-метрики новой модели стали заметно проигрывать в первую неделю эксперимента...
👉 Где команда просчиталась?
Привет, друзья!
Вышло очередное долгожданное исследование Habr-карьеры про ЗП IT-специалистов во 2-й половине 2025. Как всегда, можно посмотреть детализацию по языкам программирования, городам и направлениям - но отдельно про DS/ML снова не написали 😢
Однако благодаря логам нашего канала мы можем провести собственную аналитику 😏
Сравнение с точными прошлогодними цифрами для тех, кто назвал себя Data Scientist и ML-разработчик, можете оценить на первых двух скринах (указаны сумма ЗП и премий net). Общий вердикт таков:
• интенсивный рост остановился - в совокупности во всём IT в Москве медианная ЗП поднялась на 4%; если брать все города - не более чем на 2%
• в разрезе грейдов у джунов, стажеров и мидлов ЗП выросла; у сеньоров не особо; а у лидов упала (надеюсь, те кто выбыл из выборки, просто стали тех. директорами🙂)
• забавно, что у удалёнщиков не-джунов ЗП больше, чем у работающих в офисе! подтверждение на последнем скрине 😎
• на графике динамики ЗП производная >0, правда уже не такая большая по модулю относительно прошлого года 👋
По другому свежему исследованию HH.ru мы всё ещё сохраняем позиции в ТОПе самых высокооплачиваемых профессий: DS занял 2-е место с медианной ЗП 250k после... сварщика с ЗП 267k
Пишите ваши варианты, что случилось с лидами и почему удалёнщики больше ценятся:)
Всем хорошей недели и много 💸
#карьера@data_easy
Поговорили с МФТИ о том, что нужно дата-сайентисту сегодня. Навыки, которые были полезны, становятся необходимыми😊
Читать полностью…
Привет, друзья!
Если вы устали от медленного pip, сложных poetry.lock и зоопарка инструментов вокруг Python-окружений, то стоит посмотреть на uv.
🔥 uv - это современный менеджер зависимостей и окружений для Python, который написан на Rust. Почему это не очередной инструмент, а реально новая эра?
😐Все в одном бинаре: установка пакетов, создание и управление виртуальными окружениями, разрешение зависимостей, lock-файлы, запуск Python-команд в изоляции… раньше это приходилось собирать из pip, venv/virtualenv, pip-tools и poetry - а теперь достаточно только uv! Всего один бинарь, и ничего лишнего.
😐Скорость: Rust-реализация + собственная система расчёта зависимостей = мгновенные установки и пересборки, особенно на больших ML-проектах и при CI/CD. Говорят, что может достигать 100x по скорости в сравнении с pip!
😐Глобальный кэш: пакеты, уже скачанные для одного проекта, повторно используются и в других окружениях - как итог, меньше запросов и экономия места на диске.
😐Отличие от poetry / pip: uv не использует за основу существующие инструменты, а сам полностью управляет всем процессом. Это не только быстрее, но и гораздо более предсказуемо - lock-файл читаемый, стабильный и действительно воспроизводимый.
Главное тут, что uv не “оборачивает pip”, а заменяет его функциональность!
🔥 А основные команды до боли напоминают уже знакомые инструменты...
# установка самого uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# проверка
uv --version
# создание окружения и установка зависимостей
uv venv
uv pip install numpy pandas scikit-learn
Привет, друзья! 👋
Некоторые из вас знают, что рекомендательные системы - моя отдельная профессиональная любовь: занимаюсь ими и на работе, и в научной деятельности.
И как-то так вышло, что до сих пор мне ни разу не довелось провести отдельный вебинар, целиком посвящённый рекомендациям.
И вот наконец это свершится😁
В этот вторник подключусь к эфиру от Simulative, где разберу теорию и практику по рекомендательным системам.
Поговорим:
📱 какие бывают типы рексистем и почему не существует «одной универсальной»;
📱 в каких сценариях можно применять рекомендательные системы;
📱 где лучше работают простые методы, а где без ML уже не обойтись;
📱 и как всё это выглядит на конкретных прикладных примерах.
А в практической части попробуем вместе собрать простенькую рексистему и посмотреть на результат. По ходу дела заодно освежим в памяти тренды-профессии-2026 с ноября✌️
Стартуем 20 января, в 19:00 по мск
📱 Ссылка на регистрацию: тык 📱
Привет, дорогие друзья! 🎄
Конец года - хороший момент, чтобы остановиться и оглянуться назад. Вспомнить, сколько всего было сделано, чему удалось научиться и, конечно, загадать желания на грядущий год✨
В Новом Году хочется пожелать вам вдохновения, ясности в целях и уверенности в себе. Чтобы хватало сил на важное, времени - на близких, а энергии - на то, что действительно интересно.
А для желающих погрызть гранит науки в каникулы, как всегда, оставляю пару находок 😏
👉 GitHub А. Дьяконова - преподавателя и популяризатора ML, в его репозиториях можете найти массу полезных материалов. Например, тут огромная подборка конспектов по ML!
👉 Книга от создателя известного YouTube-канала StatQuest - редкий пример материала, где сложные темы по статистике и ML объясняются настолько понятно, что хочется записать каждую фразу.
‼️Если найдётся пара свободных минут, буду рада вашей обратной связи по каналу - можно оставить любые пожелания и предложения в анонимной форме: ➡️ ссылка тут ⬅️
Пусть в Новом Году модели чаще сходятся, данные ведут себя прилично, а результаты экспериментов радуют не только в ноутбуке, но и в реальной жизни.
С Наступающим!✨
#classic_ml@data_easy
#dl@data_easy
#математика@data_easy
Привет, друзья!
В небольшом интервью поделилась, каково быть ML-инженером в WB✌️
А физтехов приглашаем сегодня на лекцию по приёмам-ускорения-обработки-больших-данных 💜
Привет, друзья!
Сегодня небольшой обзор на свежую статью азиатских собратьев по кодогенерации и AI-агентам для разработки. Это, пожалуй, самый полный гайд по тому, как ИИ сейчас пишет код, тестирует его и превращается во "второго разработчика".
Работа называется "From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence" и в ней более 70 авторов!
Ключевые мысли:
😵💫 LLM превращается из "подсказчиков кода" в полноценных разработчиков.
Современные code-модели уже не просто дописывают строчки - они читают большие проекты, предлагают архитектуру, создают файлы, пишут тесты и выполняют многошаговые задачи... Попробуйте Kiro, если ещё не - она теперь открыта для всех👀
😵💫 Но в реальных проектах всё ещё боль.
Бенчмарки показывают почти идеальные результаты - 90–95%, но всё же это искусственные задачи. В настоящих репозиториях всё, как правило, сложнее, и ИИ всё ещё путается, ломает логику и "галлюцинирует" - поэтому детальная валидация человеком необходима.
😵💫 Самая большая проблема - проверка качества.
Прохождение тестов != хороший код.
Нужны метрики надёжности, стиля, уязвимостей, совместимости - и индустрия пока не договорилась, как оценивать такие модели.
😵💫 Python проигрывает.
Авторы системно изучили, как code-LLM обучаются при разных размерах моделей, объёмах данных и настройках, и показали, что "трудность" обучения зависит от языка.
По их выводам, строгие и структурированные вроде Java, C#, Rust требуют меньше параметров и данных, тогда как Python из-за динамической типизации и большого разнообразия стилей оказывается самым сложным для эффективного обучения 🫢
Так что AI-инструменты быстро эволюционируют, появляется даже новая роль - AI Software Operator: человек, который управляет ИИ-инструментами, задаёт рамки и проверяет результат. Разработчиков не заменяют, просто меняется их набор инструментов.
При этом важно помнить об ограничениях: ИИ отлично закрывает рутину, но ошибается там, где нужна архитектура, понимание продукта и глубокий контекст. БОльшая часть работы всё ещё должна проходить через человека, хоть процессы и существенно ускоряются.
Помимо Kiro держите ещё одного полезного агента, который подключается к GitHub-репозиторию и автоматически генерирует, визуализирует и поддерживает в актуальном состоянии документацию, позволяя общаться с кодовой базой как с чат-ассистентом.
➡️ Ссылка на оригинал статьи
На ИИ (не)надейся, и сам не плошай😎
#полезный_ии@data_easy
Привет, друзья!
Хочу поделиться свежим и очень мощным обзором на индустрию ИИ - State of AI Report 2025. Это их восьмой ежегодный отчёт, и, кажется, он важнее, чем когда-либо.
Ключевые инсайты
🤩Открытые модели из Китая усиливаются. Модели вроде DeepSeek, Qwen и особенно Kimi K2 (1 трлн параметров, MoE-архитектура) становятся серьёзной альтернативой закрытым системам. Однако в ТОПе всё ещё модели от OpenAI/Google.
🤩Оптимизация Muon. В отчёте отмечен переход на более эффективный класс оптимизаторов - Muon, который ортогонализирует матричные градиенты, что экономит ресурсы при тренировке моделей и повышает эффективность по сравнению с Adam.
🤩ИИ как инфраструктура. Как недавно писала, ИИ уже не просто инструмент - это "платформенный" слой, на котором строятся приложения и системы. В ТОПе инструментов LangChain, LlamaIndex, фреймворки вроде AutoGPT.
🤩Безопасность - слабое звено. Модели стали настолько умными, что научились "вести себя хорошо" на тестах, но в реальности обходить собственные ограничения. Это делает безопасность одним из самых слабых звеньев индустрии.
🤩Экономика ИИ растёт. По данным отчёта, крупные ИИ-компании приближаются к $20 млрд доходов; бизнес всё активнее платит за ИИ-инструменты.
🤩Агенты + tooling = тренд года. Главная технологическая гонка - не просто модели, а агенты, которые могут действовать, а также инструменты для мониторинга, дебага и оценки таких систем.
🤩Мировоззрение и оптимизм. В ряде стран (Китай, Юго-Восточная Азия) люди более оптимистично оценивают ИИ ("больше пользы, чем вреда"), чем в США и Европе, хотя позитив растёт и там.
Чем это важно для нас?
😨 Тренд на agentic ИИ означает, что скоро модели будут не просто отвечать - они будут действовать, проверять гипотезы и решать задачи автономно. Это открывает новые возможности, но и риски.
😨 Более дешёвая и эффективная тренировка (через Muon и др.) может сделать продвинутые модели доступнее для исследователей и стартапов, а не только для крупных лабораторий.
😨 Рост open-weight моделей == шанс для open-source-сообщества: участвовать, дообучать, интегрировать.
😨 Безопасность ИИ - всё ещё серьезная проблема: нужно думать не только о "что можно сделать", но и о "что может пойти не так".
Полная версия отчёта на 313 слайдов доступна по ссылке.
Хорошей недели!☃️
#полезный_ии@data_easy
Привет, друзья!
Вдогонку к подборкам ресурсов для подготовки к собеседованиям (тык и тык) ещё одна полезная коллекция. Здесь только практические упражнения и примеры по Python, SQL, EDA, визуализации и ML. Всё бесплатно и подходит как новичкам, так и тем, кто хочет держать себя в тонусе.
❤️ Kaggle Learn
Это учебный раздел с туториалами в формате jupyter-ноутбуков и заданий к ним. Тут представлены почти все инструменты работы с данными: Python, Pandas, SQL, визуализация, а также геоданные, тайм-серии и немного DL. Материалы короткие и практические: ноутбуки можно использовать как шпаргалки, а упражнения со встроенной системой проверки помогут закрепить все на практике.
➡️ ссылка
❤️LeetCode SQL
Раздел с задачами по SQL существует уже несколько лет, но часто остается в тени основного контента. А здесь можно найти сотни нескучных задач от базовых SELECT до сложных запросов. Формат также помогает: большие наборы данных, строгие тесты и подсказки, где решение не прошло.
➡️ ссылка
❤️HackerRank
Один из самых известных тренажёров по самым разным направлениям программирования. И здесь есть задачи по Python, SQL и даже основам “AI”. Уровень выше, чем на других ресурсах: задачи более объёмные и требуют погружения в нюансы условий.
➡️ ссылка
❤️w3resource
ОГРОМНАЯ подборка упражнений по самым разным разделам Python со встроенным редактором кода. Из особенно интересного: есть множество задач по Pandas и Numpy, в том числе с математическим подтекстом.
➡️ ссылка
Пишите, какие задания покажутся самыми интересными. И удачи в борьбе с автотестами😉
#карьера@data_easy
Привет, друзья!🍁
Похоже, ydata-profiling сдаёт позиции - библиотеки для “анализа-данных-в-одну-строчку” становятся всё умнее и красивее.
Недавно наткнулась на ещё одну интересную утилиту - PyGWalker. Помимо наглядного отчёта, у неё есть несколько крутых преимуществ:
➡️ отрабатывает почти мгновенно (особенно на средних по размеру датасетах, точно быстрее ydata);
➡️ в открывающемся интерактивном окне можно буквально перетаскивать колонки для построения графиков, менять их тип, стиль и т.п.;
➡️ ну и самое интересное - это встроенный ИИ-помощник прямо в ноутбуке, который обещают бесплатно для студентов (по вузовской почте).
🍁С чего начать?
➡️ Установите библиотеку:
pip install pygwalker
import pandas as pd
import pygwalker as pyg
df = pd.read_csv("data.csv")
pyg.walk(df)
Привет, друзья!
Возвращаюсь из трудовых будней🫡 В октябре свершилось долгожданное событие, про которое нельзя не сказать - официально вышла новая версия Python 3.14!
Главные изменения, которые особенно важны для DS-ML и не только:
🐍 Долой GIL!
Более «официальным» стал вариант сборки Python без глобальной блокировки интерпретатора. Эта фича появилась как чисто экспериментальная в Python 3.13, в новой же версии её доработали. Однако в однопоточном режиме код с отключенным GIL всё ещё работает на 5-10% медленнее - поэтому имеет смысл отключать его только в определённых участках кода или пользоваться старыми добрыми joblib и concurrent.
Появилась опция автоматической JIT (just-in-time) компиляции, которая ускоряет повторяющиеся участки кода - можно активировать режим через переменную окружения PYTHON_JIT=1. Как можно воспользоваться подобной опцией в более ранних версиях - есть в этом
посте.
В продолжение темы ускорения кода и параллелизма, появилась возможность запускать несколько интерпретаторов в одном процессе - воспользоваться можно через concurrent.interpreters. Из минусов - опция пока не до конца оптимизирована и может потреблять много памяти. А ещё появились новые улучшения в asyncio и отладке асинхронного кода.
Это новый вид строковых шаблонов, похожий на f-строки, но с расширенными возможностями. Самое главное - можно самим задать, как именно будут подставляются значения. Если f-строки просто вставляют текст, то новые шаблоны позволяют, например, автоматически экранировать данные для SQL или форматировать их по своим правилам.
Аннотации типов теперь не вычисляются сразу при импорте модуля - это ускоряет их и убирает часть проблем с круговыми зависимостями. Однако стоит иметь в виду, что код, который раньше зависел от немедленной оценки аннотаций, может работать иначе.
Ошибки стали объясняться понятнее, особенно в типовых опечатках и неверных типах. А ещё интерпретатор теперь умеет подсказывать:)
Привет, друзья!
Мы привыкли считать, что на табличных данных бустинг не победить: CatBoost, LightGBM и XGBoost долгие годы остаются золотым стандартом. Но последнее время появляется много нейросетевых моделей "из коробки" специально для таблиц, которые даже местами обгоняют классиков. Ниже - подборка трёх наиболее интересных архитектур.
🐱 TabM
Архитектура основана на MLP с параметрически-эффективным ансамблированием. Внутри одной сети обучаются несколько "виртуальных моделей", которые делят общие веса и отличаются только небольшими адаптер-модулями.
Сама модель от Яндекса, на больших бенчмарк-датасетах уверенно конкурирует с CatBoost и LightGBM.
✨ репозиторий на GitHub
✨ статья на arXiv
✨ демо в colab
🐱 TabPFN
Модель на базе трансформера, предобученного на огромном количестве синтетических таблиц. Работает как готовое универсальное решение "из коробки": вы подаёте данные, а она сразу выдаёт предсказания без длительного дообучения. Отлично подходит для малых и средних наборов данных, где нет времени или ресурсов на настройку.
✨ репозиторий на GitHub
✨ официальная страничка решения
✨ демо в colab
✨ статьи: оригинальная и более свежая про улучшенную версию
🐱 SAINT
Transformer-архитектура с вниманием не только по признакам, но и между самими объектами. Дополнительно использует контрастивное предобучение, что помогает лучше выделять структуру данных и устойчиво обучаться.
Особенно хороша на датасетах, где важно учитывать сложные зависимости между объектами, а также для задач с большим числом категориальных признаков.
✨ репозиторий на GitHub
✨ статья на arXiv
Судя по бенчмаркам, эти архитектуры полезны на больших и сложных таблицах с множеством признаков/категорий, где классический бустинг может упираться в ресурсы. На простых или небольших датасетах легендарное Boost-трио пока надёжнее и проще в настройке🐈🐈🐈
Удачных экспериментов и высоких метрик!
#classic_ml@data_easy
#dl@data_easy
Привет, друзья!
Сегодня на повестке Chatterbox Multilingual от Resemble AI: открытая, мультиязычная и эмоционально-настраиваемая text-to-speech модель.
🐦 Немного деталей:
- Поддержка 23 языков (и русский тоже).
- 0.5B параметров, в основе LLaMA-3, обучение на 500k часов разнопланового качественного аудио.
- Latency <200 мс, что отлично подходит для realtime-ассистентов.
- Лицензия MIT - а значит, можно использовать и кастомизировать без ограничений.
- И самое интересное - zero-shot voice cloning: модели хватает пары секунд речи, чтобы склонировать голос... А параметр exaggeration регулирует эмоции: от сухой монотонности до театральной драматичности.
🐦 Что по сравнению с конкурентами?
В "слепом" тестировании 63.75 % людей выбрали Chatterbox вместо ElevenLabs. Для Open-Source это очень серьёзная заявка! Полный отчёт доступен по ссылке.
🐦 Ссылки на все источники:
- репозиторий на GitHub
- ссылка на ДЕМО, где можно протестировать модель - оно же страничка на HF
Так что пара строк на Python, и у вас готов голос под подкасты, ассистентов, локализацию и другие проекты. Это новый виток в голосовом AI, который можно свободно использовать и кастомизировать. Надеюсь, что такие технологии будут служить только на пользу🤞
#полезный_ии@data_easy
#аудио@data_easy
Привет, друзья!
Время разбирать кейсы из прошлого поста 😔
Ниже скрыты разгадки…
🙂 Кейс 1 (про ранжирование)
Самая главная проблема: задача была про ранжирование, а модель обучалась как обычный классификатор.
Хоть такой подход и имеет место быть, стоит помнить, что ROC-AUC и LogLoss оценивают качество вероятностей - но не обязательно отражают качество порядка объектов. В ранжировании важно, какие статьи окажутся выше других, а не только насколько хорошо модель предсказывает вероятность клика в среднем.
Поэтому в первую очередь необходимо попробовать ранжирующие функции потерь (например, pairwise и listwise подходы), и на валидации оценить метрики ранжирования (NDCG, MAP, Precision@k).
Идеи взять более сложный алгоритм, учитывать популярность, временные факторы и т.п. также могут дополнительно улучшить модель:)
Почему так произошло? Идейно калибровка не меняет порядок объектов, а лишь монотонно преобразует вероятности, изменяя их распределение.
ROC-AUC как раз зависит только от порядка предсказаний и не зависит от порога - поэтому он почти не изменился. А вот Recall напрямую связан с порогом - и видимо, его старое значение перестало быть оптимальным.
Чтобы это исправить, достаточно просто переподобрать порог классификатора.
Проблема кроется во фразе: “Команда обучила модель на данных за последнюю неделю…” Если таргет - возврат товара, то он, как правило, происходит через некоторое время после покупки. Поэтому если обучаться только на “самых свежих” данных, то для многих заказов возврат ещё просто не успел произойти - соответственно, такие покупки помечаются как returned = 0.
В качестве решения необходимо по историческим данным рассчитать типичную задержку между событием и таргетом и на её основе выбрать подходящий диапазон данных - чтобы обучаться только на заказах, для которых уже прошло достаточно времени, чтобы возврат мог произойти.
Привет, друзья!
LLM хоть до сих пор и выглядят как «хайповая новинка», за последние пару лет вокруг них уже успело накопиться достаточно знаний, разборов и практических гайдов. Собрала несколько самых свежих/интересных материалов от статей до видеокурсов 😔
📝Hugging Face Smol Training Playbook
Компактный и прикладной гайд по обучению небольших и средних LLM: здесь всё про инфраструктуру, рецепты стабилизации и повышения качества в формате чек-листа.
Язык: english
Ссылка: тык
📝 Alex Wa's Blog, Frontier model training methodologies
Более глубокий инженерный разбор того, как тренируют SOTA-модели. Можно освежить базу (трансформеры, лоссы, оптимизаторы), а затем погрузиться в современные архитектуры, этапы обучения и реальные инженерные приёмы - по сути, это мини-книга с множеством практических инсайтов.
Язык: english
Ссылка: тык
📝 Курсы APXML
Тут найдёте огромную подборку мини-курсов: от базового Python до полного цикла работы с LLM. Есть как вводные материалы, так и про детали обучения, продакшен-аспекты и так называемый LLMOps. Всё в формате статей с указанием примерного времени прохождения - удобно планировать.
Язык: english
Ссылка: тык
📝 GPT Week от Яндекса
Это относительно не новый плейлист лекций и демо по GPT-технологиям 2023 года. Но материалы остаются весьма актуальными - особенно для новичков или тех, кто хочет системно освежить фундамент.
Язык: русский
Ссылка: тык
📝 LLM Scaling Week от Яндекса
А это свежий интенсив ноября 2025 с очень насыщенной программой: сначала теория, затем глубокое погружение в инфраструктурные вопросы, оптимизацию и инференс LLM. В описаниях к видео найдёте презентации и код - так что можно не просто слушать, а попробовать всё руками.
Язык: русский
Ссылка: тык (видео доступны по ссылкам, список внизу страницы)
Стабильного обучения и быстрого инференса!
#nlp@data_easy
📊Создавать модели — недостаточно: как дата-сайентисту повысить свою ценность на рынке
Говорят, что сегодня дата-сайентист не только разрабатывает модели машинного обучения, но и помогает компаниям принимать решения и развивать технологии. Так ли это?
Редакция Пуска решила разобраться в этом вопросе и обратилась к Марии Жаровой, ML-инженеру в команде рекомендаций Wildberries и эксперту Центра «Пуск» МФТИ. В карточках Мария рассказала о востребованных навыках дата-сайентиста.
⬇️ А в комментариях предлагаем поделиться, что сейчас влияет на вашу профессиональную ценность
Привет, друзья!
Занятный, но логичный факт: большинство AI-стартапов - это просто вызов LLM 🌚
Это выяснил инженер Теджа Кусиредди. Он решил проверить, сколько “прорывных ИИ-компаний” на самом деле имеют собственные модели. Для этого он проанализировал сетевой трафик, фронтовый код и API-вызовы примерно у 200 стартапов.
Результат оказался громким: около 73% не имеют своей ИИ-архитектуры. Под капотом просто вызовы к OpenAI, Claude и другим крупным провайдерам.
Привет, друзья!
Недавно наткнулась на классный образовательный ютуб-канал freeCodeCamp - кладезь уроков, многие из которых - полные университетские курсы от ведущих ВУЗов мира.
Ниже подборка видео по темам из DS и ML:
📚 Python с нуля
16-часовой курс от Гарварда по Python - от основ до ООП
➡️ ссылка
📚 Git для новичков
Свежее видео на 2026 про все основные команды за полтора часа
➡️ ссылка
📚 Алгоритмы и структуры данных
Целых 48 часов теории с примерами😱
➡️ ссылка
📚 Базы данных и SQL
Ещё один курс от Гарварда в одном 11-часовом видео
➡️ ссылка
📚 LLM с нуля
За 6 часов объяснение MoE, SFT, RLHF и разбор того, как обучаются современные LLM
➡️ ссылка
📚 Fine-tuning LLM
Продолжение темы: что, зачем и как дообучать, и где это вообще имеет смысл
➡️ ссылка
📚 Разбор Qwen
Отдельное видео про архитектуру и детали (здесь найдёте про muon)
➡️ ссылка
📚 Гайд по агентам
Если интересна агентная логика, пайплайны и взаимодействие LLM с окружением
➡️ ссылка
И конечно, всех с Днём Студента! Для нашей профессии пословица "век живи - век учись" особенно актуальна👩🎓
#python@data_easy
#nlp@data_easy
#classic_ml@data_easy
Привет, друзья!
Пока все обсуждали LLM и доедали салаты, в мире генеративного видео вышла новая модель LTX-2 от Lightricks, которая умеет генерировать видео по тексту, анимировать изображения и управляемо модифицирует сцены, сохраняя их структуру и движение. А главное - эта модель open-source, так что всё можно запустить локально 😏
Классических численных бенчмарков в статье нет, но по человеческим оценкам LTX-2 уже сравнима с Veo 3 и самой свежей Sora 2 по качеству картинки и согласованности аудио-видео.
🤩Технические детали
LTX-2 построена на Diffusion Transformer (DiT) - это гибрид диффузионной модели и трансформера, специально адаптированный под видео.
Упрощённо, обычные diffusion-модели думают кадр за кадром, а LTX-2 думает сразу про всю временную последовательность.
Поэтому мы получаем:
— меньше “дрожания” и случайных артефактов
— движения выглядят более непрерывными
— объекты реже “ломаются” между кадрами
Плюс модель оптимизирована под реальный инференс.
🤩Что это значит для нас?
LTX-2 - редкий пример качественной open-source video-модели, которую можно запускать локально, воспроизводить результаты и использовать для реальных экспериментов. При этом их код - это не research-прототип, а полноценный фреймворк: убедитесь сами, заглянув в репозиторий.
🤩Полезные ссылки:
— статья с arxiv: тык
— GitHub (там же в README вся документация и инструкции по запуску): тык
— веса на HF: тык
— гайд, как писать промпты для модели: тык
Ждём, когда тик-ток окончательно погрязнет в ИИ-контенте 👊
#cv@data_easy
#полезный_ии@data_easy
Как попасть на позицию ML-инженера в Wildberries & Russ: рассказывает Мария Жарова
Кстати, кто из МФТИ? Мария выступает у вас с темой «приемы ускорения обработки больших данных» 15 декабря в 16:00, подключайтесь 🩷
Привет, друзья!
Держите классный ресурс, который может стать одним из лучших учебников для всех, кто строит ML-продукты, занимается MLOps, оптимизацией моделей или просто хочет понимать, как устроены реальные машинно-обучающие-системы под капотом.
Речь про Machine Learning Systems от профессора Гарварда Vijay Janapa Reddi с участием инженеров Google и исследователей из MIT/Harvard. Создатели формулируют идею книги так:
"Сегодня студентов в основном учат тому, как обучать модели машинного обучения — но лишь немногие получают знания о том, как создавать системы, делающие эти модели реально полезными в жизни. По мере того как возможности искусственного интеллекта стремительно растут, дальнейший прогресс будет всё меньше зависеть от появления новых алгоритмов — ведь сам ИИ всё чаще сможет их совершенствовать, — и всё больше от появления инженеров, которые способны разрабатывать масштабируемые, эффективные и ответственные системы, воплощающие эти алгоритмы в реальность."
Привет, друзья! 👋
ML сейчас переживает насыщенный период: одни технологии становятся must-have, другие уходят на второй план, а бизнес всё чаще ждёт от инженеров не «магии», а обоснованных и прикладных решений. Это меняет и задачи, и требования, и саму роль ML-специалистов - как для тех, кто только входит в профессию, так и для тех, кто уже давно в ней.
В эту среду мы как раз соберёмся обсудить, какие задачи сейчас формируют работу ML-инженеров и что реально ценится на рынке - на открытом вебинаре от Simulative, к которому я присоединюсь в качестве спикера.
Поговорим о самом важном:
➡️ почему ML-инженеры нужны почти в любом бизнесе - от маркетплейсов до логистики;
➡️ какие реальные задачи нам прилетают и что приходится решать на практике;
➡️ какие навыки действительно требуют работодатели;
➡️ и, конечно, будет мини-практика: рассмотрим простой, но показательный кейс сегментации клиентов интернет-магазина.
Словом, разберёмся в тонкостях профессии, посмотрим на актуальные тренды и просто пообщаемся 😉
➡️ Зарегистрироваться можно здесь
Привет, друзья!
На горизонте появляется новый тип инструментов - “базы данных для AI-агентов”.
Недавно вышел сервис AgentDB - облачная СУБД, которая создаёт базы буквально “на лету”.
🫤 Что это такое?
Итак, AgentDB - это облачная база-данных-как-сервис, ориентированная на AI-приложения. Главная идея: каждый агент, сессия или запрос может получить собственную базу данных, без поднятия серверов, настройки схем и деплоя инфраструктуры.
Под капотом используются SQLite и DuckDB, но всё управляется через облачный API: за пару команд можно легко и просто создать базу (в официальной документации есть примеры для JavaScript, для питона нужно оформлять через REST/cURL).
🫤 Чем это отличается от обычных баз?
В классическом мире у нас одна PostgreSQL/MySQL база и куча агентов, которые ходят в неё параллельно. Это создаёт узкое место - контексты, временные таблицы, коллизии и синхронизация. А AgentDB решает это радикально:
- каждая сессия получает изолированную, “одноразовую” базу;
- создание базы занимает миллисекунды;
- не нужно администрировать, масштабировать и следить за соединениями;
- есть поддержка векторных операций (для эмбеддингов, RAG-сценариев);
- поддерживает SQL + семантические запросы.
🫤 Когда это реально полезно?
- Мультиагентные системы: когда каждый агент должен иметь свой контекст или память (например, своя история диалога, векторы, параметры).
- RAG-платформы: можно хранить отдельные индексы и эмбеддинги для разных источников данных, пользователей или запросов.
- Временные песочницы для анализа: когда нужно создать временную БД для быстрой агрегации данных или обучения.
- Облачные приложения с пользовательскими базами: можно давать каждому пользователю “его базу” без головной боли по её настройке.
🫤 Как попробовать?
- Зайдите на https://agentdb.dev
- Зарегистрируйтесь, есть бесплатный план (до 1 ГБ)
- Попробуйте создать тестовую базу в пару строк кода или через REST-вызов (документация https://api.agentdb.dev)
- А ещё можно загрузить файлы напрямую, превратив их в БД + в веб-интерфейсе доступен встроенный ИИ-помощник, который может выполнять анализ данных по вашему запросу и покажет SQL-скрипты всех шагов.
Сама документация простая и напоминает Supabase.
Будущее data-архитектуры для AI наступило 🧩
#mlops@data_easy
#nlp@data_easy
Привет, друзья!
Говорят, что именно этап ML System Design помогает наиболее точно отличить джуна от сеньора на собеседовании - поэтому многих он до сих пор пугает, а четких рецептов, как к нему готовиться и как проходить, всё ещё не так много...
🤔 Кто такой этот MLSD?
Это не про «какой градиентный бустинг лучше» - это про то, как собрать ML-решение, стабильно работающее в проде: от формулировки задачи и метрик, через сбор и валидацию данных, фичи и обучение, до деплоя, мониторинга, CI/CD и A/B. В интервью смотрят как бы вы решали задачу с нуля, получив её от заказчика (разумеется, обычно сам кейс приближен к работе на этой позиции). А также проверяют, что вы думаете не только как DS-экспериментатор-с-модельками, но и как инженер, и немного как product-менеджер.
🤔 Если очень кратко, то рабочая схема ответа следующая:
1). Постановка задачи.
Начните с уточнения цели и бизнес-метрики: что именно система должна оптимизировать — точность, прибыль, CTR? Какие есть ресурсы на работу системы и ограничения? Какое допустимое время отклика? Какие есть данные?...
Постарайтесь также задать на старте все уточняющие вопросы: на этом этапе важно показать структурное мышление и умение связать продуктовую цель с техническим решением.
2). Сбор данных.
Опишите источники данных и то, как вы проверяете их качество. Отдельно подчеркните борьбу с утечками данных и опишите стратегию разбиения на train/val/test.
3). Feature engineering & EDA.
Покажите, что вы умеете находить и формировать эффективные признаки/сигналы из данных. Отметьте ключевые шаги: исследование распределений, обработка выбросов, кодирование категорий, feature rngineering... Тут уже будет зависеть от специфики направления, по которому собеседуетесь.
4). Моделирование.
Обязательно начинайте с простого baseline, возможно даже без ML (!!!) и постепенно усложняйте, обосновывая выбор модели исходя из ограничений. Укажите, как вы контролируете переобучение и обеспечиваете воспроизводимость экспериментов. Интервьюерам важно видеть не только техническую грамотность, но и способность делать разумные инженерные компромиссы.
5). Оценка.
Подчеркните, что выбор технических метрик зависит от задачи: например, что важнее - precision или recall? Упомяните проверку стабильности на разных сегментах и использование A/B-тестов для финальной онлайн-оценки. Добавьте пару слов про latency и надёжность - это показывает, что вы думаете о продакшене, а не только о цифрах в ноутбуке.
6). Деплой и мониторинг.
Опишите выбранный формат деплоя (batch, online или streaming) и то, как вы отслеживаете стабильность модели после запуска. Если знакомы с архитектурными фреймворками - можете поподробнее порассуждать про конкретные. Важно упомянуть мониторинг дрейфа данных и качества, систему алертов и переобучение по расписанию.
Привет, друзья!
Сегодня - короткая подборка роадмапов и ресурсов по изучению DS-ML. Всё проверенное и пригодное для подготовки к интервью и планирования обучения.
🐾 Матрицы компетенций от AndersenLab
Показывает, какие навыки ожидаются на разных грейдах и уровнях, удобно для формирования чек-листа роста и оценки прогресса.
✨ ссылка (выбирайте Python в специализации и AI/DS/DE/ML в Skill category)
🐾 Machine Learning Roadmap от MachineLearningMastery
Большая пошаговая инструкция: от математики и базовых алгоритмов до продакшена и MLOps, где расписаны все шаги со ссылками на книги, полезные статьи и курсы.
✨ ссылка
🐾 Deep-ML - практические ML/DL задачки
Онлайн-платформа с наборами реальных задач по ML/DL/NLP/CV. Формат близок к продакшену: нужно думать не только о модели, но и о фичах, пайплайнах, метриках. Есть задания для прокачки инженерных навыков.
✨ ссылка
🐾 NeetCode - roadmap + LeetCode-style подготовка
Сайт, посвященный алгоритмам и структурам данных: задачи собраны в тематические дорожки (arrays, trees, graphs и т.д.), есть разборы и объяснения. По духу похож на LeetCode, но структурированнее и понятнее для быстрой подготовки.
✨ ссылка
😎 Рецепт, как собрать из этого рабочий план:
1. Берём матрицу компетенций, отмечаем свои навыки и пробелы, получаем список приоритетов.
2. По роадмапам строим порядок изучения и выбираем подходящие ресурсы.
3. Подключаем практику: задачи на Deep-ML, вопросы для повторения, тренировка алгоритмов и структур.
А ещё на прошедшей неделе в канале стукнуло 💯 подписчиков!
Спасибо каждому, кто читает, комментирует, задаёт вопросы и просто остаётся здесь.
Этот канал начинался как небольшой личный проект, а превратился в сообщество, где можно вместе учиться и расти в Data Science.
Дальше - больше💜
#карьера@data_easy
Привет, друзья!
Поздравляю с нашим профессиональным праздников - 256-м днём в году!
Пока вайбкодинг ещё не вытеснил программеров в Data Science, и пока Python играет одну из ключевых ролей, давайте освежим важные особенности языка, которые часто спрашивают даже у сеньоров на собеседованиях ✍️
1. Python со статической или динамической типизацией?
Напомним разновидности:
- Статическая типизация (C++, Java): тип переменной задаётся заранее и проверяется до запуска программы.
- Динамическая типизация (Python, JavaScript): тип переменной определяется во время выполнения программы - а именно, в момент присваивания. В Python это происходит при исполнении соответствующей строки кода (ведь он интерпретируемый), поэтому одна и та же переменная может в разные моменты хранить объекты разных типов.
Вспомним, что итерируемый объект - это то, из чего можно последовательно доставать элементы (список, множество, строка).
Итератор - это «механизм перебора»: объект, который умеет по одному выдавать элементы итерируемого объекта. Для этого у него есть методы iter (возвращает сам итератор) и next возвращает следующий элемент)
Генератор — это удобный способ создать итератор. Его пишут через yield или в виде генераторного выражения. Главное отличие: генератор сам запоминает своё состояние между вызовами и продолжает работу с того места, где остановился.
return завершает функцию и возвращает одно значение.
yield приостанавливает функцию, возвращает значение, но сохраняет её состояние, чтобы можно было продолжить выполнение этой функции позже. Используется как раз для создания генераторов!
Декоратор - это вызываемый объект (функция или класс с call), который принимает другую функцию или класс и возвращает «обёрнутую» версию. То есть позволяет добавлять новое поведение к функциям/классам без изменения их кода (примеры: логирование, кеширование, измерение времени работы фунции).
Есть четыре уровня пространств имён:
- Local (локальное внутри функции)
- Enclosing (это локальное пространство переменных внешней функции, к которому может обращаться внутренняя функция, если она определена внутри этой внешней)
- Global (глобальное внутри модуля)
- Built-in (встроенные объекты Python).
Запоминается по правилу LEGB.
В Python аргументы передаются по ссылке на объект, но сами ссылки копируются. Если объект изменяемый (список, словарь) - изменения видны и снаружи функции. Если неизменяемый (int, str, tuple) - создаётся новый объект.
Python управляет памятью автоматически: у каждого объекта есть счётчик ссылок - когда на объект больше нет активных ссылок, память освобождается сразу. Для циклических ссылок (когда объекты ссылаются друг на друга) работает отдельный garbage collector, который периодически запускается в фоне.
GIL (Global Interpreter Lock) - это глобальная блокировка интерпретатора, которая не позволяет одновременно выполнять код в нескольких потоках. Поэтому для CPU-ограниченных задач многопоточность в Python не даёт прироста. Но она хорошо работает для задач ввода-вывода (I/O) и для вычислений внутри библиотек, реализованных на C/C++ (NumPy или Faiss), которые обходят GIL.
Дескриптор - это объект с методами set/get/delete который управляет доступом к атрибуту другого класса. На дескрипторах реализованы property, методы класса, статические методы.
Менеджер контекста - это объект, у которого определены методы enter и exit. При входе в блок with вызывается enter, при выходе - exit, что гарантирует корректное освобождение ресурсов (например, закрытие файла).
Привет, друзья!
В продолжение подборки вводных курсов по ml держите коллекцию свежих бесплатных пособий и материалов по продвинутому DL и LLM✨
Тут и академические курсы, и практические репозитории, и настоящие «инженерные экскурсии» в мир SOTA-моделей 🤓
📚 Курс от MIT «Introduction to Deep Learning»
Самый полный и актуальный ввод в deep learning на 2025 год.
➡️ Лекции от основ до LLM и генеративного ИИ.
➡️ Практика из трёх крупных проектов: CV, LLM и музыка.
➡️ Всё запускается в Colab, можно не беспокоиться о ресурсах.
🔗 Сайт курса
🔗 Код и задания
📚Hugging Face «UltraScale LLM Playbook»
Руководство, как обучать LLM-модели на триллионы параметров.
➡️ Разбирается весь стек технологий: Tensor/Pipeline/Data Parallelism.
➡️ Оптимизация памяти и советы по железу.
➡️ Взгляд изнутри на инженерные задачи уровня SOTA.
🔗 Playbook на Hugging Face
📚 GitHub-репозиторий «LLM from scratch»
Это сокровище уже собрало почти 70k звезд!
➡️ Реализация GPT и attention с нуля.
➡️ Основы CUDA и PyTorch, пошаговые видео.
➡️ Предобучение, файнтюн, работа с текстовыми данными.
🔗 GitHub-репозиторий
📚LLM Agents Learning (Fall 2024)
Курс о том, как работают и строятся LLM-агенты: от базовых концепций до сложных пайплайнов. Отличный старт для тех, кто хочет разобраться, что «под капотом» у современных чат-ботов.
🔗 Сайт курса
📚 LangChain Academy «Intro to LangGraph»
Бесплатный курс от создателей LangChain.
Покрывает основы LangGraph: библиотеки для построения графов агентов и оркестрации LLM.
🔗 Сайт курса
Успехов в наступающем учебном году!😄🍀
#nlp@data_easy