ml_inside | Unsorted

Telegram-канал ml_inside - MLinside - школа ML

2655

Предзапись на 3 поток курса "База ML": https://clck.ru/3M4hvK Наши курсы: https://taplink.cc/mlinside Чат коммьюнити: @ml_insidechat По вопросам: @ml_inside_manager

Subscribe to a channel

MLinside - школа ML

🔥Вопросы с собеседований

Мы снова подготовили для вас вопросы, которые часто встречаются на собеседованиях по ML 📚

Ответы мы опубликуем в понедельник, а пока ждем ваши варианты в комментариях! 💬

📌 Вопросы:

1️⃣ В чём разница между методами ансамблирования моделей: бэггинг и бустинг?
2️⃣ В каких случаях увеличение количества данных для обучения не поможет избежать переобучения?
3️⃣ Что такое прунинг деревьев? Зачем он нужен, и какие виды существуют?

#собеседование

Читать полностью…

MLinside - школа ML

Знакомая ситуация? 😅

Ожидания от модели — небесные, качество данных — под землей.

👇 Поделитесь в комментариях под мемом, какие самые странные вещи вы видели в датасетах.

#мемнедели

Читать полностью…

MLinside - школа ML

▶️ На нашем YouTube-канале вышло интервью с Константином Чукреевым — Growth Product Lead в Manychat, ранее работал в Яндекс Лавке, где за короткий срок прошел путь от ML-разработчика до продакт менеджера уровня Middle+.

Константин рассказывает:
▪️ Как он переходил из аналитики и ML в продакт-менеджмент.
▪️ Какие задачи решал в Яндексе и Manychat.
▪️ Какие навыки нужны продактам и ML-специалистам для развития.
▪️Советы молодым специалистам по Data Science и ML
▪️ Будущее чатботов с ИИ и перспективы AI через 5–10 лет.
▪️ Как делать карьерный переход и кому стоит идти в продакт-менеджмент

🎯 Интервью для тех, кто хочет развиваться на стыке ML, аналитики и продукта.

🔥Спойлер: если вы хотите курс от MLinside и Константина специально для продакт-менеджеров — обязательно посмотрите это интервью!

👉 Смотреть здесь

Читать полностью…

MLinside - школа ML

📣 Уже совсем скоро стартует Aha!25 — одна из крупнейших технических конференций по ML, AI, аналитике и продакт-менеджменту!

📍Когда: 29–30 мая
📍Где: Москва, кластер «Ломоносов» (МГУ)

Что вас ждет:
🔹 1200+ участников
🔹 80+ докладов
🔹 16 тематических потоков
🔹 Спикеры из Яндекса, Авито, OZON, Альфа-Банка, Т-Банка и других
🔹 Дополнительный онлайн-день 22 мая

🔥 Мы — партнеры конференции, помогли в организации секции по ML, в рамках которой вас ждет выступления на темы классических бизнес-задач, решённых с помощью ML, AI-предпринимательства и генеративного ИИ.

🎤 Кроме того, 29 мая основатель нашей школы и эксперт по Big Data & AI Виктор Кантор выступит с докладом и расскажет, какие задачи в AI действительно ценятся рынком — и за что готовы платить.

🎟 Билеты — на официальном сайте конференции
💥 Промокод MLINSIDE даст скидку 20% на скидка на онлайн- и офлайн-билеты!

Читать полностью…

MLinside - школа ML

Вопросы и задача с собеседований 🔥

В очередной раз подготовили для вас несколько вопросов и задачу, которые могут встретиться на интервью!

💬 Наши ответы опубликуем в пятницу, а сейчас ждём ваших ответов в комментариях!

📌 Вопросы и задача:

1️⃣ Как оценить переобучение без тестовой выборки?

2️⃣ Как быть, если у модели высокий precision, но низкий recall, а заказчик хочет наоборот — максимум охвата, даже ценой ложных срабатываний?

3️⃣ Задача — чему будет равен ROC-AUC для следующих данных и предсказаний? Посчитать руками!

Истинная метка:
1 0 1 1 0
Предсказание модели - метка:
1 1 1 0 0
Предсказание модели - число:
0.9 0.8 0.7 0.4 0.3


#собеседование

Читать полностью…

MLinside - школа ML

🔁 Проблема Feedback loop в рекомендательных системах - Почему алгоритм может зациклиться и начать показывать тебе одно и то же?

Ты смотришь видос на YouTube → YouTube понял, что тебе понравилось → показывает похожие → ты снова смотришь → алгоритм думает что тебе это и надо показывать → И так по кругу.

🤖 Тем самым модель не может предложить что-то кардинально новое и усиливает уже существующие паттерны.

🎯 Какие бизнес-метрики
страдают из-за feedback loop:

1️⃣ Diversity (падает разнообразие контента) → падает интерес → снижается вовлечённость. Конкретные метрики - content diversity score, entropy of recommended items

2️⃣ User Retention (падает удержание пользователей) → пользователи не делают повторных визитов. Конкретные метрики - day 7 / day 30 retention, churn rate, MAU/DAU

3️⃣ Cold Start Problem усиливается - новым пользователям и новым продуктам тяжело попасть в рекомендации, теряется прибыль. Конкретные метрики - % новых категорий/товаров показанных пользователям в первые X дней, время до первого показа нового товара

🧠 Что с этим делают в индустрии? Решения, применяемые в YouTube, TikTok и Netflix:

1️⃣ Exploration/Exploitation trade-off - периодически рекомендуют что-то случайное/редкое, чтобы собрать новую информацию.
2️⃣ Policy-based ML - обучение моделей на основе reinforcment learning, оптимизируем не просто на клик/не клик, а на получение “награды” пользователем, которая повлияет на долгосрочные метрики и спровоцирует желаемое поведение пользователей.
3️⃣ Re-ranking с diversity penalty - после получения топ-N кандидатов, применяется переранжировка, которая штрафует за однотипность (например, если все видео с одного канала).

Вопрос для читателей - 🔍 Как в оффлайне заметить feedback loop? Пишите ваш ответ в комментариях👇

〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex

Читать полностью…

MLinside - школа ML

🔥 Ответы на задачи с собеседований

1️⃣В чём различие операторов == и is в Python? + Ответ на код

Ответ: True False True True

Оператор == сравнивает значения объектов, а оператор is проверяет, ссылаются ли переменные на один и тот же объект в памяти. Так как в Python None - это синглтон-объект, то есть в Python существует лишь один единственный None, то сколько бы мы не создавали переменных с этим значением, они все будут ссылаться на один объект в памяти, потому код "sample_A is sample_B" вернёт True


2️⃣Что вернёт код A = 13 B = 13 print(A == B) print (A is B), почему?

Ответ: True True

Потому что Python всегда хранит целые числа от -5 до 256 в памяти. Создавая объект с такими значениями вы будете ссылаться на уже выделенное место в памяти для данного значения. Потому в нашем примере A is B вернёт True. Если А и B оба будут равны 257, то A is B вернёт False. Это было сделано в Python для оптимизации работы языка, чтобы не выделять память на очень часто используемые значения при работе кода.

〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex

#собеседование

Читать полностью…

MLinside - школа ML

Уже конец недели и это значит время еженедельного квиза в нашем канале!
Начинаем! 🚀

Читать полностью…

MLinside - школа ML

Топ-6 библиотек для ML-специалиста 🔥

📚 Если изучаете машинное обучение самостоятельно, важно сразу разобраться с инструментами, без которых в этой сфере не обойтись. Ошибка новичков – не знать базовые библиотеки и пытаться «изобретать велосипед».

💡 На собеседовании вас могут спросить, какими инструментами ты владеешь. Чтобы уверенно отвечать, мы подготовили подборку ключевых ML-библиотек, которые используют и новички, и опытные специалисты.

Проверьте, все ли вы знаете !

1️⃣NumPy
Основа основ. Работа с массивами, линейной алгеброй, матрицами – всё начинается с NumPy.
NumPy подключается в Python следующим образом:


import numpy as np


2️⃣Pandas
Мощный инструмент для работы с табличными данными в Python. Позволяет быстро загружать, обрабатывать, фильтровать и анализировать данные, делая работу с ними удобнее и эффективнее.
Pandas подключается так:

import pandas as pd


3️⃣Scikit-learn
Ключевая библиотека для машинного обучения в Python. Содержит готовые алгоритмы для классификации, регрессии, кластеризации и обработки данных, что упрощает разработку ML-моделей. Подходит как для новичков, так и для экспертов.
Примеры использования:

from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


4️⃣TensorFlow
Одна из самых мощных библиотек для работы с нейросетями и глубоким обучением. Разработана Google, поддерживает обучение моделей на CPU и GPU, а также использование в продакшене. Применяется для создания нейросетей, обработки изображений, текста и многого другого. TensorFlow можно подключить в Python следующим образом:

import tensorflow as tf


5️⃣PyTorch
Еще одна мощная библиотека для глубокого обучения. Отличается гибкостью, удобством отладки и популярна среди исследователей и разработчиков нейросетей. Поддерживает обучение на CPU и GPU, а также динамическое вычисление графов, что делает разработку моделей более интуитивной.
PyTorch можно подключить в Python следующим образом:

import torch


6️⃣Matplotlib
Основная библиотека для визуализации данных в Python. Позволяет строить графики, диаграммы и гистограммы, что помогает анализировать данные перед обучением моделей. Простая в использовании и гибкая для кастомизации.
Matplotlib подключается так:

import matplotlib.pyplot as plt


🤔 Какие еще библиотеки вы бы добавили в список? Поделитесь в комментариях!

Читать полностью…

MLinside - школа ML

🔥 На YouTube-канале MLinside вышло интервью с Юрием Кашницким — экспертом в области машинного обучения,
Staff GenAI Solutions Architect @ Google Cloud


Что мы обсудили:
✅ Как пройти путь от отказов до оффера в Google — и почему 16 отказов не повод останавливаться.
✅ Разница между работой в крупных IT-компаниях в России и за рубежом: Mail.ru, KPN, Elsevier, Google
✅ Как проходят собеседования в Big Tech: на что смотрят компании и как выделиться среди кандидатов.
✅ Какие навыки действительно ценятся в индустрии машинного обучения и Data Science.

Юрий прошел сложный, но вдохновляющий путь в мире ML и делится своими инсайтами без прикрас. Если вы хотите построить карьеру в Data Science и ML это интервью точно стоит посмотреть!

👉 Смотреть интервью

Читать полностью…

MLinside - школа ML

🤔 Стартап vs. Корпорация: Где строить карьеру в ML?

Если вы хотите развиваться в машинном обучении, перед вами неизбежно встанет вопрос: куда идти — в стартап или крупную компанию? Оба варианта могут дать крутой опыт, но подойдут не всем. Разбираем плюсы и минусы.

🚀 Стартап: скорость, неопределенность и широкие возможности

Работа в стартапе — это хаос, постоянные вызовы и шанс попробовать всё. Здесь не будет чёткого карьерного трека или строгой структуры. Вам придется совмещать несколько ролей одновременно: вместо того чтобы заниматься только ML-задачами, вы можете параллельно выполнять работу дата сайентиста, аналитика и даже участвовать в принятии бизнес-решений. Вы не просто решаете задачи по машинному обучению, а участвуете в создании продукта, часто с нуля. Если компания растёт, ваши усилия не останутся незамеченными, а ваши решения напрямую повлияют на развитие продукта.
Но есть и минусы: в стартапах редко есть время на долгосрочные ML-эксперименты. Многие компании просто адаптируют существующие ML-решения, а не создают инновации. Исключение — стартапы, которые сразу делают ставку на глубокую работу с AI и нанимают сильных специалистов. Но такие команды встречаются редко, и попасть в них непросто. Кроме того, рабочие процессы могут быть хаотичными, сроки – сжатыми, а ожидания – завышенными. Плюс, стартап может попросту не взлететь, и в этом случае вся проделанная работа может так и остаться внутри закрытой компании.

🏢 Крупная компания: стабильность, сложные ML-задачи и экспертиза

В крупных компаниях ML-специалисты могут работать с действительно масштабными данными, сложными моделями и передовыми технологиями. Здесь есть время и ресурсы для исследований, развития экспертизы и долгосрочных проектов. В отличие от стартапов, такие компании могут позволить себе инвестиции в ML, даже если результаты появятся не сразу.
Однако в корпорациях сложнее выделиться. Ваша идея может просто затеряться среди множества проектов, а работа в большой команде потребует больше времени на согласования и процессную рутину. Кроме того, узкая специализация в крупных компаниях может ограничить ваш опыт,

💡 Где лучше развиваться ML-специалисту?
Если вам важны гибкость, быстрый рост и возможность быть причастным ко всему процессу, выбирайте стартап. Но будьте готовы к неопределенности и высокой нагрузке. Если хотите глубже погружаться в ML, работать с масштабными данными и строить долгосрочную карьеру, корпорация — ваш вариант.

А вы где работаете (или хотели бы работать)?

Делитесь в комментариях ⬇️

Читать полностью…

MLinside - школа ML

Мы в Дзене! 🎉

Теперь наши статьи и видео можно найти на Яндекс Дзене! Там мы будем регулярно разбирать ключевые темы из мира машинного обучения, ИИ и Data Science, делиться полезной информацией и рассказывать о самых важных событиях в индустрии.

🔥 В новой статье мы собрали главные события 2024 года в области искусственного интеллекта — Какие разработки стали самыми громкими и что нас ждет дальше? Узнайте здесь.

📌 Подписывайтесь на наш канал в Дзене, чтобы не пропустить новые материалы!

Читать полностью…

MLinside - школа ML

⚠️ Внимание, стартует новый квиз!

Мы продолжаем добавлять интерактив в наш канал, и сегодня вас ждут три вопроса уровня "Легкий"!

Начинаем! 🚀

Читать полностью…

MLinside - школа ML

Как составить резюме джуна в ML, чтобы вас заметили? 📝

Конкуренция в сфере машинного обучения огромна, а порог входа – высокий. Что написать в резюме, если у вас пока нет опыта? Разбираемся, на что обращают внимание рекрутеры и как выделиться среди сотен кандидатов.

1️⃣ Образование – профильность важнее престижности
Да, топовый вуз – это плюс, но ключевое значение имеет профильное образование. Работодатели отдают предпочтение кандидатам с бэкграундом в математике, программировании и смежных дисциплинах. Если ваш диплом связан с ML или IT – обязательно укажите это в резюме.

📌 Что делать, если профильного образования нет?

Укажите курсы коммерческих школ или онлайн-платформ, связанных с машинным обучением.
Опишите, почему решили перейти в ML и как связаны ваши прошлые занятия с новой областью. Например, опыт работы аналитиком или разработчиком может сыграть на руку.

2️⃣ Проекты и участие в соревнованиях
Проекты – ваш главный инструмент для демонстрации навыков. Даже если они простые, важно указать ссылки на GitHub или GitLab, чтобы показать, что вы умеете применять полученные знания на практике.
Участие в соревнованиях (например, на Kaggle) – огромный плюс. Призовые места и активность говорят о вашем интересе и практическом опыте работы с реальными данными.

3️⃣ Преподавание и помощь другим
Не стоит недооценивать преподавательский опыт. Если вы обучали других (например, были ассистентом, проводили семинары или помогали новичкам), это демонстрирует вашу глубокую проработку темы. Преподавание учит формулировать мысли, анализировать ошибки и дает опыт взаимодействия с людьми – всё это ценится работодателями.

4️⃣ Подстройка резюме под вакансию
Каждая компания ищет специалистов под свои задачи. Поэтому не стоит отправлять одно и то же резюме на все вакансии. Подчёркивайте именно те навыки и проекты, которые наиболее релевантны требованиям работодателя. Используйте ключевые слова из описания вакансии, чтобы ваше резюме привлекло внимание.

5️⃣ Технические и софт-скиллы
Работодатели смотрят не только на знание инструментов, но и на способность решать задачи, работать в команде и критически мыслить. Подчеркните в резюме, как вы использовали навыки на практике, будь то проекты, курсы или работа в другой сфере.

Читать полностью…

MLinside - школа ML

Какие навыки необходимы для успеха в ML в 2025 году?🌟

1️⃣Программирование
Любой проект в ML должен кто-то закодить, так что программирование это базовый скилл для ML. Python остаётся лидером благодаря обширному набору библиотек (sklearn, scipy, pytorch, pyspark и так далее). Однако, для статистических расчётов иногда еще может использоваться R. Также нужно быть предельно внимательным к инструментам написания кода с помощью LLMок. Уже сейчас все чаще появляются примеры того, как люди, не занимающиеся программированием профессионально, справляются с написанием простых приложений. Возможно та же участь ждет ML, но иметь возможность проверить работу нейросетки все-таки лучше, чем не иметь, поэтому программирование в этом списке точно остается.

2️⃣Мастерство в работе с фреймворками
SciPy, scikit-learn, PyTorch — эти и другие питоновские фреймворки значительно ускоряют процесс разработки. Знание популярных фреймворков позволяет специалистам фокусироваться на создании более качественных и эффективных решений.

3️⃣Навыки работы с данными (data wrangling)
Это то, что помогает превратить сырые данные в качественную информацию. Использование инструментов, таких как Pandas, Polars, PySpark, для обработки данных — обязательное условие. А если еще знаете их возможности и умете пользоваться эффективно, будете делать все гораздо быстрее. Также SQL будет необходим для работы с базами данных, извлечения и фильтрации информации. К счастью, весь SQL помещается на одностраничный cheat sheet, но не пренебрегайте практикой, освоить что-то в ночь перед собеседованием всегда сложнее, чем своевременно.

4️⃣ Работа с большими языковыми моделями (LLM)
Сейчас все чаще LLM используется для ускорения написания кода, для обучения, для повышения эффективности рабочих коммуникаций и многого другого. Не используя в работе решения на базе LLM, уже в 2025 году можно сильно отстать от рынка. Отдельная важная тема - построение своих приложений на базе LLM.

5️⃣ Софт-скиллы: часто недооцененные, но крайне важные
Технические знания — это еще не всё. В 2025 году специалисты, которые смогут объяснить сложные концепции понятным языком, будут особенно востребованы. Умение работать в команде и эффективно коммуницировать с коллегами из разных областей — это то, что поможет вам не просто делать задачу за задачей, но и развивать свою карьеру дальше, получая более интересные и масштабные задачи.

🤔 Какие ещё навыки станут необходимыми для успеха в ML в 2025 году? Поделитесь мнением в комментариях!

Читать полностью…

MLinside - школа ML

⚠️Приглашаем на наш вебинар!

У нас отличная новость — совсем скоро мы проведем mock-собеседование на позицию junior ML специалиста! У вас будет возможность задавать вопросы в ходе вебинара, проверить свои знания и готовность пройти собеседование или просто узнать о том, как проходят такие интервью и какие вопросы задают.

🗓️ Когда: 28 мая (среда), 19:00 (МСК)

Собеседование будет вести Виктор Кантор — основатель MLinside, эксперт по Big Data и AI, бывший Chief Data Officer МТС и Chief Data Scientist Яндекс.Такси

В роли кандидата — Илья Кустов, выпускник первого потока курса «База ML» и инженер в государственном учреждении. Илья решил сменить направление, потому что верит, что искусственный интеллект — это будущее человечества. Его привлекает работа с аналитической обработкой данных и точными науками, а также желание развиваться и расти в новой для себя сфере.

📚 Вебинар покажет, каких результатов можно добиться после обучения на курсе «База ML» и насколько он помогает подготовиться к реальным собеседованиям.

🔗 Регистрируйтесь по ссылке

Читать полностью…

MLinside - школа ML

Готовы проверить свои знания? ⚡️

Сегодня в нашем канале — новый квиз! Вопросы лёгкого уровня помогут освежить знания или узнать что-то новое.

Не пропустите, начнём совсем скоро! 👀 🧠

💥 СПОЙЛЕР: Если вы готовитесь к собеседованию на джуна в ML или просто хотите узнать, как это устроено изнутри — ждите отличную новость, которая совсем скоро появится в нашем канале!

Читать полностью…

MLinside - школа ML

💬Прошли демо-курс «База ML» на Stepik? Поделитесь впечатлениями!

В декабре мы открыли доступ к демо-версии нашего курса «База ML» на платформе Stepik, чтобы каждый мог оценить подачу материала, подход преподавателей и структуру обучения.

Если вы уже прошли демо-курс, нам важно узнать:
🔵Что было особенно полезно?
🔵Какие темы зашли лучше всего?
🔵Насколько удобно было проходить материалы?

📌 Будем признательны за ваш отзыв прямо на Stepik. Это поможет другим студентам принять решение, а нам продолжать улучшать курс и развивать культуру качественного обучения.

Демо-курс — это возможность познакомиться с ML на практике и оценить формат обучения в MLinside.

Если вы еще не проходили наш демо-курс — самое время начать!

👉 Ссылка на курс

Спасибо, что развиваетесь вместе с MLinside! Ваш отзыв поможет нам расти и становится еще лучше 🌟

Читать полностью…

MLinside - школа ML

📌 Ответы на вопросы и задачу с собеседований

1️⃣ Как оценить переобучение без тестовой выборки?

1. С помощью кросс-валидации - если метрики сильно меняются между фолдами, то скорее всего мы переобучились.
2. По разнице между значениями метрик и лосс-функции на train и validation датасетах. Ошибка на validation сильно больше чем на train, значит есть переобучение. Если на train ошибка тоже большая, значит недообучение.
3. Посмотреть насколько “уверенно” предсказывает наша модель - большие значения могут свидетельствовать о переобучении.


2️⃣ Как быть, если у модели высокий precision, но низкий recall, а заказчик хочет наоборот — максимум охвата, даже ценой ложных срабатываний?
Главное — понимать, какая цена у ложноположительных и ложноотрицательных ошибок в задаче, в зависимости от этого мы можем делать трейдофф между precision и recall-ом следующими способами:

1. Самоё лёгкое решение - понизить порог классификации, допустим раньше объект с предсказанием модели 0.5 и выше определялся как положительный класс, а теперь сделать порог 0.3, а не 0.5. Выбрать новый порог можно построив PR-кривую.
2. Решения посложнее - изменить функцию потерь, чтобы сильнее наказывать пропущенные положительные примеры, в современных моделях градиентного бустинга (CatBoost, XGBoost) можно придать больший вес классу гиперпараметром. Сделать больше сэмплов положительного класса, даже с помощью oversampling-а (используя SMOTE, sklearn, data augmentations)
3. Ещё более сложный, но работающий вариант - сделать ансамбль моделей, где одна будет ловить всё, что может быть положительным классом


3️⃣ Чему будет равен ROC-AUC для следующих данных и предсказаний?
Истинная метка:
1 0 1 1 0
Предсказание модели - метка:
1 1 1 0 0
Предсказание модели - число:
0.9 0.8 0.7 0.4 0.3

Ответ - 0.667. Как легко посчитать - мини-гайд от Дьяконова
〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex

#собеседование

Читать полностью…

MLinside - школа ML

📱 Как YouTube решает, что тебе показать? —Рекомендательные системы в бизнесе

Задача рекомендаций занимает важное место как в YouTube, так в Яндекс.Музыке, на Wildberries, и даже в Яндекс.Такси. А решается она именно с помощью машинного обучения.

Рекомендательные системы являются одной из самых широких сфер применения ML. Как вы думаете - почему так? Ответы ждём в комментариях. 👇

Специфика бизнес-задачи - огромный объем данных о пользователях и контенте, множество критериев от лайков до геолокации, необходимость работать быстро в реальном времени.

Метрики качества - CTR (кликабельность), Watch Time, User Retention (возвращение пользователя), Engagement (вовлечённость - лайки, комменты и тд), Diversity (разнообразие рекомендаций).

Способы ML решений:
🔹Коллаборативная фильтрация — анализируют поведение похожих пользователей и рекомендуют, что понравилось им.Пример моделей: Matrix Factorization (ALS, SVD).
🔹Контентный анализ — изучают характеристики айтема (теги, заголовки, описание) и подбирают похожие. Пример моделей: TF-IDF, BERT, Мультимодальные модели.
🔹Более сложные - гибридные модели, модель обученные на последовательностях, модели с онлайн-обновлением.

Потенциальные сложности, которые нужно решить разработчику ML:
1️⃣ Холодный старт — как рекомендовать, если нет данных о новом пользователе или новом видео?
2️⃣ Обработка огромных данных в реальном времени — миллионы пользователей, миллионы видео и постоянные обновления.
3️⃣ Баланс между новизной и релевантностью — не показывать только популярное, но и давать шанс новым видео.
4️⃣ Избежание фильтров пузырей — чтобы не ограничивать пользователя только одним типом контента.
5️⃣ Этичные вопросы — не усиливать токсичный или вредный контент.
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex

Читать полностью…

MLinside - школа ML

29–30 мая в Москве пройдет Aha!25 — одна из крупнейших технических конференций года для специалистов в области машинного обучения, аналитики и product-менеджмента!

Что вас ждет:
🟢Более 1200 участников — коллег, партнеров и потенциальных работодателей
🟢16 тематических потоков и 80+ докладов
🟢Выступления топ-экспертов из ведущих компаний: Яндекс, Авито, OZON, Альфа-Банк, Т-Банк и другие
🟢Выступления представителей научного сообщества из ИТМО, РЭШ, Центрального университета.
🟢Разбор реальных бизнес-кейсов и панельные дискуссии

Темы конференции:
🔵Интеграция LLM, ML и AI в цифровые сервисы
🔵Современные подходы к A/B-тестированию
🔵Оцифровка пользовательского опыта
🔵Машинное обучение в управлении продуктом
🔵Математическое мышление и поведенческая экономика

В мероприятии примет участие и команда MLinside: наш основатель Виктор Кантор выступит с докладом о задачах, за которые готовы и будут платить на рынке AI. 

Билеты можно приобрести на официальном сайте конференции. При использовании промокода MLINSIDEскидка 20% на все виды билетов!

Читать полностью…

MLinside - школа ML

🤖 Как на самом деле работают нейронные сети?

За последние годы нейронные сети совершили гигантский скачок вперед. Сегодня они умеют делать по-настоящему фантастические вещи: генерировать тексты и изображения, создавать реалистичные дипфейки (как видео, так и голосовые), а также вести осмысленные диалоги, практически неотличимые от человеческих.
Но что стоит за этой магией? Давайте разберемся максимально просто и понятно.

👤Нейросеть — это НЕ «личность»
Общаясь с ChatGPT или Алисой, многие начинают воспринимать нейросеть как отдельную личность с логикой и даже самостоятельностью. На самом деле это не совсем так. Любая нейросеть — это, по сути, огромная математическая формула, в которой перемножаются коэффициенты, подобранные на основе данных.

🏦 Как это выглядит на простом примере?
Допустим, у вас есть задача определить, вернёт ли человек кредит банку. Для этого вы собираете его характеристики (доход, возраст, кредитная история и т.д.) и передаёте их нейросети.
Что происходит дальше?
1. Нейросеть суммирует эти параметры с определёнными весами.
2. Полученная сумма пропускается через специальную функцию.
3. Результатом становится ответ: вернёт человек кредит или нет.
Это и есть простейшая нейросеть — перцептрон. Она представляет собой линейную комбинацию входных параметров и последующую нелинейную функцию активации, позволяющую решать простые задачи классификации.

🌐 От простой модели — к глубоким сетям
Современные нейросети гораздо сложнее. Вместо одной линейной модели используется множество слоёв. Каждый слой — это отдельный набор линейных моделей, объединенных нелинейными функциями. Такие сети называются глубокими.

Самая распространённая простая глубокая сеть — полносвязная. В ней каждый нейрон одного слоя связан с каждым нейроном следующего. Но очень скоро стало ясно, что не обязательно соединять каждый нейрон с каждым. Так появились разные архитектуры нейронных сетей. Например, при работе с изображениями используются свёрточные нейросети. Их особенность в том, что они изучают изображение по отдельным областям (регионам), постепенно переходя от локального анализа к общему восприятию картинки. Именно этот подход позволяет нейросетям так эффективно распознавать лица, объекты и сцены.

Итак, в основе всех этих чудес лежит одна и та же логика — перемножение параметров и подбор коэффициентов на основе огромных массивов данных.

Теперь вы знаете, как устроены нейросети изнутри, и что за магией современных технологий стоит масштабная математика.

Читать полностью…

MLinside - школа ML

🧐 Объясняем сложные алгоритмы машинного обучения с помощью простых аналогий

Мы выбрали самые популярные алгоритмы и объяснили их с помощью простых повседневных примеров. Давайте посмотрим, как это работает! 👇

▪️Линейная регрессия
Представьте, что нужно понять, как количество времени, которое люди проводят на тренировках в спортзале, влияет на их физическую форму. Собираются данные о количестве часов тренировки и изменениях в физической форме, и эти данные наносятся на график. Задача заключается в том, чтобы провести прямую линию, которая будет как можно ближе ко всем точкам данных, чтобы предсказать, как изменится физическая форма при увеличении времени тренировки.

▪️Логистическая регрессия
Представьте, что вы — тренер футбольной команды, и вам нужно выбрать игроков для участия в важном матче. У каждого игрока есть различные характеристики — скорость, точность ударов, выносливость и так далее. Вместо того, чтобы выбирать игроков на основе только одного критерия, вы учитываете несколько факторов и решаете, насколько высока вероятность того, что игрок проявит себя на поле в лучшем виде. На основе этих факторов вы рассчитываете, какой игрок имеет больше шансов на успешное выступление, и решаете, стоит ли ему участвовать в матче или нет.

▪️Дерево решений
Представьте, что вы играете в игру "20 вопросов", где ваш собеседник загадывает объект, а вы пытаетесь угадать, задавая вопросы, на которые можно ответить "да" или "нет". Каждый вопрос помогает сузить круг возможных объектов, пока вы не угадаете, что это за предмет. Например, сначала вы спрашиваете: "Это животное?" Если ответ "да", вы продолжаете задавать вопросы, уточняя, например, "Это млекопитающее?". Если ответ "нет", задаёте другие вопросы. Каждый вопрос — это как узел в дереве решений, который помогает вам уменьшить количество возможных вариантов, пока не найдете точный ответ.

▪️ Случайный лес
Представьте, что группа экспертов обсуждает, какой фильм стоит посмотреть. Каждый эксперт (дерево решений) высказывает своё мнение, основываясь на разных аспектах фильма, таких как жанр, режиссёр и актёры. В конце, мнение всей группы (случайного леса) принимает решение, какой фильм выбрать, что увеличивает вероятность правильного выбора.

▪️Метод опорных векторов (SVM)
Представьте, что вы разделяете болельщиков двух команд на стадионе. Вы проводите линию между ними так, чтобы между группами было как можно больше пространства. Когда появляется новый болельщик, вы определяете, к какой команде он принадлежит, основываясь на его одежде или флаге, и сажаете его с той стороны, где уже сидят болельщики этой команды.

Это всего лишь небольшая часть нашей статьи, где мы рассказываем о 10 алгоритмах машинного обучения и объясняем их простыми словами. Хотите узнать больше? Читайте статью по ссылке! 👇

Читать полностью…

MLinside - школа ML

Сегодня в нашем канале еженедельный квиз! 🎊

Вопросы лёгкие, но полезные — они помогут освежить знания и немного встряхнуть мозг.

Готовы проверить себя? Начинаем! ⭐️

Читать полностью…

MLinside - школа ML

📌 Как объяснить сложные алгоритмы машинного обучения бизнес-менеджерам?

💡 Представьте, что вам нужно объяснить CEO или руководителю продукта, почему модель машинного обучения приняла то или иное решение. Если начать с формул, градиентного спуска и матричных вычислений — вы сразу же потеряете внимание.

Так как донести информацию так, чтобы она была понятна и полезна бизнесу?

🔍 3 принципа объяснения ML для бизнеса

Говорите на языке ценности, а не технологий
Вместо «наша модель использует XGBoost с градиентным бустингом» → «мы нашли способ увеличить конверсию на 12% за счёт умного подбора предложений».

Используйте аналогии
📊 Например, линейную регрессию можно объяснить через прогнозирование продаж кофе: если на улице холодно, продажи растут. Чем больше факторов — тем сложнее предсказать спрос.

Визуализируйте данные
Графики, дашборды и простые диаграммы помогут бизнесу увидеть, как алгоритм принимает решения. Например, SHAP-значения покажут, какие факторы сильнее всего влияют на прогноз.

💬 Главный лайфхак:
ML-специалист — это не просто инженер, а мост между данными и бизнесом. Чем понятнее вы объясняете сложные вещи, тем быстрее решения внедряются и приносят результат.

👀 А вам приходилось объяснять ML-незнакомым с темой людям? Какие аналогии использовали? Делитесь в комментариях!

Читать полностью…

MLinside - школа ML

Очередной квиз в нашем канале!

Несколько простых вопросов, чтобы немного отвлечься и провести время с пользой.

Готовы к испытанию? Начинаем! 🚀

Читать полностью…

MLinside - школа ML

Ошибки новичков в ML: что тормозит карьеру? 🛑

Машинное обучение — перспективная сфера, но многие новички совершают ошибки, которые замедляют их рост. Разберем некоторые из них, чтобы вы могли их избежать.

▪️Учить ML без базовых знаний
Хотите сразу строить нейросети? Звучит круто, но без основ математики, статистики и алгоритмов далеко не уйти. Теория вероятностей, матанализ, линейная алгебра и Python — ваш фундамент.

▪️Недостаточно практики
Чтение статей и курсов полезно, но без работы с реальными данными прогресса не будет. Качайте скиллы на Kaggle, решайте задачи с реальных собеседований, участвуйте в pet-проектах и соревнованиях.

▪️Непонимание, как работают модели
Использовать готовые библиотеки — это здорово. Но если вы не знаете, почему Random Forest работает лучше логистической регрессии на ваших данных, на собеседовании могут быть проблемы.

▪️Пренебрежение чисткой данных
Модель – это хорошо, но без качественных данных даже лучший алгоритм бесполезен. Учитесь работать с пропусками, выбросами и категориальными признаками.

▪️Нет опыта работы с SQL
Вас могут не спросить про нейросети, но точно проверят, умеете ли вы писать SQL-запросы. Не игнорируйте базы данных!

▪️Отсутствие знаний в предметной области (доменной экспертизы)
ML — это инструмент, а не волшебная кнопка «решить все». Алгоритмы сами по себе ничего не значат без понимания контекста. Хотите работать в финтехе, медицине или маркетинге? Разбирайтесь в специфике данных и задач в этой сфере.

Читать полностью…

MLinside - школа ML

Как проходит собеседование на Junior ML-специалиста? 🔍

Если вы готовитесь к интервью на позицию Junior ML-специалиста, важно понимать структуру процесса. Разбираем основные этапы, чтобы вы знали, чего ожидать.

📞 Телефонный скрининг (10–30 минут)
Первый этап — короткий звонок с HR, где обсуждаются организационные моменты: ваш опыт, мотивация, условия работы. Иногда задают простые технические вопросы вроде «Какие библиотеки вы используете?» или «Какой у вас опыт работы с Python?».

💻 Тестовое задание (редко, но бывает)
Если тестовое задание предусмотрено, на его выполнение обычно дается один вечер. Чаще всего вам дают датасет с пропусками и категориальными признаками, а ваша задача — очистить данные, построить простую модель (например, бинарную классификацию) и оценить её качество. Важно продемонстрировать базовые навыки работы с данными и моделями. Минус — придется потратить время, но плюс в том, что это отличная возможность увидеть типичные задачи команды и получить практический опыт.

🛠 Техническое интервью (1–3 секции, 30–90 минут)
Самая важная часть! Может состоять из одной длинной или нескольких коротких встреч. Основные темы:
✔ ML: алгоритмы, метрики качества, переобучение и способы борьбы с ним.
✔ Python и алгоритмы: кодинг, работа с данными.
✔ Теория вероятностей и статистика: особенно важен теорвер.
✔ SQL: запросы и работа с базами данных.

Вопросы по ML зависят от специализации: классические модели (бустинг, деревья, линейные), CV, LLM, рекомендательные системы и т. д.

👥 Финал — знакомство с командой
Последний этап, где вы можете понять, с кем предстоит работать, и задать вопросы о проектах.

🧐 Хотите углубиться в тему?
Смотрите запись вебинара «Как подготовиться к собеседованию на Junior ML-специалиста» с Анастасией Перцевой на нашем YouTube-канале. Мы разбираем реальные задачи с технических интервью, обсуждаем ключевые вопросы и даем советы по подготовке.

Готовитесь к собеседованию? Делитесь в комментариях, какие вопросы вызывают у вас наибольшие затруднения!👇

Читать полностью…

MLinside - школа ML

Суббота – отличный повод не только для отдыха, но и для небольшой тренировки мозга! 🧠 Подготовили для вас пару интересных вопросов в формате квиз 🤓

Читать полностью…

MLinside - школа ML

⚠️ Внимание, стартует квиз!

Мы решили добавить немного интерактива в наш канал и предлагаем вам попробовать новый формат — квизы! Это отличный способ освежить знания или узнать что-то новое.

Сегодня у нас три вопроса, которые помогут вам проверить себя. 😉

Если вам понравится сегодняшний квиз, такой формат превратится в частую рубрику на нашем канале! 🚀

Готовы? Начинаем! 🎉

Читать полностью…
Subscribe to a channel