Предзапись на 3 поток курса "База ML": https://clck.ru/3M4hvK Наши курсы: https://taplink.cc/mlinside Чат коммьюнити: @ml_insidechat По вопросам: @ml_inside_manager
В преддверии мок-собеседований с нашими подписчиками мы подготовили небольшой челлендж.
Собеседования по ML-теории, математической статистике и Python проходят практически на все позиции, и именно этот этап становится решающим для тех, кто идет на junior-уровень. Часто именно здесь решается: пройдет кандидат дальше или нет.
Мы собрали несколько базовых вопросов и задач, которые могут встретиться на интервью.
Вопросы и задачи:
1️⃣ Как устроен dict в Python?
2️⃣ Как кросс-валидация помогает в борьбе с переобучением?
3️⃣ Как работать с пропущенными данными?
В это воскресенье разберем их в отдельном посте, а пока ждем ваши версии в комментариях!
#собеседование
Три вебинара, которые помогут вам вырасти в ML
Боитесь собеседований? Не уверены, как применить ML на практике? Хочется понять, насколько вы вообще готовы? У нас скоро пройдут три вебинара, которые закроют все эти вопросы. Вебинары проведет Александр Дубейковский, Middle+ ML-Engineer Авито, ex-Yandex.
📌 29.07 в 19:00 (мск) — Mock-собеседование с Ильей Коченовым
Проходить собеседование будет наш подписчик Илья — студент МГТУ им. Баумана, ищет работу в DS и планирует поступать в магистратуру ВШЭ.
Зарегистрироваться на вебинар
📌 31.07 в 19:00 (мск) — Практический мастер-класс: «Поймай обманщика с помощью ML»
Научитесь находить фродовые транзакции и аномалии в поведении пользователей. Практика, Google Colab, простые ML-инструменты.
Зарегистрироваться на вебинар
📌 4.08 в 19:00 (мск) — Mock-собеседование с Александром Колчиным
Тренироваться в роли кандидата будет наш подписчик Александр — выпускник физического факультета МГУ им. М.В. Ломоносова, занимается рамановской спектроскопией и машинным обучением в задачах хемоинформатики и готовится к смене профессии, чтобы больше времени уделять прикладному применению навыков в области машинного обучения.
Зарегистрироваться на вебинар
Каждое из событий — возможность посмотреть на реальные карьерные истории и потренироваться вместе с экспертами.
Как пройти путь в ML и не застрять навсегда
В одном из прошлых постов мы разобрали, почему так много людей годами «готовятся» к работе в ML, но так и не доходят до собеседования. Теперь делимся обещанным разбором, как пройти путь без этих ловушек.
▪️ Не нужно заканчивать МФТИ или Вышку;
▪️ Не нужно учить все на свете перед первым собесом;
▪️ Не нужно ждать «момента, когда я готов». Он не наступит!
Виктор Кантор собрал в одном видео все, что действительно помогает попасть в AI:
▪️как не утонуть в курсах и теориях;
▪️что спрашивают на собеседованиях (и почему это проще, чем кажется);
▪️как выстроить траекторию, если вы аналитик, разработчик или менеджер;
▪️и почему диплом — не билет в профессию, а только один из бонусов.
Это видео сэкономит вам месяцы, а кому-то — и годы.
Посмотрите, если не хотите снова уйти «готовиться» вместо того, чтобы идти вперед.
Смотреть видео на YouTube
Смотреть видео в VK
5 августа начинается третий поток курса "База ML". До его начала есть возможность записаться на курс со скидкой 10% — Анкета предзаписи на курс “База ML”
Почему многие начинают путь в ML, но не доходят до результата
Часто от подписчиков слышим: "Я пробовал учить ML, но бросил через месяц". И это не про мотивацию. Это про ошибки, которые повторяются снова и снова:
Хочу все и сразу!
Нет цели, зачем все это
Синдром самозванца: "я не из МФТИ", "я слишком стар для этого", "меня точно завалят на собесе".
Ноль обратной связи
Да на YouTube же много обучающих видео
Эксперты курса «База ML» – одна из главных причин, почему нам доверяют
Самый частый отзыв от наших выпускников — это положительная оценка команды экспертов. И действительно: за курсом стоят практики с опытом построения data-направлений в крупнейших IT-компаниях страны.
Эксперты
🔹 Виктор Кантор — основатель школы MLinside, ранее: вице-президент по Big Data в МТС, Chief Data Scientist Яндекс.Такси. Запустил Академию больших данных MADE by Mail.Ru, читает лекции по машинному обучению в МФТИ и ВШЭ.
🔹 Илья Ирхин — Chief Data Officer Яндекс.Еда, экс-CDS Яндекс Go, кандидат физико-математических наук. За 8 лет прошел путь от junior-специалиста до топ-менеджера
🔹 Никита Зелинский — CDS МТС, экс-CDO Сбербанка, 14 лет опыта в ML и Data Science, кандидат физико-математических наук.
Также на курсе вас ждут и другие эксперты, в том числе приглашенные специалисты из ведущих компаний, включая Сбер, МТС, Яндекс, Авито. Спойлер: аудитория нашего YouTube-канала уже хорошо знакома с одним из новых экспертов.
Если вы ищете курс с сильной экспертизой, присоединяйтесь! Старт третьего потока уже 5 августа.
🔗 Записаться на курс
Можно ли оплатить курс за счет компании? Да!
Курс “База ML” может оплатить ваша компания.
Если вы аналитик, разработчик или менеджер, который хочет использовать ML в своей работе — это отличная возможность.
Перед работодателем это легко обосновать: курс помогает повысить вашу квалификацию без отрыва от задач и внедрять ML в процессы компании.
А вы получите обучение за счет компании, начнете применять знания в работе и уверенно решать ML-задачи.
Старт курса уже 5 августа!
🔗 Записаться на курс
По всем вопросам обращайтесь к нашему менеджеру @ml_inside_manager
Если бы это было собеседование, вы бы прошли?
Не паникуем. Это просто квиз.😅
Проверьте, на каком вы уровне, и освежите знания по ML!
Начинаем прямо сейчас!👇
Заметки — где сегодня применяется ML?
Отвечаем на один из самых частых запросов от нашей аудитории — делаем посты по вашим темам 💬
Вот лишь малая, основная часть сфер, где машинное обучение уже используется каждый день:
▪️ Рекомендательные системы — в маркетплейсах, стримингах и соцсетях
▪️ Кредитный скоринг и антифрод — в банках и финтехе
▪️ Оптимизация логистики — в доставке, ритейле, транспорте
▪️ Чат-боты и голосовые помощники — в поддержке и HR
▪️ Персонализированный маркетинг — сегментация и прогноз отклика
▪️ Компьютерное зрение — в ритейле, медицине, безопасности
▪️ Диагностика заболеваний — на основе изображений и медицинских данных
▪️ Динамическое ценообразование — в авиабилетах, e-commerce и такси
▪️ Генеративные модели — от текстов и картинок до кода и стратегий
ML проникает в десятки индустрий. И если вы планируете входить в эту сферу — важно понимать, где именно можно применить свои навыки.
Кстати, этот пост — по теме, предложенной подписчиками.
Если у вас тоже есть идея, о чем нам стоит написать или снять видео — вот форма для предложений:
🔗 Оставить свою тему
А ещё — совсем скоро мы анонсируем старт третьего потока курса “База ML”. Если вы только начинаете путь в ML и хотите уверенно подготовиться к своему первому собеседованию — не пропустите начало курса!
Для предзаписи на курс заполните анкету и мы с вами свяжемся.
На YouTube-канале MLinside вышло интервью с Татьяной Савельевой — лидером рейтинга Forbes «30 до 30» в категории «Наука и технологии» (2022), предпринимателем, создателем сервисов InfluAI и Flatsharing community, экс-CEO Yandex SupportAI и соосновательницей EVA AI.
Обсудили:
🔹Карьерный путь от МФТИ до работы в Сбере, Яндексе и стартапах
🔹Как осознать, что готов(а) к предпринимательству — и запустить свой продукт
🔹Что на самом деле делает CEO в крупной технологической компании
🔹Как трижды стать CEO до 30 лет и при этом справляться с синдромом самозванца
🔹 Советы начинающим в AI: как расти, не бояться перемен и добиваться повышения
Откровенный и вдохновляющий разговор о росте, выборе пути, стартапах и технологиях. Обязательно к просмотру всем, кто хочет расти в ML/AI и строить свой бизнес.
Вопросы с собеседований
Продолжаем нашу регулярную рубрику и помогаем подготовиться к собеседованию по ML.
Наши ответы на вопросы опубликуем в понедельник, а сейчас ждем ваших ответов в комментариях!
Вопросы:
1️⃣ Как обучается случайный лес?
2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?
#собеседование
🤖 Парадокс ИИ: все боятся, что он всех заменит — но спрос на тех, кто умеет с ним работать, только растет!
По данным hh.ru, за последние 10 лет количество вакансий, связанных с анализом данных и ML, в России выросло почти в 30 раз. За последние 4 года — в 2,5 раза.
И это не просто стартапы — это банки, ритейл, телеком, логистика. Им нужны те, кто умеет работать с данными, строить модели и решать задачи бизнеса.
💼 ML-инженеры — среди самых высокооплачиваемых специалистов! Зарплаты Senior-специалистов в крупных компаниях доходят до 500–600 тыс. рублей в месяц.
⚡️ Главное — начать уже сейчас!
🧠 Если вы хотите войти в ML и подготовиться к первым собеседованиям на позицию Junior — не пропустите старт нашего курса «База ML».
🤖📚 Что такое RAG (Retrieval-Augmented Generation) и как он улучшает генерацию текста?
RAG — это гибрид двух моделей:
1️⃣ Retriever (Поисковая модель) — сначала берёт твой запрос и быстро ищет релевантные документы или фрагменты текста в большой базе данных. Для этого обычно используют векторное представление текста (эмбеддинги) и алгоритмы поиска по ним (например, FAISS).
2️⃣ Generator (Генеративная модель) — получает найденные тексты и вместе с исходным запросом генерирует ответ. В основе обычно лежит трансформер, например GPT или BART.
❓Зачем нужен RAG?
Большие языковые модели (LLM) вроде GPT-4 знают много, но:
- они не знают актуальной информации (после даты обучения)
- могут галлюцинировать (придумывать факты)
- не всегда надёжны в критичных задачах (здравоохранение, финансы, право)
RAG решает это: он не «вспоминает» ответ из памяти, а ищет реальные документы, а потом формирует ответ на их основе.
По сути RAG просто улучшает ваш prompt-запрос в LLM качественным и полноценным контекстом (если в базе есть нужные документы и удалось их найти).
Пример использования:
🔸 В чатботах, которые отвечают на вопросы по технической документации — вместо «угадывания» бот сначала ищет в документации нужный кусок, а потом уже объясняет.
🔸 В корпоративных базах данных — находит все нужные статьи по нужным темам, которые так тяжело найти, а потом даёт структурированный скомпонованный ответ по любому запросу, хоть даже зачастую статьи дублируют друг друга.
🚀 Например ответы чат-бота на госуслугах можно улучшить с помощью RAG, чтобы чат-бот не только выводил названия нужных страниц сервиса, но и давал интерпретацию для чего именно лучше подходит каждая из страниц.
〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
🔥 На YouTube-канале MLinside вышли интервью с Валерием Бабушкиным — одним из самых узнаваемых экспертов в сфере ML и Data Science, Senior Director по Data & AI в BP (British Petroleum), автором книги Machine Learning System Design и Kaggle Competitions Grandmaster’ом.
Обсудили:
✅ Чем отличается работа в российских и зарубежных компаниях — и что стало неожиданным при переходе.
✅ Как устроен бигтех изнутри и какие у него плюсы и минусы.
✅ Что выбрать: стартап или корпорацию? И в чём разница для DS-специалиста.
✅ Какие качества и подходы действительно важны для роста в ML/DS.
✅ Советы молодым специалистам: с чего начать и как продолжать расти.
👉 Смотреть первую часть
👉 Смотреть вторую часть
🔥 Продолжаем рубрику “Вопросы с собеседований”!
Сегодня снова делимся вопросами, которые могут встретиться во время интервью на ML-позиции.
💬 Пишите свои ответы в комментариях, а наши ответы мы опубликуем в среду!
📌 Вопросы:
1️⃣ Как устроено/строится дерево решений?
2️⃣ Как оценить важность признаков?
3️⃣ Почему F1 метрика берёт именно среднее гармоническое от precision и recall, а не среднее, или среднее геометрическое к примеру?
📌Все прошлые вопросы в нашем канале ищите по хештегу #собеседование
‼️Не упустите шанс — вебинар уже завтра!
Завтра, 28 мая в 19:00 (МСК), мы проведём mock-собеседование на Junior ML специалиста — уникальная возможность увидеть, как проходят настоящие собеседования, получить ценные инсайты и проверить свою готовность.
Собеседование будет вести Виктор Кантор — основатель MLinside, эксперт по Big Data и AI, бывший Chief Data Officer МТС и Chief Data Scientist Яндекс.Такси.
В качестве кандидата выступит Илья Кустов, выпускник первого потока курса «База ML» и инженер в госучреждении.
⏳ Регистрируйтесь сейчас и готовьтесь к настоящим собеседованиям с уверенностью!
🔗 Ссылка на регистрацию
Как подготовиться к собеседованию, если вы только начали учиться
Самое частое заблуждение — ждать момента, когда вы «достаточно готовы». Как будто есть некий рубеж, после которого на собеседовании не страшно и не стыдно. На самом деле, подготовку к собеседованиям стоит начинать параллельно с обучением. Чем раньше вы начнете к ним готовиться, тем быстрее поймете, в чем именно ваши пробелы.
1️⃣ Первый шаг — разобраться, какие темы спрашивают на позициях для новичков. Почти всегда это базовая математика, принципы машинного обучения и основы Python. Этого достаточно, чтобы понимать суть вопросов и не теряться.
2️⃣ Второй шаг — научиться рассказывать о себе. Коротко, по делу, с фокусом на то, что уже успели изучить и попробовать. Плюсом в рассказе о себе будет собственный pet-проект и/или участие в соревнованиях на Kaggle.
3️⃣ Хорошо работает участие в mock-собеседованиях. Это снимает страх и показывает реальные ожидания работодателей. Вы сразу видите, что нужно подтянуть, и перестаете тратить время на ненужное. Но даже если вы просто наблюдаете за чужим интервью, это уже помогает как минимум понять как проходит собеседование, какие вопросы задают и как на них отвечать. Кстати, скоро мы проведем два открытых мок-собеседования — приходите!
Не стоит надеяться, что пройдете весь путь в теории и только потом пойдете на собеседование. Это путь в никуда. Гораздо продуктивнее пробовать заранее: проходить пробные собесы, участвовать в разборах, разбирать свои и чужие ошибки. Так появляется уверенность, исчезает страх и формируется опыт, который потом вырастает в оффер.
Если вы как раз на этом этапе, напишите, с чем сейчас сложнее всего. Поможем разобрать.
#собеседование
«Кажется, я уперся в потолок»
Это ощущение знакомо многим разработчикам.
Когда все уже умеешь: и фичи клепаешь быстро, и баги ловишь с полпинка, но при этом скучно. Зарплата растет медленно, задачи одни и те же, а перспективы не вдохновляют.
ML часто приходит как естественное продолжение. Не как «смена профессии», а как способ оживить работу: взять что-то сложнее, внедрить чуть больше интеллекта в продукт, не просто "работать", а "создавать".
Если начать с базовых задач, становится понятно, как применять ML там, где раньше даже не задумывались. Например, приоритизировать фичи по пользовательским данным, автоматически искать аномалии в логах, или даже ускорить продуктовые A/B-тесты.
Некоторые из наших студентов так и делают — остаются разработчиками, но с ML-экспертизой становятся незаменимыми в команде. Как раз для этого мы и сделали курс, который помогает специалистам с разным опытом встроить ML в свою текущую профессию. А если в какой-то момент захочется большего, с этой базой можно спокойно идти на собеседование в ML-команду.
Через две недели начинаем обучение на курсе "База ML". Пока места еще есть, но только для тех, что хочет добавить в свою карьеру то, что реально ценится — ML. С программой курса можно ознакомиться на нашем сайте. А если возникли вопросы, пишите нашему менеджеру: @ml_inside_manager
Excel уже не тянет. BI — запаздывает. Что дальше?
Когда-то Excel был лучшим другом аналитика. Потом появились BI-дашборды — визуализация, автоматизация, чуть больше гибкости. Но сейчас этих инструментов все чаще становится просто недостаточно.
Бизнесу нужны не просто ответы на вопрос “что происходит?”, а точные прогнозы и предложения: что делать дальше, чтобы не потерять деньги и выиграть конкуренцию. Именно это дает машинное обучение.
ML — это не “замена” аналитике, это ее следующий уровень. Когда вы уже умеете чистить данные, строить отчеты, автоматизировать в Power BI — приходит момент, когда хочется решать задачи не по факту, а на опережение. И вот тут Excel уже не поможет.
Почему крупные компании ищут не просто аналитиков, а тех, кто может строить модели? Почему зарплаты вырастают, когда вы умеете больше, чем просто сводные таблицы? Потому что бизнес чувствует: без ML уже нельзя.
Если все чаще ловите себя на мысли, что уперлись в потолок — это может быть сигналом. Возможно, вы переросли аналитику. Время прокачаться до следующей ступени.
Нейросети отдыхают, теперь ваша очередь думать!
Сегодня в нашем канале — квиз! Два вопроса, чтобы проверить готовы ли вы к курсу по ML. Можно порешать по пути домой, в перерыве или с чашкой чая.
Готовы? Начинаем! 👇
5 навыков, которые стоит прокачать до старта обучения ML
Машинное обучение — не волшебная кнопка, а система, которая опирается на конкретную базу. Поэтому, если вы хотите уверенно зайти в ML, нужно подготовиться заранее.
Мы собрали 5 ключевых навыков, которые облегчат старт:
🔹 Понимание матриц
Что это такое, как они устроены и зачем их вообще перемножают в ML.
🔹 Производные и градиенты
Как считать производную, что такое градиент и почему важно понимать, куда он направлен.
🔹 Базовая статистика
Матожидание, дисперсия, нормальное распределение — не просто слова, а инструменты, которые дают понимание, как модель "видит" данные.
🔹 Работа в Jupyter Notebook
Где писать код, как запускать ячейки, как установить все нужное.
🔹 Базовые знания по Python
Циклы, условия, импорт библиотек, вывод на экран — если вы это уже умеете, старт пройдет гораздо легче.
Если вы хотя бы немного знакомы с этими темами — уже хорошо.
Если нет — не страшно, все можно догнать. Но лучше подготовиться заранее и идти быстрее.
Запускаем новый поток курса «База ML»!
Недавно делились отзывами выпускников на наш курс «База ML», а теперь у вас тоже есть шанс пройти такой же путь.
Старт третьего потока курса «База ML» — уже 5 августа!
Если вы:
— смотрели материалы по ML, но не хватало системности и понимания, где и зачем это применять;
— хотите сменить место работы и увеличить зарплату;
— хотите применять ML в текущей работе,
тогда этот курс точно для вас!
Результат курса — через 4-6 месяцев будете готовы к собеседованию на джуниор ML-специалиста, даже если стартуете почти с нуля.
Осталось меньше месяца до старта!
🔗 Записаться на курс
По всем вопросам обращайтесь к нашему менеджеру @ml_inside_manager
CEO собственных AI-проектов до 30 лет! На YouTube-канале MLinside вышла вторая часть интервью с Татьяной Савельевой.
Татьяна — основательница и CEO AI-стартапов InfluAI и Flatsharing community, экс-CEO Yandex SupportAI и EVA AI.
В интервью она рассказывает:
🔹Почему ушла из Яндекса и EVA AI и начала путь предпринимателя
🔹Чем занимается CEO собственных стартапов
🔹Что значит «делать свой продукт» и стоит ли запускать AI-стартап ради идеи или ради денег
🔹Как меняется цифровое пространство сегодня и можно ли заработать на предпринимательстве и AI-стартапах
Это очень личный и мотивирующий разговор для всех, кто строит карьеру в ML/AI, хочет стать CEO и задумывается о собственном стартапе.
👉 Смотреть вторую часть интервью
Не волнуйтесь, мы не выбираем между YouTube и Telegram — мы оставляем оба. А у вас отличный шанс повлиять на то, какие темы мы раскроем дальше!
MLinside — школа ML. Кроме создания курсов с нацеленным погружением в сферу мы публикуем образовательные материалы в наши соцсети.
Теперь у вас есть возможность влиять на наш контент — и в телеграм-канале, и на ютубе.
Что разобрать? Какие темы раскрыть? Что интересует и давно хотелось спросить, но было некому?
📌 Мы открыли форму, в которой вы можете предложить свои идеи:
— для постов в Telegram
— и для видео на YouTube
🔗 Оставить идею
Мы внимательно читаем каждое предложение и превращаем ваши идеи в контент, который помогает расти и развиваться!
Ответы на вопросы с собеседований
1️⃣ Как обучается случайный лес?
Случайный лес обучается как ансамбль решающих деревьев, каждый из которых строится на бутстрап-выборке (рандомизированный сабсет обучающей выборки) с рандомным подмножеством признаков на каждом сплите. Это снижает корреляцию между деревьями и уменьшает дисперсию модели. Финальное предсказание — усреднение (регрессия) или голосование (классификация).
CatBoost обрабатывает категориальные фичи без явного one-hot или label encoding — он использует целевое кодирование с упорядоченными статистиками: для каждого объекта категория кодируется средним таргетом, рассчитанным на предыдущих примерах в случайной перестановке. Это снижает утечку таргета (target leakage) и переобучение. Также CatBoost автоматически генерирует комбинации категорий, улучшая захват взаимодействий.
Квадратичная функция потерь у линейной регрессии выбрана за её гладкость, выпуклость и дифференцируемость, что гарантирует единственное оптимальное решение и удобство численной оптимизации (градиентный спуск, нормальное уравнение). Более высокие степени усложняют ландшафт функции, делают её менее устойчивой к выбросам и затрудняют обучение, без весомых преимуществ в стабильности или интерпретируемости. Кубическая функция при том ещё и несимметрична, что создаёт проблемы в работе с ошибками разного знака.
Не пропустите видео-отзывы наших выпускников!
Если вы задумываетесь о входе в ML, но не уверены, с чего начать — послушайте тех, кто уже прошел этот путь с нами.
🗣 Артур Табиев — раньше работал аналитиком данных, но столкнулся с задачей прогнозирования продаж, где понадобились уже не просто цифры, а модели. Тогда он понял, что без технической базы в ML не обойтись.
Что его привлекло в MLinside? — сильный практический опыт преподавателей и внятная структура курса. Сейчас Артур точно знает: он хочет перейти из аналитики в машинное обучение.
🗣 Виктор Пономарёв — BI-аналитик в Сбере, в прошлом системный аналитик. Начал интересоваться ML после внутреннего воркшопа на работе. До курса учился сам, но рассказал, что самообучение — это вакуум: сложно понять, где ты, и что делаешь не так.
В MLinside он нашел не только грамотную подачу от профессионалов, но и поддержку менторов, адекватную нагрузку (от 2 до 10 часов в неделю), и главное — ощущение, что он движется в нужном направлении.
Всем советуем смотреть видео-отзывы на наш курс «База ML» — это честный взгляд изнутри от тех, кто уже начал свой переход в ML.
А вы готовы сделать шаг?
Готовы для нового квиза?🥳
Время проверить знания!
Начинаем 👀 🧠
🚀 Как работает градиентный спуск и почему он так важен?
🎯 1. Что такое функция потерь и зачем она нужна?
Когда мы обучаем модель (например, нейросеть), она делает предсказания. Чтобы понять, насколько они точные, мы используем функцию потерь, которая показывает, насколько сильно модель ошибается. Наша цель — минимизировать эту ошибку.
🤔 2. Почему напрямую найти минимум сложно?
Функция потерь зависит от множества параметров модели (весов). Эту функцию потерь можно нарисовать на многомерном графике, тогда у нас получится гиперплоскость, с количеством координат равным количеству параметров модели. Найти самую низкую точку (минимум) на этой гиперплоскости вычислительно тяжёлая задача.
🔍 3. Что такое антиградиент?
Антиградиент в точке гиперплоскости — это вектор, противоположный градиенту, указывающий направление наибыстрейшего убывания функции потерь.
⬇️ 4. Как работает градиентный спуск?
Градиентный спуск — это метод, который шаг за шагом движется в сторону антиградиента. Каждый шаг — это обновление параметров модели (наших координат для графика функции потерь), которое приближает нас к минимуму функции потерь. Новые значения координат дают нам новые значения весов.
⚡️ 5. Почему шаг обучения (learning rate) важен?
Если шаг слишком большой — мы можем «перепрыгнуть» минимум. Если слишком маленький — обучение будет очень медленным.
🚀 6. Почему градиентный спуск важен?
Градиентный спуск обеспечивает стабильное движение к оптимальным решениям и делает обучение масштабируемым и управляемым. С его помощью тренируют все современные глубокие нейросети, и даже базовые модели МЛ.
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
📌 Ответы на вопросы с собеседований
1️⃣ Как устроено/строится дерево решений?
Дерево решений строится рекурсивно: на каждом шаге оно выбирает признак и порог, по которому лучше всего разделить данные, чтобы максимизировать "чистоту" разбиения (например, по информации, джини или снижению дисперсии).
Затем данные делятся на две части, и для каждой строятся поддеревья. Этот процесс продолжается до достижения заданной глубины, минимального количества объектов в узле или до тех пор, пока все объекты в узле не будут одного класса (для классификации).
Оценить важность признаков можно по-разному: в деревьях — по снижению импьюрити или permute importance, в линейных моделях — по коэффициентам. Но наиболее универсальный и надёжный метод — SHAP: он основан на теории игр, учитывает все взаимодействия, даёт как локальные, так и глобальные оценки и работает с любыми моделями. Лучше комбинировать несколько подходов для полноты картины.
F1 использует гармоническое среднее, потому что оно весьма строго наказывает дисбаланс между precision и recall: высокое значение возможно только если оба велики. Гармоническое среднее сильнее наказывает за перекос точности и полноты чем арифметическое или геометрическое средние, доказывается через неравенство Коши.
🎉 Сегодня и завтра мы на Aha!25 — одной из крупнейших технических конференций по ML, AI, аналитике и продакт-менеджменту!
📍 Если вы тоже на Aha! — приходите знакомиться! У нас уютная зона (да, та самая с зеленым диваном), можно пообщаться про карьеру, обучение и узнать, как использовать ML, чтобы расти в профессии и приносить больше ценности бизнесу. А также поесть мандарины 🤫
📸 На фото — наш стенд. Заходите!
📌 Ответы на вопросы с собеседований
1️⃣ В чём разница между следующими методами ансамблирования моделей: стэкинг и бустинг?
Бэггинг (bagging) обучает много моделей независимо друг от друга на разных подвыборках и усредняет результат — он снижает дисперсию (variance), не сильно влияя на смещение (bias).
Бустинг (boosting) обучает модели последовательно, каждая исправляет ошибки предыдущих — он снижаетсмещение (bias), но может увеличить дисперсию, особенно если переобучиться.
Увеличение количества данных не поможет избежать переобучения, если модель слишком сложная для решаемой задачи — тогда она всё равно может подгонять шум в данных. Также, если новые данные не добавляют разнообразия (например, они из той же выборки и не покрывают новые случаи), переобучение сохранится. Кроме того, если данные остаются с теми же ошибками, увеличение объёма не решит проблему.
Прунинг (обрезка) деревьев — это удаление лишних ветвей дерева, чтобы уменьшить переобучение и улучшить обобщающую способность модели.
Он нужен, потому что полностью выросшее дерево может подгоняться под шум и детали обучающей выборки.
Виды прунинга:
- Pre-pruning (ранняя остановка) — остановка роста дерева при достижении условий (например, макс. глубина, мин. число объектов в узле).
- Post-pruning (пост-обрезка) — сначала строится полное дерево, потом лишние ветви удаляются на основе кросс-валидации или прироста качества.