tobeanmlspecialist | Unsorted

Telegram-канал tobeanmlspecialist - Стать специалистом по машинному обучению

8038

Канал о машинном обучении для людей Рассказываю о последних трендах в ML, учусь разбираться в терминах вместе с вами. Для разбора теории приглашаю профессионалов. Подкаст: https://mlpodcast.mave.digital С вопросами и предложениями пишите @kmsint

Subscribe to a channel

Стать специалистом по машинному обучению

Есть такой аргумент в пользу того, что мы живем в симуляции - слишком маленькая вероятность, что именно МЫ именно СЕЙЧАС живем в изначальном реальном мире, который потенциально может породить бесчисленное количество симуляций.

Глядя на то, как стремительно развиваются технологии за последние десятилетия и что AGI уже почти среди нас, иногда начинает казаться, что, возможно, мы живем в будущем и в качестве развлечения для отпуска просто выбрали себе погружение в самый интересный период развития человечества - почувствовать себя причастными к созданию того, что радикально это самое человечество изменит, если не уничтожит.

Такие мысли на ночь.

Читать полностью…

Стать специалистом по машинному обучению

Только что вернулся с Practical ML Conf. По горячим следам, пока еще свежи воспоминания, хочу поделиться некоторыми впечатлениями.

Если кратко - мне понравилось. Было реально "хардово", как и обещали. Причем настолько, что часто ощущал себя, мягко говоря, не очень умным. Но зато это были конкретные инженерные решения, которые в случае похожих задач, бери и внедряй.

Доклады, которые я посетил:

1. Виктор Плошихин рассказал про то, как они обучали LLM для работы с кодом, какие метрики использовали и как удалось добиться качества, сравнимого с топовыми решениями в этой области.

2. Очень яркий доклад был от Степана Комкова про синтез речи для аудиокниг. Там, оказывается, довольно замороченный пайплайн и как всегда огромное количество нюансов. Про то, что живые дикторы "копят на космолет", например. Но на выходе решение дает очень достойный результат, позволяющий автоматически озвучивать аудиокниги. Для меня это актуально, потому что я часто "читаю" книги в таком формате.

3. Хороший доклад был от Кати Серажим про нейропоиск (LLM формирует ответ на поисковый запрос из поисковой выдачи Яндекса). Там тоже все непросто и даже нейросетки страдают самоцензурой, когда это и не требуется.

4. Удивился тому, что в медицине, в которой как кажется, ИИ должен быть просто везде, дела обстоят не так, чтобы хорошо и еще оооочень много предстоит всего сделать. Об этом рассказала Екатерина Кондратьева.

5. Сергей Елисеев и Леонид Штанько рассказали про проблемы вокруг превращения 2D-изображений в 3D-модели. Меня во время доклада не покидала мысль, что там такие тонкие материи, что скоро лабораторию под землей придется строить, чтобы максимально исключить влияние внешних факторов. Это, если что, отсылка к регистратору гравитационных волн :)

Также был на мастер-классе, посвященном векторным базам данных. Удалось обзавестись полезными интересными контактами и договориться о разных совместных активностях (следите за новостями). Встретился с московскими друзьями-коллегами, с некоторыми из которых виделся до этого только через экран монитора.

Что, на мой взгляд, можно было бы улучшить. Ну, наверное, самая главная претензия - к рассинхрону между докладами в разных залах. Сложно спланировать маршрут, исходя из того, что в одном зале доклад еще не закончился, а в другом уже начался. Также можно было бы добавить больше элементов шоу. Хардовые доклады - это, конечно, по-своему, круто и они должны быть, как фишка Яндекса, но мне кажется, что и о том, что люди пришли потусоваться и получить более широкий спектр эмоций, чем просто осознание того, насколько ты можешь быть далек от понимания многих передовых задач в ML, можно было бы подумать. Ну, и хотелось пообщаться на стенде беспилотных автомобилей с инженерами, разрабатывающими эту технологию, но встретил я там только водителей-тестировщиков, которые почти ничего не рассказали, ссылаясь на NDA.

А в целом, круто! Антураж, расслабляющий вайб в перерывах между докладами и интересные люди. Потом, как сделают нарезку, выложу самые яркие и интересные доклады в канале. @ermakovpetr, большое спасибо за приглашение! Зови еще :)

Читать полностью…

Стать специалистом по машинному обучению

Practical ML Conf начинается

Читать полностью…

Стать специалистом по машинному обучению

Через 10 минут начинаем!
Ссылка на трансляцию: https://www.youtube.com/live/3pJsgMwAXd0?si=uicttDR5i_DR4rXx

Читать полностью…

Стать специалистом по машинному обучению

Привет, друзья!

Я определился с временем стрима. Это будет четверг на этой неделе (12.09.24), 19:00 по MSK. Интересен стрим может быть, в первую очередь, начинающим, потому что хочется сделать плавный ввод в тему организации рабочего пространства для экспериментов в Jupyter Notebook, то есть я планирую довольно подробно стараться комментировать все, что буду делать, затрагивая основы администрирования серверов на базе Linux, чтобы на выходе, даже без опыта работы с этой операционной системой, у участников стрима сложилась более менее полноценная картина того, что происходит и как это все применить к своим условиям.

Плюс, если будет время, покажу пример телеграм-бота, который через брокер сообщений (на базе кластера NATS) шлет тяжелые задачи на сервер с видеокартой для ускорения вычислений. Для этого тоже можно использовать SSH-туннели.

Читать полностью…

Стать специалистом по машинному обучению

Ну, судя по реакции, интерес есть. Тогда буду готовить. Предварительный план стрима такой:

План стрима

1. Почему такой сетап
2. Почему не на продвинутых инструментах и не в облаке
3. Настройка Jupyter Notebook на локальном компьютере с видеокартой
4. Настройка сервера с публичным IP
5. Настройка SSH-ключей
6. Настройка обратного SSH-туннеля
7. Настройка systemd юнита для автоматического перезапуска туннеля
8. Подключение к локальному компьютеру через SSH-туннель
9. Запуск Jupyter Notebook по SSH
10. Подключение к локальному компьютеру с видеокартой с пробросом портов
11. Автоматизация запуска и подключения к Jupyter Notebook на локальной машине за NAT с любого компьютера
12. Кейсы, в которых может потребоваться подобный сетап (например, телеграм-боты с ИИ для генерации, распознавания, саммаризации и т.п.)

Какой-то очень серьезной подготовки я не планирую, поэтому возникающие проблемы (а без них, уверен, не обойдется) будем решать прямо на стриме, что, возможно, добавит живости происходящему.

Площадку пока не выбрал, если есть предложения - пишите. Предварительно - YouTube. Вроде, говорят, что пока работает.

Предполагаемую дату стрима сообщу заранее. Наверное, это будет один из вечеров (по Мск) на следующей неделе. Буду рад пообщаться в онлайн-режиме!

Читать полностью…

Стать специалистом по машинному обучению

@humanAnton, большое спасибо за подгон! С огромным интересом и удовольствием посмотрел два ролика (в общей сложности больше трех часов видео, которое комфортно смотрится на скорости x2) с размышлениями о том, что такое искусственный интеллект и насколько близко мы уже к AGI (спойлер: смотря как трактовать, ведь при некоторых трактовках он уже вполне себе среди нас).

Если хотите пищи для размышлений и заряда технооптимизмом - сильно рекомендую!

1. Искусственный интеллект 1: как его распознать
2. Искусственный интеллект 2: ответы на вопросы

Читать полностью…

Стать специалистом по машинному обучению

Александр Алерон Миленькин. Надо ли строить бизнес вокруг ML (Про LLM, RAG-системы, насмотренность и виртуальных помощников)

Читать полностью…

Стать специалистом по машинному обучению

Егор Самосват. Монетизация, рекомендации и при чем здесь ML

Читать полностью…

Стать специалистом по машинному обучению

У меня есть устойчивое убеждение, что на каком-то этапе развития ML-специалиста (а, впрочем, и специалиста любой другой области) не остается комфортных и разжеванных источников информации и должен начаться период чтения и анализа передовых научных статей с попытками воспроизведения и улучшения результата. Я сам иногда делаю подходы к наиболее популярным статьям, но обычно компетенций глубоко разобраться мне не хватает и я возвращаюсь к более популярным источникам, чтобы подтянуть базу.

С большим удовольствием смотрю разбор статьи про Llama 3.1 от Евгения Разинкова. Евгений в эфире читает статью и объясняет на более простом языке, что, собственно, в статье происходит. Возможно, этот ролик может стать точкой входа в дальнейшее изучение ML на таком высоком уровне, как чтение научных статей. Попробуйте!
https://youtu.be/YoRsqImynUE?si=O4OWiQNeY_jsf-Xk

Читать полностью…

Стать специалистом по машинному обучению

🚀 Уважаемые коллеги, тех, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном проекте.

Минимальное требование - Вы знакомы с Питоном, и у Вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп (в идеале GAP,SAGE).) Задача проекта - применить машинное обучение к теории групп. Целью проекта является написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.

Если Вам интересно участие - напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Решение пазла типа Кубика Рубика. Задача близка к прошедшему конкурсу Каггл Санта 2023. Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP,SAGE.

Достигнутые результаты - уже сейчас мы можем за минуты делать то, что авторы работы DeepCube делали за 40 часов на многих GPU.

Читать полностью…

Стать специалистом по машинному обучению

Прочитал еще одну статью на Хабре от исследователей из Яндекса, посвященную "экстремальному" сжатию больших языковых моделей. Вообще, заметил хорошую тенденцию, что Яндекс очень много пишет про внутрянку LLM, наверное, больше, чем все остальные. Если вы еще не готовы читать научные статьи с arxiv'а, то относительно комфортное погружение в современное состояние дел будет как раз через такие статьи на Хабре.

Собственно, про квантизацию я знаю уже довольно давно. Веса больших моделей, которые обучают богатые компании, типа, OpenAI, Meta, Google и так далее, хранятся с точностью float16, когда на число с дробной частью (на один вес модели) выделяется 16 бит. 16 бит - это довольно много и простая математика говорит о том, что какая-нибудь модель с 7-ю миллиардами параметров (весов) будет занимать 112 миллиардов битов или 14 миллиардов байтов. Так-то, больше 13 Гб. А ведь это, по современным меркам, очень небольшая модель, которая не так, чтобы показывала какие-то ошеломляющие результаты.

Одним из способов сжатия моделей как раз и является квантизация, которая уменьшает разрядность чисел, в которых хранятся значения весов моделей. Оказывается, при таком подходе, с учетом некоторых нюансов, качество модели снижается не настолько сильно, насколько уменьшается ее размер. И, вот, некоторые LLM уже можно запускать на домашнем компьютере даже без видеокарты. Ну, а особенно это актуально для смартфонов, где хочется и скорости с отзывчивостью и ресурсов на это как можно поменьше тратить.

Два года назад научились эффективно сжимать модели в 4 раза, то есть до 4-х бит. Хороший результат, но давайте лучше сожмем в 8! И, вот, исследователи Yandex Research совместно с коллегами из IST Austria и KAUST предложили такой способ сжатия моделей в 8 раз, причем без какой-то значимой потери качества - их научная статья была включена в программу одной из самых престижных в мире конференций по машинному обучению - ICML 2024. Как замеряется это качество - это отдельная большая тема, но просто представьте, что теперь на условной RTX3090 можно запускать модели с 70 миллиардами параметров, а еще и эффективно файнтюнить их под свои задачи.

В статье есть краткий, но интересный рассказ о пути, через который прошло сжатие, чтобы достичь текущих результатов. Как всегда в таких историях меня восхищает гений инженерной мысли, который со стороны выглядит как магия.

Новый метод уже доступен для применения разработчикам и исследователям - код опубликован в репозитории GitHub.
Также можно скачать уже сжатые с помощью новых методов популярные опенсорс-модели.

Кроме того, Яндекс выложил обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.

Читать полностью…

Стать специалистом по машинному обучению

Посмотрел, тут, один ролик на ютубе про генерацию контента с помощью нейросетей и автоматический постинг во все соцсети с адаптацией под каждую сеть. С одной стороны идея на поверхности и, разумеется, это будут делать в надежде сэкономить на нормальных контент-мейкерах. С другой - тысячи тонн мусорного контента и экспоненциальный рост его количества. Хотелось бы понять куда это все заведет.

Читать полностью…

Стать специалистом по машинному обучению

Хочу порекомендовать канал на YouTube для довольно простого входа в нейронные сети на базе библиотеки pytorch. В серии видео объяснены общие принципы и некоторые популярные архитектуры нейросетей. Показана их реализация почти с нуля, насколько можно считать реализацией с нуля настройку параметров модели с помощью pytorch. Возможно, для тех, кто не хочет начинать с хардовой математики - это лучший вход в нейронки. Автор его так и задумал.

Также есть недорогой курс на Степике, в котором те же видео, что и на YouTube, но добавлены практические задания, то есть принцип тот же, что у Сергея Балакирева - видео в свободном доступе, а практика за очень бюджетным пейволлом, чтобы поддержать труд автора.

Читать полностью…

Стать специалистом по машинному обучению

Привет, друзья!

Вчера на встрече клуба я делился впечатлениями от использования шлема виртуальной реальности Oculus Quest 3, который я брал во временное пользование, чтобы решить надо оно мне или нет. Во-первых, решил, что надо. А во-вторых, хочу теперь записать подкаст с кем-то, кто занимается развитием VR-технологий, желательно с использованием ML, а ML там точно есть где применять. Если у вас есть на примете такие специалисты - дайте знать, по-возможности. Буду очень благодарен!

Ну, и если интересно послушать впечатления - ниже прикладываю аудиозапись встречи. Слушать с временной отметки 9:30

Читать полностью…

Стать специалистом по машинному обучению

Когда я еще только начинал заниматься разработкой, я заболел известной болезнью "надо делать свои велосипеды", от которой меня довольно быстро излечил старший товарищ, сказавший, что если берешь в проект проверенные опенсорс-решения, в которые контрибьютят многие разработчики, ты как бы сразу расширяешь свою команду целыми отделами мотивированных программистов (аж по одному отделу на каждую зависимость). После осознания и принятия этой мысли я перестал бояться брать в проект зависимости, потому что даже если какая-то из них сломается - контрибьюторы, отвечающие за нее, очень заинтересованы быстро все починить. На моей практике, ну, очень редко такое бывает, чтобы на запрос (issue) долго никто не отвечал.

Исследователи из Института Точной Механики и Оптики (ИТМО) провели анализ состояния опенсорса в области ML и Data Science в России. Вообще, я довольно давно продвигаю тезис, что философия открытого ПО мощно влияет на любую индустрию, не только в области ИИ. И чем больше полезного открытого кода, тем прозрачнее правила игры и намного больший контроль корпораций со стороны общества. Благодаря чему есть некоторый шанс, что Василиск Роко не выскользнет внезапно из какой-нибудь очень закрытой компании, занимающейся ИИ-разработками.

В общем, что по исследованию.

Яндекс — лидер (с серьезным отрывом) среди российских разработчиков в общемировой опенсорс-среде. В топ-3 также попали Сбер и Т-Банк.

Оценивали количество open source проектов в области данных и ML, насколько эти проекты используются в РФ, какое качество у репозиториев этих проектов, сколько контрибьюторов и их активность.

Основные выводы:

- GitHub продолжает оставаться стандартом для открытого кода де-факто (Почему-то кажется, что не только открытого).
- При этом интерес к альтернативным площадкам (Gitee, GitVerse) не снижается (Кто все эти люди?)
- Среди перспектив развития опенсорса эксперты выделяют сохранение ключевой роли человека на фоне ИИ (Переживают кожанные, можно понять)
- Участники исследования отмечают, что тезис "вклад в опенсорс – помощь конкурентам" уходит в прошлое — все больше компаний нацелены на развитие отрасли в целом (Рациональная позиция, диктуемая теорией игр, в долгосроке по-другому и не должно быть)

Если интересно, то вот ссылка на презентацию с данными исследования, а вот статья на Хабре.

Читать полностью…

Стать специалистом по машинному обучению

https://www.youtube.com/live/ZbLX27_GS_8?si=fP40k8bQ7i0lWV3U

Читать полностью…

Стать специалистом по машинному обучению

🚀 Яндекс разработал AI-ассистента для работы с кодом

С помощью сервиса разработчики смогут по фрагменту кода сгенерировать наиболее вероятное его продолжение. Это поможет упростить написание и редактирование кода и ускорить продуктовую разработку в компаниях. Ассистент протестировали тысячи разработчиков Яндекса, 60% из которых стали постоянными пользователями сервиса.
Использование Yandex Code Assistant помогает повысить эффективность работы: доверьте рутинные операции AI и сосредоточьтесь на решении более сложных задач, чтобы ускорить разработку и сократить Time to market. Да и просто делает жизнь разработчиков проще и счастливее.

⚙️ Для кого
Инструмент полезен разработчикам любого уровня, а также техническим руководителям, которые хотят оптимизировать процессы и повысить продуктивность своих команд.

→ Как попробовать
Yandex Code Assistant доступен бесплатно на облачной платформе Yandex Cloud в режиме Preview. Для тестирования оставьте заявку.

Читать полностью…

Стать специалистом по машинному обучению

Приветствую, друзья!

Как договаривались, сегодня состоится первый стрим. Начало в 19:00 по MSK. Жду тех, кому интересно пообщаться в прямом эфире, тех, кому интересно как настраивать доступ по SSH к удаленным машинам, какие вообще требуются предварительные настройки сервера. Поделюсь своими мыслями о том, почему имеет смысл уметь все это делать руками. Вероятнее всего, буду тупить с настройками стрима из-за отсутствия опыта, ну, и постараюсь максимально подробно комментировать все то, что буду делать, чтобы упростить понимание даже для тех, кто никогда еще с подобным не сталкивался.

Ссылка на стрим: https://www.youtube.com/live/3pJsgMwAXd0?si=uicttDR5i_DR4rXx
Примерный план стрима: /channel/toBeAnMLspecialist/853

Читать полностью…

Стать специалистом по машинному обучению

Юрий Окуловский, которого, помимо прочих его заслуг, вы можете помнить как неоднократного гостя подкаста, начал выкладывать курс по генеративному искусственному интеллекту. С удовольствием посмотрел первую лекцию (ссылка). Пост, посвященный курсу, со ссылками на дополнительные материалы здесь. Очень много практических вопросов будет рассмотрено в рамках работы с моделями в условиях ограниченных вычислительных ресурсов с упором на open source!

Читать полностью…

Стать специалистом по машинному обучению

Появилась мысль провести стрим по настройке подключения к локальному компьютеру без публичного IP-адреса, на котором установлена графическая карта так, чтобы можно было на этом компьютере запускать jupyter notebook, а доступ к нему иметь с любого другого компьютера.

То есть если у вас есть дома мощный локальный компьютер, но у него нет публичного IP-адреса и вообще он находится за NAT провайдера, но вы хотели бы проводить вычисления на нем, а результаты видеть с любого другого компьютера.

Был бы вам интересен такой стрим живой создания подобного сетапа?

Читать полностью…

Стать специалистом по машинному обучению

Встречаемся 14 сентября на Practical ML Conf в Москве и
онлайн!

Machine learning, проверенный практикой*
* Сгенерировано YandexGPT

Главная конференция Яндекса по ML для экспертов: качественные технические доклады от ключевых инженеров, максимум пользы и знаний о практическом применении.

Ключевые темы конференции:
CV / NLP / Speech / RecSys / MLOps / Data science

В числе спикеров:
– Степан Комков — Яндекс Поиск, старший разработчик службы синтеза речи;
– Дмитрий Антипов — Сбер, АБТ, тимлид разработки;
– Виктор Плошихин — Yandex Cloud, руководитель ML-лаборатории в Yandex Platform Engineering.

Во вдохновляющем футуристичном пространстве «Суперметалл» мы поговорим о кейсах, которые не найти в научных статьях, ведь когда они появятся — вы уже не сможете оказаться в числе визионеров.

Ждём вас, чтобы заглянуть в будущее вместе — офлайн и онлайн.

Реклама. ООО "Яндекс", ИНН 7736207543

Читать полностью…

Стать специалистом по машинному обучению

Привет, друзья! Свежий выпуск подкаста подоспел!

Общаемся с Александром (Алероном) Миленькиным - ML лидером в Dodo Brands, IT-предпринимателем, Kaggle-экспертом, преподавателем. Обсуждаем то, как можно использовать современные ИИ-технологии, чтобы иметь конкурентное преимущество. Почему лучше строить ML вокруг бизнеса, а не бизнес вокруг ML. Нужны ли в современных реалиях свои большие ML-модели или достаточно пользоваться сторонними сервисами с внешним API. Что такое и как устроены RAG-системы. Кто такие агенты и как заставить их работать на себя. Можно ли подкупить языковые модели, чтобы они выдавали полезную для тебя информацию. Почему надо качать насмотренность и как это может помочь находить лучшие бизнес-идеи. Почему даже только знание о том, что существует ChatGPT может быть тем самым конкурентным преимуществом. Долго ли ждать нашествия тьюторов в виртуальной реальности. Когда уже, наконец, языковые модели заменят программистов. Обо всем этом в выпуске!

https://mlpodcast.mave.digital/ep-61

Читать полностью…

Стать специалистом по машинному обучению

Давно такого не было и вот опять :) После некоторого перерыва снова возвращаюсь к публикации выпусков Machine Learning Podcast!

В гостях нового выпуска Егор Самосват - руководитель юнита эффективности монетизации Авито. Разговариваем о том, что такое монетизация и как машинное обучение позволяет находить оптимальный баланс между "заработать побольше" и "принести пользу". Почему долгосрочные стратегии выгоднее. Почему бесплатно - далеко не всегда хорошо. Что такое теория аукционов и при чем здесь Англия. Как искусственный интеллект определяет какому объявлению быть в топе. Как сейчас устроена контекстная реклама. Почему даже хорошие модели иногда ошибаются. Как определить недобросовестных участников сделок. А также почему здоровая жадность может приносить пользу всем игрокам. Обо всем этом в выпуске!

https://mlpodcast.mave.digital/ep-60

Читать полностью…

Стать специалистом по машинному обучению

🔥 Прикладная независимая конференция по ML (от организаторов HighLoad++)

26 и 27 сентября в Москве пройдет одна из главных конференций по ML - AiConf 2024! Это крупнейшее офлайн-событие для Data Scientist, ML инженеров.

И это не просто конференция, а площадка для обмена опытом, общения и профессионального роста.

➡️ Среди тем конференции:
- Работа со звуком
- Компьютерное зрение и генерация изображений
- Обработка естественного языка
- Рекомендательные системы и поиск
- Умные механизмы
- Разработка агентов
- Дискуссии на тему "ML будущего"
- Оптимизация использования железа

➡️ На AiConf 2024 вас ждут:
— Более 700 участников
— Доклады от Эмели Драль, Олега Бартунова, Алексея Голомедова
— Свежие доклады от лидеров рынка Ozon, Яндекса, Huawei, а также из реального сектора экономики
— Рассказы о кейсах и технологиях, которые можно сразу применить в своих проектах. Всё свежее, из первых рук
— Неформальное общение на afterparty в конце первого дня

❗️Кстати, ребята в своем телеграм-канале делают розыгрыш офлайн-билета, приглашаю поучаствовать (/channel/UseDataConfChannel)

Узнать больше о программе можно на сайте https://aiconf.ru/2024

Реклама ООО «Конференции Олега Бунина», ИНН: 7733863233, erid: LjN8Jx11K

Читать полностью…

Стать специалистом по машинному обучению

Я давно наблюдаю за развитием всевозможных AI-тьюторов и, вот, наткнулся в одном чате на приложение для подготовки к собеседованиям. У меня случился вау-эффект! Не смотря на некоторые задержки в обработке и немного дерганый аватар интервьюера, приложение выглядит очень достойно! Прям, рекомендую попробовать пособеситься :)

Познакомился с автором приложения и самое интересное, что он не является специалистом в ML, то есть это отличный пример того, что уже можно брать готовые AI-сервисы и конструировать из них решения для своих задач. И это даже будет выглядеть вполне хорошо.

Ставь 🔥 если интересно было бы послушать подкаст с автором!

Читать полностью…

Стать специалистом по машинному обучению

Чуть не забыл :) Хорошо, что напомнили в комментариях. У selfedu (Сергея Балакирева) вышел курс по машинному обучению на Степике. Как всегда на старте курса, у данного преподавателя, можно получить доступ бесплатно. Го!
https://stepik.org/course/209247/syllabus

Читать полностью…

Стать специалистом по машинному обучению

Я сейчас много времени посвящаю изучению распределенных высоконагруженных систем. Все эти брокеры, балансировщики, реплики, шарды, мап-редьюсы и прочее. И поэтому с большим интересом прочитал статью на Хабре Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Это стенограмма доклада Артёма Ваншулина из Яндекса. В статье показан весь пайплайн с кратким разбором оптимизаций на каждом этапе.

Когда сам в своей работе сталкиваешься с задержками на сериализацию/десериализацию объектов, задержками передачи объектов по сети, неоптимальными алгоритмами обработки и т.п. очень задумываешься о нормальных мониторингах и профилировщиках. Узнал из статьи о том, что такое флеймограммы и профайлер бедного человека.

Но самые тяжелые вычисления, это конечно же ML. Ты можешь хоть обоптимизироваться на этапах запросов к БД или взять самый быстрый брокер, но если у тебя не оптимизирована работа с моделями, ни о какой скорости говорить смысла нет, поэтому бОльшая часть статьи посвящена оптимизации ML части пайплайна. Очень много вспомогательных вычислений происходит заранее и результаты кешируются для мгновенного доступа, а скалярное произведение просто какая-то панацея.

Каких-то хардовых технических деталей в статье нет, но проникнуться сложностью решаемой инженерной задачи можно.

Читать полностью…

Стать специалистом по машинному обучению

Самые большие бусты в моей жизни случались тогда, когда мне удавалось попадать в близкий круг людей, которые сильнее меня разбираются в той области, которую я хотел прокачать. Ты как-будто сразу получаешь четкое видение как делать надо и как не надо, чтобы получать результат, близкий к желаемому. И хотя это может звучать как инфоцыганское клише, я продолжаю применять такой подход. Например, курс, который я пишу с соавторами по телеграм-ботам, получается намного лучше, чем если бы я писал его сам, просто потому что мои соавторы значительно опытнее меня в разработке. Но сейчас не про курс, это просто текущее подтверждение мысли, которую я хочу выразить этим постом прежде, чем предлагать вам поучаствовать в Kaggle-соревнованиях с крутой командой.

Где-то неделю назад в клубе один из участников, которого зовут Александр, рассказал, что они собрали команду из 5 человек и участвуют в соревнованиях по ML, а периодически еще успевают решать коммерческие задачи. И сейчас ищут себе еще одного начинающего специалиста, которому хотелось бы прокачаться в крутой команде, среди медалистов Kaggle. Мне история очень понравилась и я предложил Александру опубликовать информацию об этом в канале, возможно, кому-то из вас это покажется интересным. Честно говоря, я бы и сам попросился к ним, но текущие проекты бросить мне никак. В общем, если хотите быстрого профессионального роста, мне кажется, это, прям, хороший способ.

Вот само объявление:

ML-команда ищет разработчика для участия в kaggle соревновании

Мы опытная IT-команда, которая последние два года активно занимается ml-проектами (как коммерческими так и kaggle соревнованиями).
Наш основной фокус - это computer vision, federated learning, medical research. Для работы мы выбираем сложные задачи с социальным импактом, где использование ML действительно уместно.

Сейчас мы участвуем в соревновании RSNA-2024 вместе с многократным призером кегла и хотим усилить команду еще одним разработчиком.

Необходимые/желательные навыки и опыт:
- опыт участия в реальных проектах в качестве ds или ml разработчика
- опыт работы со стеком Python/numpy/pandas/scikit-learn/pytorch
- опыт участия в кегл соревнованиях (не обязательно, но будет плюсом)
- наличие свободного времени (минимум 20 часов в неделю)
- желание по-харду учиться и развиваться
- желание работать в команде

По итогам совместной работы будет обсуждаться возможность присоединиться к нашей команде на постоянной основе для участия в коммерческих проектах.

Если тебе интересна работа с нами, то напиши мне в личку или на почту lvov@horaizon27.com:
- пару слов о себе
- где учишься и/или работаешь
- над какими интересными проектами работал(а) и в чем был твой вклад
- чем тебя заинтересовало участие в RSNA-2024 вместе с нашей командой

Читать полностью…

Стать специалистом по машинному обучению

Если у вас есть желание проникнуться нагромождением абстракций и в очередной раз осознать какие комплексные инженерные решения нас окружают в повседневной жизни, а также если вы хотите немного лучше понимать подкапотные процессы Linux - могу порекомендовать лекцию, где стеснительная девушка очень подробно рассказывает про процесс загрузки операционной системы. Я, конечно, примерно все это представлял, но вот это мое "примерно" было настолько примерно, что смотрю и тихо офигеваю.
https://www.youtube.com/live/RanCaFrPYrs?si=RcGMChY7Joy5Y03J

Читать полностью…
Subscribe to a channel