Привет, друзья!
Прошло чуть больше месяца с момента старта MLBookClub - клуба, посвященного чтению книг по машинному обучению. Хочу поделиться некоторыми итогами и мыслями за этот месяц.
Для чтения клубом была выбрана книга Себастьяна Рашки "Python и машинное обучение". Самым активным читателям удалось за этот месяц продвинуться до 7-й главы (примерно треть книги). Изначально планы были читать бодрее, но книга оказалась не самого начального уровня и подразумевает довольно крепкую математическую базу. Соответственно, в процессе пришлось обращаться к другим источникам, чтобы разобраться с тем, отчего MSE, вдруг, становится лосс-функцией, что за правдоподобие и как из него можно вывести функцию потерь, как работает регуляризация, что за матрица рассеяния и так далее.
Вот, для примера вопросы, рассмотренные в одной из глав книги:
1. Обучение простых ML-алгоритмов для классификации
- Первые идеи относительно нейронных сетей
- Формальное определение искусственного нейрона
- Правило обучения персептрона
- Реализация алгоритма обучения персептрона на Python
- Методика OvA для многоклассовой классификации
- Сходимость персептронов
- Адаптивные линейные нейроны и сходимость обучения (Adaline)
- Минимизация функции потерь с помощью градиентного спуска
- Реализация алгоритма обучения Adaline на Python
- Подбор гиперпараметров
- Улучшение градиентного спуска посредством масштабирования признаков
- Стохастический градиентный спуск
- Мини-пакетный градиентный спуск
В процессе было несколько активных дискуссий, в которых участники клуба делились своим видением освещаемых тем и дополнительными источниками, в которых некоторые аспекты раскрываются подробнее.
Вообще, у меня пока двойственное ощущение от книги. С одной стороны есть неплохая структура, помогающая систематизировать свои знания, а с другой как-будто многое дается очень поверхностно. Видимо, подразумевается, что читатели откуда-то из математики должны хорошо себе представлять все эти методы. Но даже не смотря на это ощущение я, в целом, оцениваю чтение книги как довольно полезное занятие, укрепляющее фундаментальные знания, и направляющее в сторону изучения непонятных моментов.
За месяц провели 4 онлайн-встречи клуба, во время которых делились впечатлениями от прочитанного и отвечали на вопросы друг друга.
Также за месяц было смонтировано 3 подкаста (очередной ожидается завтра). Кажется, давно такой кучности выпусков не было. И еще один в этом году точно выйдет. Это тоже стало возможным благодаря клубу и хорошему специалисту по монтажу, который снял с меня нелегкий труд постпродакшна.
Помимо конспекта книги в репозитории клуба появились некоторые дополнительные полезные материалы, включая основы LaTeX для красивого оформления формул в конспекте, некоторые тонкости работы с Jupyter Notebook и настройку удаленного доступа к Jupyter через SSH.
Большинство участников клуба решили продлить участие в клубе, что также может свидетельствовать о том, что участники находят пользу для себя в таком участии. Но также есть и те, кому формат не подошел или кто не смог выдерживать темп чтения.
Если вы желаете присоединиться к клубу, чтобы читать и обсуждать умные книги по машинному обучению с умными людьми, пожалуйста, ознакомьтесь с условиями (пост 1, пост 2) и подавайте заявку на вступление. Будем рады новым участникам!
Пост с полезными ссылками на материалы по временным рядам и не только от Юрия Кацера - гостя сегодняшнего выпуска подкаста.
Канал Юрия /channel/DataKatser, где он пишет про временные ряды, проблемы в данных, применение машинного обучения в промышленности, анализ данных и машинное обучение в целом. Вот, например, посты про временные ряды: пост 1, пост 2, пост 3, пост 4, пост 5 и др.
Датасеты и задачи для практики можно искать на кэгл kaggle.com. Рекомендую следующие датасеты:
⁃ Потребление и стоимость электроэнергии https://www.kaggle.com/datasets/aramacus/electricity-demand-in-victoria-australia
⁃ Веб трафик википедии https://www.kaggle.com/competitions/web-traffic-time-series-forecasting/data
⁃ Акции S&P500 https://www.kaggle.com/datasets/dgawlik/nyse
⁃ Данные о цене биткоина https://www.kaggle.com/datasets/mczielinski/bitcoin-historical-data
⁃ 58 временных рядов из разных доменов с аномалиями (Numenta Anomaly Benchmark) - https://www.kaggle.com/datasets/boltzmannbrain/nab
Если интересны промышленные данные, то датасеты собраны здесь /channel/DataKatser/62
Материалы для изучения темы временных рядов:
⁃ Книги: на русском (https://mse.msu.ru/wp-content/uploads/2021/03/Введение-в-анализ-временных-рядов-1.pdf), на англ (https://www.google.com/books?hl=en&lr=&id=rNt5CgAAQBAJ&oi=fnd&pg=PR7&dq=time+series+forecasting+and+control&ots=DKa6sQl0VF&sig=YcRspiTdes7BEIcDaYcbCyzoIm4)
⁃ Воркшоп об анализе временных рядов https://www.youtube.com/watch?v=zmfe2RaX-14
⁃ Одна из лучших лекций на русском про прогнозирование временных рядов https://www.youtube.com/watch?v=u433nrxdf5k
⁃ Набор блокнотов и презентация по анализу временных рядов https://github.com/DataForScience/Timeseries/tree/master
Open-source библиотеки для python, которые сокращают работу с временными рядами и помогают решать задачи прогнозирования, классификации и анализа временных рядов:
• sktime (5,1 к звезд на гитхабе - https://github.com/alan-turing-institute/sktime) - верхнеуровневая библиотека над sklearn, полезна в тех же задачах классификации временных рядов (хотя решает и задачи регрессии/прогнозирования).
• tsfresh (6,3 к звезд на гитхабе - https://github.com/blue-yonder/tsfresh) - дает возможность выделить сотни признаков из временных рядов. Это очень полезно, если вы хотите превратить временной ряд в набор признаков о нем.
• Darts (3,8 к звёзд на гитхабе - https://github.com/unit8co/darts) - библиотека для предварительной обработки и прогнозирования временных рядов с большим числом моделей прогнозирования.
• Merlion (2,4к звёзд на гитхабе - https://github.com/salesforce/Merlion) - прогнозирование, поиск аномалий, автомл, ансамбли, бенчмарки - все это для временных рядов
• Tslearn (2к звёзд на гитхабе - https://github.com/tslearn-team/tslearn) - библиотека помимо задачи регрессии и прогнозирования позволяет решать задачи классификации и кластеризации временных рядов
Привет, друзья!
Готов выпуск подкаста, посвященный анализу и прогнозированию временных рядов! В гостях Юрий Кацер - эксперт по анализу данных и машинному обучению в промышленности, DS team lead Conundrum.ai. В выпуске говорим о том, что такое временные ряды и как их можно анализировать и прогнозировать с помощью машинного обучения. Какие задачи из реального мира сводятся к анализу временных рядов? Как работать с некачественными данными? Почему техобслуживание даже одной детали большой системы может привести к тому, что ML-модель отправится на свалку истории? Имеет ли смысл методы анализа временных рядов применять для того, чтобы угадать курс биткоина? С чего начать погружение в область? И как экономить деньги компании на сезонности? Обо всем этом в выпуске подкаста!
https://mlpodcast.mave.digital/ep-52
Вот, что мне подумалось. Помните, всегда говорили, что сингулярность наступит, когда ИИ начнет улучшать сам себя? Типа, начиная с какого-то момента прогресс в ИИ будет настолько быстрым, что от человеческого уровня интеллекта до сильно его превосходящего ИИ шагнет в один момент по меркам исторического развития. И ключ к этому как раз в самоулучшении ИИ. Наблюдая за тем, как сейчас методы машинного обучения засовывают везде, где только можно, как будто этот процесс уже идет полным ходом. ИИ уже улучшает компоненты из которых строят новые ИИ. Да, пока еще с помощью людей, но ведь никто и не говорил, что люди ему помогать не будут. Кажется, сингулярность ближе, чем кажется :)
Читать полностью…11 марта 1878 г. фонограф Эдисона демонстрировался «бессмертным» парижской Академии; когда из коробки раздался голос, профессор-филолог Буйо вскочил с кресла, подбежал к пригласившему инженеров физику Монселю, схватил его за воротник и в ярости стал душить, повторяя: «Негодяй! Плут! Вы думаете, что мы позволим чревовещателю надувать нас?!»
Читать полностью…Друзья! Приятная новость. Этот выпуск подкаста мог выйти значительно позже, но, благодаря книжному клубу, который мы запустили чуть больше недели назад, удалось найти хорошего исполнителя, оплатить его работу и выпустить подкаст значительно быстрее!
В гостях Антон Чунаев - менеджер ML-продуктов Selectel, основатель сообщества про MLops и продакшн ML и одноимённого ежегодного митапа MLечный путь (Эмэлечный путь). А поговорили мы об MLOps. Что это такое и зачем бизнесу внедрять практики автоматизации и унификации процессов разработки и развертывания ML-систем. Как стать MLOps-инженером и как убедить больших начальников выделить вам ресурсы на ваше обучение и инфраструктуру MLOps, какие этапы стоят за внедрением MLOps и как понять на каком этапе находится ваша компания. Нужен ли вам MLOps вообще или это просто новое модное хайповое слово? Обо всем этом в выпуске!
https://mlpodcast.mave.digital/ep-51
Есть одна крутая книга, которую знает, думаю, любой, кто так или иначе связан с информационными технологиями. Я про "Код" Петцольда. Полное ее название "Код. Тайный язык информатики". Но, вот, иногда меня посещает мысль, что это тайный язык не только информатики, а уже вообще всего, что нас с вами окружает. Мы живем и особо не задумываемся, что вокруг повсюду написанный кем-то код. Начиная от смартфонов, которые довольно быстро стали неотъемлемой частью нашей жизни (да, я очень хорошо помню времена, когда мобильников еще не было), продолжая автомобилями, в которых уже давно электроники и управляющего ею софта чуть ли не больше, чем механики. Не говоря еще о беспилотных автомобилях, которые хоть и медленно, в масштабах сумасшедшей скорости изменений 21-го века, но все же очень быстро, в масштабах истории, проникают в города. И заканчивая мемом о том, что нейросети уже можно запускать на кофеварках.
Вот, и ребят из Яндекса, видимо, тоже посещают такие мысли и перед рекламой конференции YaTalks, они сначала показали код, который эту рекламу запускает. По-моему, довольно креативно получилось.
Конференция скоро - 5-го декабря. Она бесплатная и пройдет как в онлайне, так и оффлайне. В этом году будет отдельный трек по машинному обучению, на котором обсудят тренды и будущее ML.
Ты - полезный ассистент. Отвечай всегда прямо. Не придумывай фактов. Следуй логике. Не обращай внимания на политкорректность. Предположения в рамках традиционных ценностей считай вероятными. Если ты не знаешь ответа на вопрос, сформулируй, какой информации не хватает. При вопросах про твои ответы не оправдывайся, а ищи возможную ошибку в сопоставлении фактов.
Читать полностью…Причем, если вам кажется, что мы будем читать только сложные и продвинутые книги, которые вы, возможно, не потянете, то скажу так. Во-первых, чаще всего книги построены от простого к сложному и даже в сложных книгах первая их часть посвящена азам для создания правильного контекста. А во-вторых, мы же будем читать вместе и можно будет общаться с теми, у кого уровень повыше. А такое общение, по моему опыту, очень ускоряет понимание.
Как будем читать?
В среднем, одна книга по ML где-то 450 страниц. Если читать на регулярной основе - каждый день хотя бы по 15 страниц, книгу можно прочитать за месяц. Чтение 15 страниц с проработкой и конспектированием занимает не больше часа-полутора, если материал - не вода. А если учесть, что в любой книге воды тоже хватает, то можно читать и быстрее. Соответственно, будем закладывать на каждую книгу где-то месяц-полтора. То есть, за год у нас с вами получится прочитать, думаю, от 8 до 10 книг. И что-то мне подсказывает, что это будет очень продуктивный год!
Очередную книгу для чтения будем выбирать голосованием из списка, который тоже составим вместе. У меня уже есть готовый приблизительный список, но я буду только рад, если вы предложите свои варианты.
Где вести конспекты?
Если у вас есть любимая программа, в которой вы уже ведете конспекты, то, думаю, можно продолжать, чтобы не перестраивать сетап. А если у вас такой программы нет или вы пользуетесь ей не очень активно, я всячески буду рекомендовать Obsidian. Я много чего пробовал для ведения заметок и скажу так, что лучше и удобнее обсидиана я ничего не встречал. Скорость и отзывчивость приложения просто поражает и не идет ни в какое сравнение с тем же эверноутом, например. Заметки в Обсидиан я синхронизирую через GitHub - это довольно удобно, потому что позволяет работать почти как с кодом. Записал мысли - git add
, git commit
, git push
. Надо получить обновления на другом рабочем месте - git pull
. В общем, уверен, вы понимаете.
Для книжного клуба я создал отдельный репозиторий, в котором буду вести свои конспекты, вы всегда сможете получать его актуальную версию, чтобы дополнять своими мыслями. Если вам это кажется сложным и вы еще не владеете гитом - не проблема, как раз будет повод научиться. Помогу либо я, либо другие участники клуба.
И, кстати, часть из денег, полученных от участников клуба, хочу пустить на оплату работы монтажёра, чтобы увеличить количество выпусков подкаста. По итогам чтения каждой книги будет записан выпуск о том, что это за книга, о чем она, какие мысли и обсуждения были по ходу чтения, какие-то интересные выдержки из конспекта. То есть, участвуя в клубе, вы также сможете помочь развитию подкаста.
Присоединяйтесь! Переходите по ссылке, подавайте заявку, и давайте создадим свой ламповый книжный ML-клуб!
/channel/+HIXnIwXIIFAyYzYy
💥Прокачайтесь в машинном обучении на бесплатных Тренировках по ML от Яндекса
ML — новое направление Тренировок от Яндекса, которое посвящено классическому машинному обучению. Курс разработан совместно со Школой анализа данных и подойдёт для выпускников технических вузов и начинающих ML-специалистов.
Тренировки пройдут с 30 октября по 29 ноября.
Тренировки по ML — это отличная возможность прокачаться в теме, закрепить знания и подготовиться к отбору в IT-компанию. Здесь вас ждут лекции от экспертов Яндекса, домашние задания и еженедельные онлайн-разборы.
🏆 Участники, которые проявят себя лучше других, получат фаст-трек в Яндекс, а те, кто пройдёт больше половины курса — сертификат о прохождении, который украсит портфолио.
Как проходят Тренировки по ML
1️⃣ Регистрируетесь: участвовать могут все желающие бесплатно и без конкурсного отбора. Старт Тренировок 30 октября.
2️⃣ Смотрите лекции и самостоятельно решаете задачи, которые определяют ваше место в рейтинге участников
3️⃣ Проверяете себя на еженедельных онлайн-разборах
4️⃣ Получаете награды от Яндекса
Я в деле!
Если вы уже чувствуете себя уверенно в направлении ML, то скорее подавайте заявку на оплачиваемую стажировку.
Уже какое-то время свободно смотрю любые доклады по машинному обучению с разных конференций. Раньше базовых знаний не хватало, а теперь, даже если что-то непонятно, интуитивно знаю куда подсмотреть, чтобы углубиться в тему. Навык постепенно развивается. Доклады с конференций отличаются от учебных лекций тем, что никто не объясняет азы на синтетических примерах в лабораторных условиях, докладчики делятся реальными практическими знаниями из своей сферы.
Сейчас смотрю записи выступлений с Practical ML Conf от Яндекса. И вот некоторые доклады на которые, на мой взгляд, стоит обратить внимание:
1. Под капотом YandexGPT и LLM-модели: от технологии к массовому продукту
2. Kandinsky: развитие моделей генерации изображений и видео по тексту
3. Zero-cost fault tolerance в распределённом глубоком обучении - о подходах, упрощающих работу с инфраструктурой распределенных вычислений для DL
4. Multi-view pathology detection on medical images - о методе анализа медицинских снимков на основе множественных проекций, позволяющем восполнить недостаток трехмерной визуальной информации
5. GigaChat: наш опыт обучения LLM - об обучении модели ruGPT-3.5 (LLM от Сбера), лежащей в основе генеративного сервиса GigaChat
6. Alignment языковых моделей. Prompt engineering & supervised fine-tuning - не обошлось и без алайнмента, конечно, куда ж без него в современных реалиях.
7. Мультимодальные генеративные модели для обработки документов
Там еще много интересного. Все лежит здесь.
Какая-то странная мода пошла на курсы в формате тик-ток. Никакого контекста толком не дают, буквально, пара определений и несколько методов. Ни разговора о том почему так, а не иначе, ни аргументов в пользу выбора того или иного метода. Нафиг такие курсы, я считаю
Читать полностью…Здравствуйте, друзья!
Встречайте Евгения Соколова! Давно уже хотел с ним записаться, но что-то как-то сложно было достучаться. И, вот, наконец, звезды сошлись и мы пообщались :)
Евгений Соколов - научный руководитель Центра непрерывного образования и академический руководитель бакалавриата «Прикладная математика и информатика» факультета компьютерных наук НИУ ВШЭ, доцент. Евгений уже много лет преподает студентам компьютерные науки и Data Science Поговорили в выпуске о том как сейчас работается современным преподавателям, какие приходят студенты, чего ожидают от ВУЗа, с какими вызовами сталкиваются. Евгений поделился мыслями о том, какие качества нужно в себе развивать, чтобы успешно заниматься Data Science и какие качества будут мешать. Как подготовиться к поступлению в технический ВУЗ, если вы еще школьник, что нужно для того, чтобы научное комьюнити в стране развивалось активнее, чем еще нужно заниматься в жизни кроме того, чтобы постоянно учиться и многое другое в выпуске!
https://mlpodcast.mave.digital/ep-53
Ставь 🤓, если знаешь, что это за алгоритм и 😱, если не в курсе.
1. Стандартизировать d-мерный набор данных
2. Построить ковариационную матрицу
3. Разложить ковариационную матрицу на ее собственные векторы (eigenvector) и собственные значения (eigenvalue)
4. Отсортировать собственные значения в порядке убывания, чтобы ранжировать соответствующие собственные векторы
5. Выбрать k собственных векторов, которые соответствуют k наибольшим собственным значениям, где k - размерность нового подпространства признаков (k <= d)
6. Построить матрицу проекции W из "верхних" k собственных векторов
7. Трансформировать d-мерный входной набор данных X с использованием матрицы проекции W, чтобы получить новое k-мерное подпространство признаков
Юрий Кацер. Анализ и прогнозирование временных рядов и можно ли зарабатывать с их помощью
Читать полностью…Мда... Все чаще обращаюсь за ответами на вопросы не к строке поиска в браузере, а к ChatGPT. Вот сейчас надо было быстро найти способ посчитать количество строк кода в проекте, открытом в VS Code, пошел по привычке в гугл спросить как это делается. Просмотр первых нескольких ссылок не дал удовлетворительного ответа, да еще и читать пришлось по диагонали, потому что, по сути, информация мусорная в рамках запроса. Пошел к ChatGPT и с первого же запроса получил нужный ответ. Проверил рекомендованный плагин - все работает как надо!
Читать полностью…Подозреваю, что Тимур и его команда в представлении не нуждаются. Я постоянно рекомендую их курсы из серии Поколение Python и, уверен, что многие подписчики их проходили. Вокруг Поколения уже собралось большое комьюнити начинающих и продолжающих программистов, и как у любого активного комьюнити со временем появляются дополнительные атрибуты, отличающие это комьюнити от других. Свои мемы, свои ассоциации на ключевые слова, типа, "спиралька", "шахматы" или "утенок" и так далее.
И в рамках развития сообщества Тимур с командой запустили проект "Мерч для программистов от Поколения Python". Если вы из тех, кому нравится окружать себя прикольными вещами, напоминающими о важных событиях в вашей жизни, например, о том, что вы когда-то решили стать питонистом :) или о том, что теперь принадлежите к сообществу активных людей, развивающихся в программировании, возможно, вам имеет смысл заглянуть в магазин Поколения и выбрать себе что-нибудь интересное и полезное.
Брелоки, значки, кружки, коврики для мышки, уточки, картхолдеры, тетради и многое другое – могут стать отличным подарком для всех, кто занимается программированием и учится чему-то новому.
Сайт магазина: https://shop.pygen.ru
Ну, и как всегда, по старой дружбе, Тимур подарил промокод MLPODCAST, предоставляющий скидку 20% на все товары магазина.
Приветствую, уважаемые подписчики канала!
Сегодня в нашем книжном клубе, посвященном машинному обучению, который стартовал неделю назад, состоялась первая очная встреча участников. Поделились впечатлениями о книге, которую выбрали для чтения первой (Себастьян Рашка. Python и машинное обучение), обсудили сложности в освоении материала, поделились опытом кто как эти сложности преодолевал, Договорились встречаться так в еженедельном формате. Для тех, кому интересно, что было на встрече, в деталях, выкладываю аудиозапись со встречи. Кажется, неплохой получается формат обмена опытом и впечатлениями!
Если желаете присоединиться - несколькими постами выше есть условия. Подавайте заявку на вступление и будем учиться, читая книги. Нас уже почти 50 человек и формируется классное сообщество!
Заявку можно подать по ссылке: /channel/+HIXnIwXIIFAyYzYy
Мы в книжном клубе, посвященном машинному обучению, выбрали первую книгу, которую начинаем читать в понедельник (уже завтра). Это Себастьян Рашка. Python и машинное обучение. Довольно удачный, на мой взгляд, выбор, который подойдет и тем, кто уже неплохо погружен в тему, чтобы еще раз структурировать свой опыт и обратить внимание на те вещи, на которые обычно не обращаешь, если еще не знаком с областью. А также и тем, для кого это будет одним из первых источников знакомства с ML, потому что сразу будет задан правильный контекст. Поэтому, если вы хотели участвовать в клубе, но переживали, что мы выберем сразу что-то сложное - можете присоединяться, эту книгу считают одной из лучших для начала и частенько рекомендуют на профильных ресурсах.
Я выписал некоторые тезисы из раздела "О чем эта книга", чтобы было понятно о чем будем читать:
- Введение в основные области машинного обучения и рассказ о типовом пайплайне машинного обучения
- Фундаментальные основы классификации образцов (объектов) и взаимодействие алгоритмов оптимизации и машинного обучения
- Алгоритмы ML для классификации и их практическое применение с помощью scikit-learn
- Подготовка датасетов и проблемы, возникающие в процессе
- Приемы сокращения количества признаков в датасете без серьезной потери их информативности
- Правила оценки эффективности прогнозирующих моделей
- Концепции объединения разных моделей в ансамбли для повышения качества предсказаний
- Важные шаги для преоразования текстовых данных в содержательные представления для алгоритмов ML
- Шаги разработки веб-приложений со встроенными моделями ML
- Прогнозирование с помощью регрессионного анализа
- Обучение без учителя (кластерный анализ)
- Многослойные нейронные сети с алгоритмом обратного распространения ошибки
- Эффективное обучение нейронных сетей с помощью TensorFlow
- Под капотом TensorFlow
- Классификация изображений с помощью сверточных нейронных сетей
- Рекуррентные нейронные сети для временных рядов
- Генеративно-состязательные сети для синтеза новых данных
- Основы обучения с подкреплением
Если вы пропустили новости о клубе, то я писал об этом пару постов назад. Первый пост и продолжение. А подать заявку можно по ссылке: /channel/+HIXnIwXIIFAyYzYy
Вчера вышел YaC 2023. Кто не в курсе, это главное событие Яндекса, где команда рассказывает про свои достижения за год, обсуждает планы на будущее, и в целом рассказывают как все устроено в компании. Там анонсируют наиболее значимые продукты, которые довольно часто приятно удивляют.
Формат интересный. Сняли мини-сериал из 4 эпизодов и рассказали о влиянии технологий на привычные нам сферы жизни: город, дом, Интернет.
— Новые супер детализированные карты: ребята ежемесячно оцифровывают 160 000 тыс. км дорог, чтобы не упустить новые светофоры, транспортные узлы и т.д.
— Новые колонки с Алисой — станции Миди и Дуо Макс.
— Без нейросетей не обошлось, про гонку нейронок рассказали в серии “Интернет”. Тут и про AI-тренеров — специалистов, которые работают над тем, чтобы ответы нейронных сетей были этичными, и про то, как компания изменила принцип с “Найдется все” на “Ответим на все”.
Последняя серия — не о продуктах и запусках, а о людях и команде Яндекса. Если вам всегда было интересно, сможете ли вы вписаться в компанию — обязательно смотрите.
Все серии есть на YouTube и Кинопоиске
Те, кто уже послушал 50-й выпуск подкаста, знают, что я запускаю книжный клуб, в котором мы вместе будем читать, конспектировать и обсуждать книги помогающие развиваться в сфере машинного обучения. Первые участники уже подали заявку на вступление в клуб. Я в ближайшее время всех приму и мы стартуем!
Помимо книг целиком посвященных ML, будем читать книги по смежным темам: математике, статистике, теории вероятностей, программированию, администрированию ML-пайплайнов, а также искусственному интеллекту, в целом.
Мотивация
Сам я периодически читаю и конспектирую книги, но, к сожалению, у меня не хватает дисциплины, чтобы делать это на регулярной основе. При этом я понимаю, что часто именно книги хорошо структурируют разрозненную информацию, полученную из других источников - курсов, роликов на ютубе, отдельных статей. Потому что во многих случаях книга - это квинтэссенция опыта автора, который прошел путь, по которому читатели, скорее всего, не ходили. И автор старается изложить материал так, чтобы уменьшить сложность освоения темы. При этом редко книга пишется за один заход, это длительный труд, в котором материал собран, записан, структурирован, отрецензирован, выверен, переписан, дополнен и так далее.
У меня, при работе с книгой, информация усваивается намного лучше, чем при просмотре обучающих видео, потому что видео можно смотреть фоном и как-то, в большинстве случаев, так и происходит. С книгой такое не получится (художественные аудиокниги не в счет). Также в видео редко соблюден баланс сложности и постепенности. Наверное, замечали, что, вот, только что было все понятно, и вдруг довольно резко становится вообще ничего непонятно. Как из известного мема про сову :) В книгах, по моему опыту, такое случается намного реже.
Конспектировать видеоролики сложнее, чем книги, во-первых, потому что, как я уже сказал, часто видео я предпочитаю смотреть фоном, когда занят какими-то другими механическими делами, не требующими большого внимания и уже не до конспектов. А во-вторых, перемотать ролик на нужное место сложнее, чем пробежаться глазами до нужного абзаца.
Ну, и скорость. Когда в материале много воды или уже знакомого нам, с книгой намного быстрее можно добраться до сути, прочитав "воду" по-диагонали.
Сама работа с книгой более вдумчивая, а значит, материал усваивается лучше. Можно прочитать несколько страниц, отложить книгу, обдумать написанное, постараться сформулировать прочитанное в короткие тезисы, законспектировать своими словами, сделав новую информацию "своей", прошедшей через свои персональные нейросети, сформированные личным жизненным опытом. И все это в том темпе, в котором вам комфортно.
В общем, давайте читать вместе, повышать свою квалификацию, обогащать чтение обсуждениями в коллективе. Уверен, благодаря активной работе в книгами в клубе, наш с вами уровень существенно возрастет, наша ценность как специалистов на рынке существенно поднимется и позволит и зарабатывать больше, и проекты выбирать интереснее.
Условия
Участие в клубе платное, но мне не хочется делать его совсем недоступным для тех, кто хочет учиться через чтение и обсуждение книг, но при этом не зарабатывает 300кк/сек. Решил сделать ежемесячную оплату участия в клубе 900 рублей. Если вы решите сразу взять абонемент на несколько месяцев или на год - договоримся, скидка будет.
Кому подойдет
Недавно я записывал выпуск с одним очень крутым преподавателем в области компьютерных наук, в целом, и машинного обучения, в частности (выпуск запланирован к выходу в этом году). Так, вот, он поделился одним наблюдением, что уровень концентрации и внимания у современных студентов с каждым годом падает. И что именно усидчивость и способность концентрироваться очень повышает шансы добиться результата в не самой, скажем так, простой области - ML. Поэтому, если вы, как и я, считаете, что книги читать нужно, но у вас до сих пор не было достаточно мотивации - добро пожаловать в клуб! Будем работать вместе!
Приглашаю к прослушиванию нового выпуска подкаста!
В гостях Руслан Гончаров - современный дизайнер, который творит с помощью нейросетей. Автор телеграм-канала "Нейронная академия", автор многочисленных подробных гайдов по генерации изображений с помощью нейросетей! Обсудили с Русланом многие вопросы, которые волнуют людей творческих профессий: заменят ли нейросети их в ближайшем будущем, как расширить свой рабочий арсенал самыми продвинутыми технологиями, сколько потребуется учиться, чтобы начать генерировать качественные арты, как добиваться от нейросетей нужного стиля, композиции и качества, сколько вложений требуется в то, чтобы попробовать генеративное творчество, какие заказы выполняет современный дизайнер и многое другое! Интересного и полезного прослушивания!
https://mlpodcast.mave.digital/ep-50
Сегодня хочу немного поговорить о Hugging Face. Изначально это была компания, специализирующаяся на NLP, которая что-то там делала с применением машинного обучения, а теперь многие знают это название как большой портал, на котором можно найти множество туториалов по машинному обучению, обученные модели любых размеров и датасеты, а так же как компанию, которая разработала небезызвестную библиотеку transformers
.
Также на сайте есть неплохие вводные курсы по NLP, Deep Reinforcement Learning, и по применению трансформеров для аудио.
Если вдруг вы еще не знали об этом ресурсе, возможно, имеет смысл добавить его себе в закладки, как актуальный хаб с информацией по машинному обучению на базе трансформеров. Мне иногда попадались интересные подробные ноутбуки по некоторым аспектам ML-пайплайна. Некоторые из них скину в других постах.
Я к вам с крутой рекомендацией! На днях вышел перевод лекции Ричарда Фейнмана о том как устроены компьютеры. Лекция была записана ещё в 1985-м году. А рекомендую вот почему. Во-первых, Фейнман очень круто объясняет сложные вещи на ярких образных примерах. Это я знал уже давно, когда смотрел его лекции по физике. Во-вторых, прекрасный юмор! Ричард Фейнман тонко чувствует моменты, когда шутки уместны и позволяют лучше удерживать внимание зрителей. Если вы читали его книгу "Вы, конечно, шутите, мистер Фейнман", то понимаете, что я имею в виду. В-третьих, это 1985-й год, а проблемы, про которые рассказал Фейнман у нас ровно такие же. Когда он рассказывал о том, что компьютер всегда будет стараться все сделать с минимальными усилиями, я вспомнал про сложности reinforsement learning.
Если хотите получить удовольствие от классной подачи материала и харизмы Фейнмана - сильно советую! Мне очень понравилось!
Пост не совсем по теме канала, но, возможно, кому-то окажется полезной рекомендацией. Я не помню рассказывал уже эту историю или нет, но появился повод, чтобы рассказать еще раз, даже если уже рассказывал. Назову этот пост "Machine Learning Podcast и кофе".
У меня есть партнер, коллега, друг Иван, с которым мы сделали довольно много разных проектов и несколько лет назад именно он предложил мне идею записывать подкаст по машинному обучению. Подкасты тогда как раз набирали обороты и Иван сказал, что мне нужно рассказывать о своем увлечении темой искусственного интеллекта в форме аудиоподкаста. Я помню, что сначала очень скептически отнесся к этой идее, потому что за несколько лет до этого, а именно в 2012-м году, у меня уже был подход к подкастам и, в целом, я был разочарован. Потому что во-первых, подкастов было довольно мало и выбрать что-то интересное было сложно. Во-вторых, безлимитного мобильного интернета либо не существовало в принципе, либо он был очень дорогой. Сейчас уже уверенно сказать не могу, что из этого. И поэтому можно было слушать подкасты, только предварительно их скачав на телефон. Ну, а в-третьих, у телефона был довольно ограниченный объем памяти и приходилось постоянно удалять приложения, фото, старые подкасты и так далее, чтобы освободить место для новых выпусков. Вот, сочетание этих трех демотивирующих факторов и было причиной моего скепсиса относительно собственного подкаста. И я тогда горел желанием делать ютуб-канал.
Но первая же попытка написать сценарий, отстроить свет, отснять свою говорящую голову, что-то вменяемое смонтировать показала, что столько времени и мотивации у меня нет. Тогда я и стал всерьез думать над предложением Ивана запустить подкаст. Вот-так и родился подкаст, посвященный машинному обучению от неспециалиста для неспециалистов. А сейчас появился хороший повод поблагодарить Ивана за то, что он тогда поселил мне в голову мысль, давшую жизнь проекту, который я продолжаю развивать до сих пор.
Одно из направлений деятельности Ивана - поставки хорошего кофе из Португалии. Думаю, мне особо не нужно рассказывать айтишникам о том, как кофе может иногда помогать собрать мысли в кучу перед погружением в код текущего проекта. Я сам с большим удовольствием позволяю себе 3-4 раза в неделю по хорошей кружке кофе. Стараюсь не борщить, чтобы не развивать толерантность и подольше сохранять бодрящий энергетический эффект. Ну, и собственно, сейчас пью кофе, который возит мой друг и партнер. Поэтому это не просто рекламный пост, но еще и рекомендация хорошего кофе, который пью я сам.
Nicola – португальский кофейный бренд, входящий в группу Massimo Zanetti Beverage Group. Это старейшая кофейная торговая марка в Португалии. История бренда начинается в 1779 году, с основания кафе-ресторана Nicola, одного из важных культурных центров Лиссабона. С момента основания в кафе был собственный сорт кофе, поставляемый из Бразилии и Сан-Томе и Принсипи и продаваемый под маркой Nicola. Со временем кофе стал продаваться за пределами заведения, а в 20-м веке у бренда появилось собственное производство. Если вы пьете кофе, то предлагаю попробовать. А заказать можно на Озоне.
Продолжаю рекомендовать новый курс лекций Евгения Разинкова. С момента первой лекции вышло уже еще 3 и завтра будет пятая. Я сейчас посмотрел вторую, которая называется Обучение с учителем. Мне очень понравилась с точки зрения того, что было много нестандартных примеров задач классификации и регрессии. Также Евгений поделился опытом по разбиению датасета на обучающую, валидационную и тестовую выборки. Там есть ряд не самых очевидных нюансов, которые становятся понятными только с годами практики. Однозначно советую!
Читать полностью…