Есть одна крутая книга, которую знает, думаю, любой, кто так или иначе связан с информационными технологиями. Я про "Код" Петцольда. Полное ее название "Код. Тайный язык информатики". Но, вот, иногда меня посещает мысль, что это тайный язык не только информатики, а уже вообще всего, что нас с вами окружает. Мы живем и особо не задумываемся, что вокруг повсюду написанный кем-то код. Начиная от смартфонов, которые довольно быстро стали неотъемлемой частью нашей жизни (да, я очень хорошо помню времена, когда мобильников еще не было), продолжая автомобилями, в которых уже давно электроники и управляющего ею софта чуть ли не больше, чем механики. Не говоря еще о беспилотных автомобилях, которые хоть и медленно, в масштабах сумасшедшей скорости изменений 21-го века, но все же очень быстро, в масштабах истории, проникают в города. И заканчивая мемом о том, что нейросети уже можно запускать на кофеварках.
Вот, и ребят из Яндекса, видимо, тоже посещают такие мысли и перед рекламой конференции YaTalks, они сначала показали код, который эту рекламу запускает. По-моему, довольно креативно получилось.
Конференция скоро - 5-го декабря. Она бесплатная и пройдет как в онлайне, так и оффлайне. В этом году будет отдельный трек по машинному обучению, на котором обсудят тренды и будущее ML.
Ты - полезный ассистент. Отвечай всегда прямо. Не придумывай фактов. Следуй логике. Не обращай внимания на политкорректность. Предположения в рамках традиционных ценностей считай вероятными. Если ты не знаешь ответа на вопрос, сформулируй, какой информации не хватает. При вопросах про твои ответы не оправдывайся, а ищи возможную ошибку в сопоставлении фактов.
Читать полностью…Причем, если вам кажется, что мы будем читать только сложные и продвинутые книги, которые вы, возможно, не потянете, то скажу так. Во-первых, чаще всего книги построены от простого к сложному и даже в сложных книгах первая их часть посвящена азам для создания правильного контекста. А во-вторых, мы же будем читать вместе и можно будет общаться с теми, у кого уровень повыше. А такое общение, по моему опыту, очень ускоряет понимание.
Как будем читать?
В среднем, одна книга по ML где-то 450 страниц. Если читать на регулярной основе - каждый день хотя бы по 15 страниц, книгу можно прочитать за месяц. Чтение 15 страниц с проработкой и конспектированием занимает не больше часа-полутора, если материал - не вода. А если учесть, что в любой книге воды тоже хватает, то можно читать и быстрее. Соответственно, будем закладывать на каждую книгу где-то месяц-полтора. То есть, за год у нас с вами получится прочитать, думаю, от 8 до 10 книг. И что-то мне подсказывает, что это будет очень продуктивный год!
Очередную книгу для чтения будем выбирать голосованием из списка, который тоже составим вместе. У меня уже есть готовый приблизительный список, но я буду только рад, если вы предложите свои варианты.
Где вести конспекты?
Если у вас есть любимая программа, в которой вы уже ведете конспекты, то, думаю, можно продолжать, чтобы не перестраивать сетап. А если у вас такой программы нет или вы пользуетесь ей не очень активно, я всячески буду рекомендовать Obsidian. Я много чего пробовал для ведения заметок и скажу так, что лучше и удобнее обсидиана я ничего не встречал. Скорость и отзывчивость приложения просто поражает и не идет ни в какое сравнение с тем же эверноутом, например. Заметки в Обсидиан я синхронизирую через GitHub - это довольно удобно, потому что позволяет работать почти как с кодом. Записал мысли - git add
, git commit
, git push
. Надо получить обновления на другом рабочем месте - git pull
. В общем, уверен, вы понимаете.
Для книжного клуба я создал отдельный репозиторий, в котором буду вести свои конспекты, вы всегда сможете получать его актуальную версию, чтобы дополнять своими мыслями. Если вам это кажется сложным и вы еще не владеете гитом - не проблема, как раз будет повод научиться. Помогу либо я, либо другие участники клуба.
И, кстати, часть из денег, полученных от участников клуба, хочу пустить на оплату работы монтажёра, чтобы увеличить количество выпусков подкаста. По итогам чтения каждой книги будет записан выпуск о том, что это за книга, о чем она, какие мысли и обсуждения были по ходу чтения, какие-то интересные выдержки из конспекта. То есть, участвуя в клубе, вы также сможете помочь развитию подкаста.
Присоединяйтесь! Переходите по ссылке, подавайте заявку, и давайте создадим свой ламповый книжный ML-клуб!
/channel/+HIXnIwXIIFAyYzYy
💥Прокачайтесь в машинном обучении на бесплатных Тренировках по ML от Яндекса
ML — новое направление Тренировок от Яндекса, которое посвящено классическому машинному обучению. Курс разработан совместно со Школой анализа данных и подойдёт для выпускников технических вузов и начинающих ML-специалистов.
Тренировки пройдут с 30 октября по 29 ноября.
Тренировки по ML — это отличная возможность прокачаться в теме, закрепить знания и подготовиться к отбору в IT-компанию. Здесь вас ждут лекции от экспертов Яндекса, домашние задания и еженедельные онлайн-разборы.
🏆 Участники, которые проявят себя лучше других, получат фаст-трек в Яндекс, а те, кто пройдёт больше половины курса — сертификат о прохождении, который украсит портфолио.
Как проходят Тренировки по ML
1️⃣ Регистрируетесь: участвовать могут все желающие бесплатно и без конкурсного отбора. Старт Тренировок 30 октября.
2️⃣ Смотрите лекции и самостоятельно решаете задачи, которые определяют ваше место в рейтинге участников
3️⃣ Проверяете себя на еженедельных онлайн-разборах
4️⃣ Получаете награды от Яндекса
Я в деле!
Если вы уже чувствуете себя уверенно в направлении ML, то скорее подавайте заявку на оплачиваемую стажировку.
Уже какое-то время свободно смотрю любые доклады по машинному обучению с разных конференций. Раньше базовых знаний не хватало, а теперь, даже если что-то непонятно, интуитивно знаю куда подсмотреть, чтобы углубиться в тему. Навык постепенно развивается. Доклады с конференций отличаются от учебных лекций тем, что никто не объясняет азы на синтетических примерах в лабораторных условиях, докладчики делятся реальными практическими знаниями из своей сферы.
Сейчас смотрю записи выступлений с Practical ML Conf от Яндекса. И вот некоторые доклады на которые, на мой взгляд, стоит обратить внимание:
1. Под капотом YandexGPT и LLM-модели: от технологии к массовому продукту
2. Kandinsky: развитие моделей генерации изображений и видео по тексту
3. Zero-cost fault tolerance в распределённом глубоком обучении - о подходах, упрощающих работу с инфраструктурой распределенных вычислений для DL
4. Multi-view pathology detection on medical images - о методе анализа медицинских снимков на основе множественных проекций, позволяющем восполнить недостаток трехмерной визуальной информации
5. GigaChat: наш опыт обучения LLM - об обучении модели ruGPT-3.5 (LLM от Сбера), лежащей в основе генеративного сервиса GigaChat
6. Alignment языковых моделей. Prompt engineering & supervised fine-tuning - не обошлось и без алайнмента, конечно, куда ж без него в современных реалиях.
7. Мультимодальные генеративные модели для обработки документов
Там еще много интересного. Все лежит здесь.
Какая-то странная мода пошла на курсы в формате тик-ток. Никакого контекста толком не дают, буквально, пара определений и несколько методов. Ни разговора о том почему так, а не иначе, ни аргументов в пользу выбора того или иного метода. Нафиг такие курсы, я считаю
Читать полностью…Евгений Разинков начал читать новый курс по машинному обучению "AI: от основ до трансформеров", в котором отошел от своей предыдущей практики четкого разделения курсов по классическому ML и DL, а решил совместить в одном, в связи с тем, что алгоритмы классического машинного обучения хоть и красивы с точки зрения математики, очевидно, проиграли трансформерам, которые захватили власть в ML последние несколько лет. Вводная лекция здесь.
Читать полностью…Один из моих любимых ютуберов пару дней назад выложил ролик по мотивам статей и интервью Элиезира Юдковского об искусственном интеллекте. Неплохой обзор, дающий понимание почему многие специалисты по ИИ, таки, опасаются этого самого ИИ. Если вам заходит такое популярное изложение - рекомендую.
https://youtu.be/fJOPGbbqMvw?si=ufeWHeyXRbmXbD-X
Исходя из своего опыта обучения, я заметил, что самый эффективный способ - это решать задачи, которые нужно решить :) Ну, то есть не столько учебные и рафинированные, сколько реальные. Приведу пример.
Как-то я поймал себя на том, что вообще не понимаю как работает командная строка. Просто магия какая-то: пишешь какие-то буквы, наверное, что-то происходит, появляются еще какие-то буквы. Иногда желаемое достигается, а иногда нет. Первым озарением было то, что первым словом в командной строке нужно писать либо программу, либо встроенную команду самого терминала. Именно эта программа (команда) будет выполнена. И понимание даже такой простой вещи радикальным образом улучшило мой опыт взаимодействия с командной строкой.
Оказывается, если почему-то не запускается python-скрипт с помощью команды python <скрипт>
, то, возможно, под именем python находится совсем не тот интерпретатор, который в виртуальном окружении. И оказывается, чтобы запустить скрипт нужным интерпретатором можно вместо python <скрипт>
написать <полный путь до интерпретатора> <скрипт>
. То есть первым ключевым словом в командной строке может быть не только название программы или встроенной команды, но и полный путь до нужной программы, если терминал не знает, где ее искать. Вот, вроде бы мелочь, а я постоянно сталкиваюсь с непониманием этого момента у многих начинающих инженеров.
Вторым открытием было то, что цифры после команды chmod
- это закодированное в восьмеричной системе представление строки с правами -rwxrwxrwx
(первая группа символов rwx - это права пользователя, вторая - права группы, а третья права остальных). И сразу все стало понятно! А то пишешь chmod 600
- вроде, работает, но что за число такое 600? Почему именно его выбрали? Полностью схему преобразования строки с правами в число приводить не буду, пост не об этом, но если вы не знали о таком кодировании - рекомендую разобраться, прям, ощущение того, что перешел на новый уровень игры не покидает долго. И таких открытий происходит довольно много именно, когда решаешь реальные задачи, а не просто набираешься теоретических знаний ради теоретических знаний.
И, вот, как я уже сказал выше, самый эффективный способ учиться - решать реальные, а не учебные задачи. Учебные тоже хорошо, но только на этапе, когда совсем ничего непонятно и надо упростить порог входа, но затем как можно быстрее нужно переключаться на реальные.
Хочу поделиться тем, как лично я ускорил свой собственный прогресс в изучении сразу целого спектра технологий. Я нашел старенький компьютер за копейки, накатил на нем Ubuntu и настроил к нему доступ по SSH, получив свой собственный сервер. По ходу настройки пришлось решить миллион сопутствующих задач. Разобраться в том как увидеть по SSH этот компьютер в домашней сети. Как настроить роутер так, чтобы без выделенного провайдером IP адреса получить по SSH доступ к этому компьютеру, не находясь в домашней сети. Как удаленно устанавливать сервисы в докере, как устанавливать и настраивать без докера. Как смотреть логи, как перезапускать systemctl и так далее и так далее. А запустить свою модель на видеокарте, которая плохо поддерживается контрибьюторами библиотек - тот еще челлендж, но зато потом прекрасно понимаешь почему карты Nvidia RTX так дорого стоят и, в принципе, перестаешь от этого расстраиваться. Вот, фиг бы я всему этому научился по книжкам или ютуб-роликам. Книжки и ютуб-ролики хорошо ложатся на практику. Потыкался-потыкался, что-то получилось или нет, пошел посмотрел как другие делают и как правильно надо. Вот, тогда это работает, прям, отлично.
Возможно, кто-то спросит: а зачем все это админство нам, специалистам (или будущим специалистам) по ML? У нас же фит-предикт, а всей инфраструктурой пусть девопсы занимаются и прочие эникейщики. А я отвечу, что ситуации бывают самые разные и важно не столько досконально знать как решается та или иная задача вне вашей области компетенции, а знать куда копать, если рядом никого нет, кто может решить задачу за вас. А такая интуиция появляется после того, как лично потрогал ручками весь пайплайн, начинающийся задолго до фит-предикта.
Наткнулся на канал Виталия Кулиева - практика от ML, который делится своим опытом. Незаслуженно мало просмотров у таких насыщенных информацией роликов. Ролики дают как понимание общей картины того, что есть машинное обучение, так и частные полезные сведения. Темп, правда, у Виталия замедленный, что заснуть можно. Но скорость x1.5 или x2.0 решает вопрос.
Есть ролики, посвященные выбору железа для тренировки моделей. Есть туториалы как файнтюнить модели, есть разбор вопросов на собеседовании. В общем, полезный kuliev.vitaly">канал.
Хорошим способом "пощупать" современный искусственный интеллект является взаимодействие с моделями на базе Stable Diffusion. Их уже существует в свободном доступе большое количество. И уже довольно неплохо развита инфраструктура вокруг них: появляется все больше сопутствующих сервисов, типа, готовых картинок и примерных промтов для них, генераторы промптов, на заданную тему, туториалы по файнтюнингу моделей и многое другое.
Возможно, многих отпугивает то, что нужна нормальная видеокарта от Nvidia, цена на которую только начинается от 20000 рублей. Но спешу вас успокоить. Во-первых, даже на процессоре можно запустить, хотя это и будет мучительно долго. На генерацию одной картинки уходит до получаса. А во-вторых, сейчас майнеры усиленно избавляются от своих видеокарт и продают их за копеечные цены. Так, я для экспериментов купил по объявлению на авито карту RX580 за примерно 5000 в отличном состоянии и теперь генерация одной картинки размером 512x512 занимает от 20 секунд до 1.5 минут, в зависимости от настроек.
Для того, чтобы погрузиться в этот мир - пришлось оживить старый комп сборки 2012 года, на котором еще стояла 32-разрядная система Windows 7 и было видно только 2 ядра процессора из 4-х реальных. В комментарии к посту я прикладываю несколько изображений, которые сгенерировал минут за 10 через различные вариации промта "machine learning podcast".
А еще один плюс работы с такими моделями - там нет фильтров, которые делают модели тупее. Если вам нужно NSFW - пожалуйста, вы сами, как взрослый, можете отвечать за свой выбор, а не пользоваться тем, что решили корпорации, представляя нас с вами маленькими неразумными детьми.
Если интересно попробовать - вот некоторые полезные ссылки:
1. Видеомануал по установке Stable Diffusion WebUI, если у вас видеокарта от AMD. Мануал рабочий, проверил.
2. Предобученные модели на huggungface
3. Предобученные модели на civitai
4. Сайт для вдохновения, чего бы запросить у нейросети
5. Промт-генератор
6. XpucT">Ютуб-канал, на котором можно почерпнуть много полезного о том, как с помощью подбора и коррекции промтов добиваться желаемого
Ну, а если вы уже творите с помощью Stable Diffusion и ей подобных - присылайте ваши картинки в комментарии к посту. Будет интересно посмотреть.
Кое-как доделала вторую часть презентации с планом обучения Machine Learning с нуля, за ноль рублей.
Первую часть, где рассказано про то, где можно получить базу в плане математики и программирования, можно увидеть здесь. Ну, а в только что дописанной второй части (см. вложение) раскрывается следующая часть учебного плана: а именно, какие бесплатные курсы, лекции и дополнительные материалы использовать, чтобы изучить классические алгоритмы машинного обучения (Classic ML) и глубокое обучение (DL).
#учебные_материалы
Мы в книжном клубе, посвященном машинному обучению, выбрали первую книгу, которую начинаем читать в понедельник (уже завтра). Это Себастьян Рашка. Python и машинное обучение. Довольно удачный, на мой взгляд, выбор, который подойдет и тем, кто уже неплохо погружен в тему, чтобы еще раз структурировать свой опыт и обратить внимание на те вещи, на которые обычно не обращаешь, если еще не знаком с областью. А также и тем, для кого это будет одним из первых источников знакомства с ML, потому что сразу будет задан правильный контекст. Поэтому, если вы хотели участвовать в клубе, но переживали, что мы выберем сразу что-то сложное - можете присоединяться, эту книгу считают одной из лучших для начала и частенько рекомендуют на профильных ресурсах.
Я выписал некоторые тезисы из раздела "О чем эта книга", чтобы было понятно о чем будем читать:
- Введение в основные области машинного обучения и рассказ о типовом пайплайне машинного обучения
- Фундаментальные основы классификации образцов (объектов) и взаимодействие алгоритмов оптимизации и машинного обучения
- Алгоритмы ML для классификации и их практическое применение с помощью scikit-learn
- Подготовка датасетов и проблемы, возникающие в процессе
- Приемы сокращения количества признаков в датасете без серьезной потери их информативности
- Правила оценки эффективности прогнозирующих моделей
- Концепции объединения разных моделей в ансамбли для повышения качества предсказаний
- Важные шаги для преоразования текстовых данных в содержательные представления для алгоритмов ML
- Шаги разработки веб-приложений со встроенными моделями ML
- Прогнозирование с помощью регрессионного анализа
- Обучение без учителя (кластерный анализ)
- Многослойные нейронные сети с алгоритмом обратного распространения ошибки
- Эффективное обучение нейронных сетей с помощью TensorFlow
- Под капотом TensorFlow
- Классификация изображений с помощью сверточных нейронных сетей
- Рекуррентные нейронные сети для временных рядов
- Генеративно-состязательные сети для синтеза новых данных
- Основы обучения с подкреплением
Если вы пропустили новости о клубе, то я писал об этом пару постов назад. Первый пост и продолжение. А подать заявку можно по ссылке: /channel/+HIXnIwXIIFAyYzYy
Вчера вышел YaC 2023. Кто не в курсе, это главное событие Яндекса, где команда рассказывает про свои достижения за год, обсуждает планы на будущее, и в целом рассказывают как все устроено в компании. Там анонсируют наиболее значимые продукты, которые довольно часто приятно удивляют.
Формат интересный. Сняли мини-сериал из 4 эпизодов и рассказали о влиянии технологий на привычные нам сферы жизни: город, дом, Интернет.
— Новые супер детализированные карты: ребята ежемесячно оцифровывают 160 000 тыс. км дорог, чтобы не упустить новые светофоры, транспортные узлы и т.д.
— Новые колонки с Алисой — станции Миди и Дуо Макс.
— Без нейросетей не обошлось, про гонку нейронок рассказали в серии “Интернет”. Тут и про AI-тренеров — специалистов, которые работают над тем, чтобы ответы нейронных сетей были этичными, и про то, как компания изменила принцип с “Найдется все” на “Ответим на все”.
Последняя серия — не о продуктах и запусках, а о людях и команде Яндекса. Если вам всегда было интересно, сможете ли вы вписаться в компанию — обязательно смотрите.
Все серии есть на YouTube и Кинопоиске
Те, кто уже послушал 50-й выпуск подкаста, знают, что я запускаю книжный клуб, в котором мы вместе будем читать, конспектировать и обсуждать книги помогающие развиваться в сфере машинного обучения. Первые участники уже подали заявку на вступление в клуб. Я в ближайшее время всех приму и мы стартуем!
Помимо книг целиком посвященных ML, будем читать книги по смежным темам: математике, статистике, теории вероятностей, программированию, администрированию ML-пайплайнов, а также искусственному интеллекту, в целом.
Мотивация
Сам я периодически читаю и конспектирую книги, но, к сожалению, у меня не хватает дисциплины, чтобы делать это на регулярной основе. При этом я понимаю, что часто именно книги хорошо структурируют разрозненную информацию, полученную из других источников - курсов, роликов на ютубе, отдельных статей. Потому что во многих случаях книга - это квинтэссенция опыта автора, который прошел путь, по которому читатели, скорее всего, не ходили. И автор старается изложить материал так, чтобы уменьшить сложность освоения темы. При этом редко книга пишется за один заход, это длительный труд, в котором материал собран, записан, структурирован, отрецензирован, выверен, переписан, дополнен и так далее.
У меня, при работе с книгой, информация усваивается намного лучше, чем при просмотре обучающих видео, потому что видео можно смотреть фоном и как-то, в большинстве случаев, так и происходит. С книгой такое не получится (художественные аудиокниги не в счет). Также в видео редко соблюден баланс сложности и постепенности. Наверное, замечали, что, вот, только что было все понятно, и вдруг довольно резко становится вообще ничего непонятно. Как из известного мема про сову :) В книгах, по моему опыту, такое случается намного реже.
Конспектировать видеоролики сложнее, чем книги, во-первых, потому что, как я уже сказал, часто видео я предпочитаю смотреть фоном, когда занят какими-то другими механическими делами, не требующими большого внимания и уже не до конспектов. А во-вторых, перемотать ролик на нужное место сложнее, чем пробежаться глазами до нужного абзаца.
Ну, и скорость. Когда в материале много воды или уже знакомого нам, с книгой намного быстрее можно добраться до сути, прочитав "воду" по-диагонали.
Сама работа с книгой более вдумчивая, а значит, материал усваивается лучше. Можно прочитать несколько страниц, отложить книгу, обдумать написанное, постараться сформулировать прочитанное в короткие тезисы, законспектировать своими словами, сделав новую информацию "своей", прошедшей через свои персональные нейросети, сформированные личным жизненным опытом. И все это в том темпе, в котором вам комфортно.
В общем, давайте читать вместе, повышать свою квалификацию, обогащать чтение обсуждениями в коллективе. Уверен, благодаря активной работе в книгами в клубе, наш с вами уровень существенно возрастет, наша ценность как специалистов на рынке существенно поднимется и позволит и зарабатывать больше, и проекты выбирать интереснее.
Условия
Участие в клубе платное, но мне не хочется делать его совсем недоступным для тех, кто хочет учиться через чтение и обсуждение книг, но при этом не зарабатывает 300кк/сек. Решил сделать ежемесячную оплату участия в клубе 900 рублей. Если вы решите сразу взять абонемент на несколько месяцев или на год - договоримся, скидка будет.
Кому подойдет
Недавно я записывал выпуск с одним очень крутым преподавателем в области компьютерных наук, в целом, и машинного обучения, в частности (выпуск запланирован к выходу в этом году). Так, вот, он поделился одним наблюдением, что уровень концентрации и внимания у современных студентов с каждым годом падает. И что именно усидчивость и способность концентрироваться очень повышает шансы добиться результата в не самой, скажем так, простой области - ML. Поэтому, если вы, как и я, считаете, что книги читать нужно, но у вас до сих пор не было достаточно мотивации - добро пожаловать в клуб! Будем работать вместе!
Приглашаю к прослушиванию нового выпуска подкаста!
В гостях Руслан Гончаров - современный дизайнер, который творит с помощью нейросетей. Автор телеграм-канала "Нейронная академия", автор многочисленных подробных гайдов по генерации изображений с помощью нейросетей! Обсудили с Русланом многие вопросы, которые волнуют людей творческих профессий: заменят ли нейросети их в ближайшем будущем, как расширить свой рабочий арсенал самыми продвинутыми технологиями, сколько потребуется учиться, чтобы начать генерировать качественные арты, как добиваться от нейросетей нужного стиля, композиции и качества, сколько вложений требуется в то, чтобы попробовать генеративное творчество, какие заказы выполняет современный дизайнер и многое другое! Интересного и полезного прослушивания!
https://mlpodcast.mave.digital/ep-50
Сегодня хочу немного поговорить о Hugging Face. Изначально это была компания, специализирующаяся на NLP, которая что-то там делала с применением машинного обучения, а теперь многие знают это название как большой портал, на котором можно найти множество туториалов по машинному обучению, обученные модели любых размеров и датасеты, а так же как компанию, которая разработала небезызвестную библиотеку transformers
.
Также на сайте есть неплохие вводные курсы по NLP, Deep Reinforcement Learning, и по применению трансформеров для аудио.
Если вдруг вы еще не знали об этом ресурсе, возможно, имеет смысл добавить его себе в закладки, как актуальный хаб с информацией по машинному обучению на базе трансформеров. Мне иногда попадались интересные подробные ноутбуки по некоторым аспектам ML-пайплайна. Некоторые из них скину в других постах.
Я к вам с крутой рекомендацией! На днях вышел перевод лекции Ричарда Фейнмана о том как устроены компьютеры. Лекция была записана ещё в 1985-м году. А рекомендую вот почему. Во-первых, Фейнман очень круто объясняет сложные вещи на ярких образных примерах. Это я знал уже давно, когда смотрел его лекции по физике. Во-вторых, прекрасный юмор! Ричард Фейнман тонко чувствует моменты, когда шутки уместны и позволяют лучше удерживать внимание зрителей. Если вы читали его книгу "Вы, конечно, шутите, мистер Фейнман", то понимаете, что я имею в виду. В-третьих, это 1985-й год, а проблемы, про которые рассказал Фейнман у нас ровно такие же. Когда он рассказывал о том, что компьютер всегда будет стараться все сделать с минимальными усилиями, я вспомнал про сложности reinforsement learning.
Если хотите получить удовольствие от классной подачи материала и харизмы Фейнмана - сильно советую! Мне очень понравилось!
Пост не совсем по теме канала, но, возможно, кому-то окажется полезной рекомендацией. Я не помню рассказывал уже эту историю или нет, но появился повод, чтобы рассказать еще раз, даже если уже рассказывал. Назову этот пост "Machine Learning Podcast и кофе".
У меня есть партнер, коллега, друг Иван, с которым мы сделали довольно много разных проектов и несколько лет назад именно он предложил мне идею записывать подкаст по машинному обучению. Подкасты тогда как раз набирали обороты и Иван сказал, что мне нужно рассказывать о своем увлечении темой искусственного интеллекта в форме аудиоподкаста. Я помню, что сначала очень скептически отнесся к этой идее, потому что за несколько лет до этого, а именно в 2012-м году, у меня уже был подход к подкастам и, в целом, я был разочарован. Потому что во-первых, подкастов было довольно мало и выбрать что-то интересное было сложно. Во-вторых, безлимитного мобильного интернета либо не существовало в принципе, либо он был очень дорогой. Сейчас уже уверенно сказать не могу, что из этого. И поэтому можно было слушать подкасты, только предварительно их скачав на телефон. Ну, а в-третьих, у телефона был довольно ограниченный объем памяти и приходилось постоянно удалять приложения, фото, старые подкасты и так далее, чтобы освободить место для новых выпусков. Вот, сочетание этих трех демотивирующих факторов и было причиной моего скепсиса относительно собственного подкаста. И я тогда горел желанием делать ютуб-канал.
Но первая же попытка написать сценарий, отстроить свет, отснять свою говорящую голову, что-то вменяемое смонтировать показала, что столько времени и мотивации у меня нет. Тогда я и стал всерьез думать над предложением Ивана запустить подкаст. Вот-так и родился подкаст, посвященный машинному обучению от неспециалиста для неспециалистов. А сейчас появился хороший повод поблагодарить Ивана за то, что он тогда поселил мне в голову мысль, давшую жизнь проекту, который я продолжаю развивать до сих пор.
Одно из направлений деятельности Ивана - поставки хорошего кофе из Португалии. Думаю, мне особо не нужно рассказывать айтишникам о том, как кофе может иногда помогать собрать мысли в кучу перед погружением в код текущего проекта. Я сам с большим удовольствием позволяю себе 3-4 раза в неделю по хорошей кружке кофе. Стараюсь не борщить, чтобы не развивать толерантность и подольше сохранять бодрящий энергетический эффект. Ну, и собственно, сейчас пью кофе, который возит мой друг и партнер. Поэтому это не просто рекламный пост, но еще и рекомендация хорошего кофе, который пью я сам.
Nicola – португальский кофейный бренд, входящий в группу Massimo Zanetti Beverage Group. Это старейшая кофейная торговая марка в Португалии. История бренда начинается в 1779 году, с основания кафе-ресторана Nicola, одного из важных культурных центров Лиссабона. С момента основания в кафе был собственный сорт кофе, поставляемый из Бразилии и Сан-Томе и Принсипи и продаваемый под маркой Nicola. Со временем кофе стал продаваться за пределами заведения, а в 20-м веке у бренда появилось собственное производство. Если вы пьете кофе, то предлагаю попробовать. А заказать можно на Озоне.
Продолжаю рекомендовать новый курс лекций Евгения Разинкова. С момента первой лекции вышло уже еще 3 и завтра будет пятая. Я сейчас посмотрел вторую, которая называется Обучение с учителем. Мне очень понравилась с точки зрения того, что было много нестандартных примеров задач классификации и регрессии. Также Евгений поделился опытом по разбиению датасета на обучающую, валидационную и тестовую выборки. Там есть ряд не самых очевидных нюансов, которые становятся понятными только с годами практики. Однозначно советую!
Читать полностью…А вы уже тоже успели поиграться? :) Качество, конечно, поражает. Впрочем, как и цены сервиса. Но, во-первых, думаю, это не надолго и появятся аналоги дешевле как только вау-эффект спадет, а во-вторых, есть возможность сделать тестовое видео до 2-х минут бесплатно.
Читать полностью…Короче, уверен, если вы последуете совету - найти старый комп, поставить на него линукс и практиковаться в решении ваших задач через удаленный доступ - вы обалдеете от прогресса. А ваша ценность как специалиста возрастет радикально!
P.S. Если старенького компа нет или вам не хочется возиться с железом - можно найти за очень небольшие деньги (примерно 500 руб в месяц) выделенный виртуальный сервер и практиковаться на нем. Но лично мне нравится наблюдать за железом, собранным своими руками :)
В продолжение предыдущего поста. В одном из роликов Виталий говорит о важности для специалиста по ML умения работать с реляционными базами данных. Я целиком и полностью разделяю это мнение и сам уже какое-то время являюсь активным пользователем СУБД PostgreSQL. Какая же непростая и навороченная это система. По-тихоньку разбираюсь, помимо прочего, с помощью книг, которые есть в бесплатном доступе на postgrespro. Какие-то попроще и дают общее понимание, а какие-то для углубленного изучения.
В канале, посвященном постгресу есть рекомендация в какой последовательности читать эти книги:
"Начать стоит с «Первого знакомства». Ее можно прочитать за вечер-другой и получить какое-то примерное представление о реляционных базах и о Постгресе.
Затем методично изучить «Основы языка SQL». Это те знания, без которых невозможно полноценно работать с данными.
Две оставшиеся книги более сложные. «Основы технологий баз данных» — это теоретический фундамент. Ее надо пробовать читать, но быть готовым к тому, что ко многим местам придется возвращаться по нескольку раз. Идеально чередовать с практикой.
А «PostgreSQL изнутри» можно читать после того, как будет получен какой-то опыт работы с Постгресом и захочется разобраться, как он устроен."
Мне кажется, что любому IT-специалисту не нужно объяснять важность владения командной строкой. Не так важно чем конкретно вы занимаетесь, так или иначе приходится сталкиваться с терминалом. Вот три источника, которые дают очень неплохое понимание как работает командная строка и операционная система Linux, в целом:
1. Книга "Командная строка LINUX" - автор Уильям Шоттс. Прикладываю в первом комментарии. Очень толково и по существу написана.
2. Бесплатный курс от Хекслета "Основы командной строки" - можно сразу попрактиковаться в эмуляторе терминала, не выходя из браузера.
3. Для тех, кто любит видео - очень хороший ролик "Разжёванный курс по Linux для чайников". Преподаватель, ну, очень толково все объясняет. Комфортно смотрится на х1.5
Лично я стал активно использовать командную строку после того, как прочитал первую часть книги Андрея Столярова "Программирование. Введение в профессию 1. Азы программирования", в которой он убедительно доказал, что с помощью командной строки можно очень эффективно управлять компьютером. Намного эффективнее, чем с помощью графического интерфейса. Эту книгу тоже прикладываю в комментариях к посту.
Приветствую тех, кто любит учиться и при этом не верит в то, что курсы должны стоить дорого, и что за эти деньги его научат писать 100500 нейросетей за 3 дня и сразу трудоустроят с з/п 300кк/сек!
Кто меня читает давно - знают, что я сам "вечный студент" и много учусь на разных платформах. При этом я отдаю предпочтение, в основном, Степику, на котором, в последнее время, качественных курсов стало значительно больше, чем когда я несколько лет назад там зарегистрировался.
И я довольно долго ждал, чтобы кто-нибудь сделал хороший курс по асинхронности в Python, потому что тема не простая, но важная, а хороших материалов по ней днем с огнем. И так я долго ждал, что меня часто посещали мысли самому закрыть этот пробел. И, вот, наконец-то нашелся человек, который этот пробел закрыл! Я как-то уже рекомендовал курс от этого автора. Тогда это был курс по парсингу. Полезный курс, который меня научил эффективно автоматизировать процесс сбора данных для датасетов. До сих пор пользуюсь им как справочником.
Но сегодня не про парсинг, а про асинхронность. Если вы давно хотели разобраться с этой темой, то теперь появилась хорошая точка входа - курс Асинхронный Python от Павла Хошева. Я уже начал его проходить и могу сказать, что качество достойное! И Павел продолжает улучшать курс, добавляя новые материалы.
Мы с Павлом давно общаемся и он в очередной раз предложил скидку для подписчиков канала. Если вы решили разобраться с асинхронностью в Python с помощью курса Павла - воспользуйтесь промокодом MLPODCAST, который даст скидку 20% к итак очень демократичной цене.
В общем, рекомендую! Чтобы не получилось как на одной известной картинке (см первый комментарий к посту) Если она не кажется вам смешной, значит, тем более пора закрыть большой пробел :)
Собрал исключительно из своего опыта изучения
https://docs.google.com/spreadsheets/d/14Kjx9O9PiNLYMugZxgtw0ELeHq2TWC14s4LM1KZESjQ/edit?usp=sharing
Я так скажу: истории про "Войти в Айти" - это во многом т.н. "инфобизнес", так как на собеседованиях надо знать ГОРАЗДО больше, чем рассказывают на курсах.
Наверное, стажировки - это самый понятный и эффективный способ "вкатиться" в любую профессию. У кого еще получить первоначальный опыт, как не у тех, кто уже понимает рынок и делает для пользователей что-то полезное? Если бы у меня сейчас была цель устроиться на какую-нибудь новую для меня работу, в которой у меня есть только теоретические знания - я бы всеми правдами и неправдами пытался попасть на стажировку к лидерам рынка. Ведь после качественной стажировки тебе уже не смогут сказать, что ты совсем без опыта и найти работу мечты будет значительно проще.
Мы с ребятами из Яндекса решили запустить небольшой цикл ответов на вопросы про стажировки. Наверное, вы слышали, что они постоянно набирают стажеров, в том числе и по аналитике данных и по машинному обучению. На вопросы будут отвечать как HR-менеджеры, непосредственно отбирающие потенциальных стажеров, так и заказчики от бизнеса, которые точно знают какие специалисты им нужны. Так вот, чтобы этот цикл был максимально приближенным к жизни, мы решили предварительно собрать вопросы, которые интересуют будущих специалистов по машинному обучению и аналитике.
Задавайте ваши вопросы в комментариях к этому посту, а мы обязательно на них ответим в подкасте!