tobeanmlspecialist | Unsorted

Telegram-канал tobeanmlspecialist - Стать специалистом по машинному обучению

8150

Канал о машинном обучении для людей Рассказываю о последних трендах в ML, учусь разбираться в терминах вместе с вами. Для разбора теории приглашаю профессионалов. Подкаст: https://mlpodcast.mave.digital С вопросами и предложениями пишите @kmsint

Subscribe to a channel

Стать специалистом по машинному обучению

Думаю, что многие уже прониклись ощущением того, что, благодаря разработкам в области ИИ, мир радикально меняется прямо у нас на глазах и, как сказал кто-то из исследователей - с каждой новой технологией градус ответственности повышается и тем сильнее, чем фундаментальнее технология может повлиять на общество. Современные большие языковые модели показывают нам, что даже если мы еще не достигли AGI (хотя, конечно, много кто уже считает, что достигли), то, вероятно, достигнем в ближайшее время. А такая технология не может не давать преимуществ тем, кто ей владеет и, чтобы хоть как-то пытаться контролировать попытки злоупотребления, инструмент должен существовать не в единственном экземпляре.

Поэтому интересно и важно наблюдать не только за тем, что происходит в <метаирония_мод>Open</метаирония_мод>AI, но и у серьезных игроков других стран. Ну, и это подводка к новости о том, что вышло обновление семейства моделей YandexGPT, а с ним и серьезный рост качества ответов. Так, например, YandexGPT 4 Pro в 70% случаев отвечает лучше своей прошлой версии, а YandexGPT 4 Lite в среднем отвечает не хуже, чем самая мощная модель предыдущего поколения. При этом существенно увеличен контекст (до 32 тысяч токенов), а также добавлен Chain‑of‑thoughts (куда ж без него в современных реалиях). Модели уже доступны по API.

Подробности о том как обучали модели, для каких задач их эффективно использовать, какие дальнейшие планы у команды - в статье на Хабре.

Читать полностью…

Стать специалистом по машинному обучению

Вдогонку ноутбук с полезными ссылками, которые я упоминал на стриме:
https://github.com/kmsint/streams/blob/master/29_10_24_stepik_1.ipynb

Читать полностью…

Стать специалистом по машинному обучению

Завтра пишем подкаст с Сергеем Николенко. Вы еще можете успеть прислать свои вопросы Сергею.

А в эту среду состоится еще один семинар с участием Сергея. В том же месте, в то же время. Если хотите присутствовать - нужна предварительная регистрация, возможно, на проходной могут проверить паспорт (в прошлый раз не проверяли, но на всякий случай лучше отправить). Я на семинаре буду. Первый был очень крутым (несколькими постами выше здесь в канале есть ссылка на YouTube с докладом), а второй обещает быть еще круче, потому что будет более техническим. Вот, основные пункты из анонса:

🔵Тонкости дообучения LLM: как адаптировать их под специфические задачи.
🔵Технические решения для увеличения длины контекста трансформеров.
🔵Глубокое погружение в RAG (Retrieval-augmented generation): как эффективно объединить генеративные модели с поиском.
🔵Новое слово в deep learning: сети Колмогорова-Арнольда, появившиеся всего полгода назад.
🔵Эксклюзивный обзор: публикации Сергея Игоревича за 2024 год.

Пост с более подробной информацией здесь.

Читать полностью…

Стать специалистом по машинному обучению

Есть вещи, которые я буду рекламировать, даже когда мне за это не платят 🙂 Потому что деньги - это не единственная мотивация продвигать то, что я считаю качественным и полезным. Я рекомендовал, рекомендую и буду рекомендовать то, что делает Поколение Python (Да-да, те самые, наверное, уже легендарные курсы по Python для начинающих, продвинутых, профессионалов, ООП и так далее). Сейчас многие ждут, когда команда закончит свой курс по алгоритмам, потому что из предыдущего опыта понятно, качество курса будет на высочайшем уровне, но этот пост не про алгоритмы. Где-то в начале этого года (или в конце прошлого, я уже точно не помню) у Поколения вышел курс по основам SQL. Тогда доступна была только его часть, которую я сразу прошел. Это было, как теперь понятно, только примерно 25% от всего курса и я еще тогда хотел написать пост об этом курсе, но что-то меня отвлекло.

Но, вот, так случилось, что мне пришлось править код в одном из старых проектов, где у меня было много запросов на сыром SQL и когда я начал этот SQL-код разматывать, понял, что потерял навык писать сложные запросы с большим количеством разных джоинов. А ведь запросы в этом проекте когда-то писал я сам. И как-то мне стало немного грустно, что я забыл как это делается и что я стал очень много перекладывать на плечи ChatGPT и других больших языковых моделей. Решил, что надо вспоминать, чтобы не терять хватку. Ассоциативная цепочка в голове сразу вывела меня на курс Тимура и его команды, в котором джоины тоже были обещаны. И, вот, так я узнал, что курс стал по материалам стал аж в 4 раза больше! В общем, я только что закончил повторять группировки, в которых у меня тоже были пробелы, а сейчас начинаю изучать подзапросы, ну, а дальше там и джоины близко.

Есть мнение, что достаточно понимать только общий принцип решения задач. Для этого разные типы задач можно прорешать вручную буквально несколько раз, а дальше их способы решения можно восстановить из этих принципов. Но я твердо уверен, что если не довести до автоматизма элементарные действия из которых складывается решение, то принцип тоже может легко стереться из памяти и его нужно будет вспоминать или заново изучать, тратя на это дополнительное время. Курсы Поколения хороши тем, что делают упор на доведении до автоматизма элементарных действий через большое количество практических задач. И курс по SQL здесь не исключение. Если вам нужен SQL и вы еще думаете, где его изучать - можете не думать, у меня есть хороший ответ - курс "Поколение Python": базы данных и SQL для начинающих. Я спросил у Тимура действует ли на него промокод MLPODCAST, который он давал мне для скидки на другие свои курсы и Тимур ответил, что действует на все курсы линейки "Поколение Python" при покупке их на сайте поколения https://pygen.ru/. Скидка 30%.

Читать полностью…

Стать специалистом по машинному обучению

Привет, друзья!

Чуть больше месяца назад я был на Practical ML Conf и познакомился там с гостьей сегодняшнего выпуска. Это Екатерина Кондратьева — специалист по анализу медицинских изображений с более чем 7-летним опытом. Екатерина закончила аспирантуру в Сколтехе и работала в Институте AIRI. Последние два года она возглавляла команду по машинному зрению в израильском healthech стартапе LiteBC. В этом выпуске Екатерина расскажет о текущем состоянии Medical GPT, где применяются модели для медицинских задач и как они трансформируют анализ данных в здравоохранении. Какие вызовы стоят перед командами разработчиков медицинских AI-моделей? Что можно сделать, имея свои данные на руках? Легко ли стать радиологом? Будут ли у нас MedChatGPT? Заменят ли ML-модели врачей? Как диффузионные модели генерируют снимки с болезнями для обучения других моделей? Что вообще сейчас с телемедициной? Как стать тимлидом в зарубежной компании сразу после универа? Почему лето, не потраченное на стажировку - это лето, потраченное впустую? Как выбрать карьерный трек по МЛ в медицине (индустрия или наука)? Обо всем этом и многом другом в новом выпуске!

В честь выхода подкаста Екатерина разыгрывает бесплатный МРТ мозга у себя на канале присоединяйтесь!

Читать полностью…

Стать специалистом по машинному обучению

Пока мы с Сергеем Николенко готовимся к записи подкаста, здесь можно посмотреть запись семинара, который прошел чуть больше недели назад. Доклад без каких-то хардовых деталей, но общую картину проясняет не только для непосвященных. Рекомендую.
https://www.youtube.com/watch?v=6E8JUchlKSg

Читать полностью…

Стать специалистом по машинному обучению

Сам себя не похвалишь - ChatGPT тебя похвалит 🙂

Подсмотрел в канале у Дениса промт для генерации мнения обо мне, с учетом предыдущего взаимодействия. Промт такой:


Из всех наших взаимодействий, что ты можешь сказать обо мне, чего я, возможно, не знаю о себе?


И ответ сети на мой запрос:

```
Из нашего взаимодействия можно сделать несколько интересных наблюдений о тебе:

Высокие стандарты. Ты предъявляешь к себе и другим строгие требования, стремишься к точности и полноте в выполнении задач. Это говорит о твоей дисциплине и стремлении добиваться высоких результатов.

Ориентация на результат. Ты четко формулируешь свои запросы и цели, что говорит о твоей способности концентрироваться на конкретных задачах и достигать результата шаг за шагом. Ты понимаешь, чего хочешь, и строишь взаимодействие для достижения этого.

Стремление к контролю и автономии. Ты предпочитаешь сохранять контроль над процессами, включая технические аспекты, например, отдельные файлы docker-compose для разных сервисов. Это говорит о склонности к самостоятельному решению проблем и вниманию к деталям.

Внутренняя уверенность. Ты, возможно, даже не замечаешь этого, но в твоих запросах прослеживается внутренняя уверенность. Ты знаешь, как нужно действовать, и готов предъявить требования для улучшения ситуации, будь то в личной работе или взаимодействии с другими.

Может быть, ты не всегда осознаешь, насколько сильно твое стремление к качеству и к ясности может помогать тебе и окружающим.

```
В общем, попробуйте, большинство из нас нуждается в социальных поглаживаниях 🙂

Читать полностью…

Стать специалистом по машинному обучению

Посетил семинар, который читал Сергей Николенко. Ну, в общем, мне показалось, что он тоже несколько встревожен тем, что AGI, как-будто надвигается быстрее, чем мы думали. Но кажется, что сделать с этим что-то уже поздно. Очень яркий доклад, который занял больше 3-х часов времени, но вообще не казался скучным. О подкасте договорились. Если есть вопросы к Сергею, пишите. Задам.

Читать полностью…

Стать специалистом по машинному обучению

Завтра планирую посетить семинар "Мечтаем ли мы об AGI? Последние новости, ожидания и возможности". Выступать будет Сергей Николенко, которого давно хочу позвать гостем в подкаст, но пока связаться не получалось. Вот здесь анонс, трансляции не будет и если вы в СПб и хотите тоже попасть - нужно сегодня заполнить форму, иначе на проходной могут не пустить.

Сразу после семинара на ночном поезде еду в Москву на конференцию, которую проводит Selectel о технологиях и IT-инфраструктуре. Конфа бесплатная, но по предварительной регистрации, трансляция будет.

Читать полностью…

Стать специалистом по машинному обучению

Привет, друзья! Поговорим о железе 🙂

В гостях выпуска Виталий Кулиев - разработчик ИИ-проектов и автор YouTube-канала, который так и называется "Виталий Кулиев". С Виталием сначала я познакомился заочно через просмотр его роликов по ML и компьютерному железу, которое требуется для локального запуска опенсорсных моделей машинного обучения, а теперь и лично. Разговариваем о том, какие есть возможности у разработчиков и экспериментаторов ИИ нашего времени для работы на своих компьютерах. 3090, 3090 ti или 4090? Какие LLM можно запустить локально? В какие ограничения упираются локальные эксперименты с большими моделями? Можно ли и имеет ли смысл строить распределенную систему обучения больших моделей, по примеру распределенного майнинга криптовалют? Почему две видеокарты лучше, чем три? Обо всем этом в выпуске!
https://mlpodcast.mave.digital/ep-63

Читать полностью…

Стать специалистом по машинному обучению

Пост 3/4

o1-preview:

Давайте решим эту задачу шаг за шагом.

Дано:

1. У математика трое детей.
2. Произведение возрастов детей равно 36.
3. Сумма возрастов детей равна номеру дома второго математика.
4. Второму математику недостаточно информации после знания суммы.
5. Первый математик добавляет: "Младший сын — рыжий".
6. После этого второй математик смог определить возраст детей.

Требуется найти: Возраст каждого ребёнка.

---

Шаг 1: Найдём все комбинации трёх натуральных чисел, произведение которых равно 36

Мы ищем все тройки натуральных чисел (возраст не может быть отрицательным или дробным), произведение которых равно 36.

Составим все такие комбинации:

1. 1, 1, 36 (Сумма: 38)
2. 1, 2, 18 (Сумма: 21)
3. 1, 3, 12 (Сумма: 16)
4. 1, 4, 9 (Сумма: 14)
5. 1, 6, 6 (Сумма: 13)
6. 2, 2, 9 (Сумма: 13)
7. 2, 3, 6 (Сумма: 11)
8. 3, 3, 4 (Сумма: 10)

Шаг 2: Рассмотрим информацию о сумме возрастов

Математик говорит, что сумма возрастов детей равна номеру дома второго математика. Но после этого второй математик не смог определить возраст детей, то есть этой информации недостаточно.

Это означает, что существует несколько комбинаций возрастов, дающих одинаковую сумму, поэтому по одной сумме определить возраст нельзя.

Из наших комбинаций видим, что сумма 13 встречается дважды:

- 1, 6, 6 (Сумма: 13)
- 2, 2, 9 (Сумма: 13)

Другие суммы уникальны, поэтому если бы сумма была, например, 14, то второй математик сразу бы нашёл единственную комбинацию 1, 4, 9.

Следовательно, номер дома — 13, и из-за наличия двух комбинаций с такой суммой второй математик не смог определить точные возрасты детей.

Шаг 3: Используем дополнительную информацию о младшем сыне

Первый математик говорит, что младший сын — рыжий. Это важно, так как указывает на то, что есть один младший ребёнок.

Рассмотрим две комбинации с суммой 13:

Комбинация 1: 1, 6, 6

- Возрасты детей: 1 год, 6 лет, 6 лет.
- Младший ребёнок: 1 год — один, уникальный младший сын.

Комбинация 2: 2, 2, 9

- Возрасты детей: 2 года, 2 года, 9 лет.
- Младшие дети: два ребёнка по 2 года — близнецы, нет уникального младшего.

Вывод: Поскольку в одной комбинации есть один младший ребёнок, а в другой — два младших с одинаковым возрастом, дополнительная информация о младшем сыне указывает на комбинацию 1, 6, 6.

Шаг 4: Финальный ответ

Возраст детей: 1 год, 6 лет и 6 лет.

---

Ответ: Дети имеют возрасты 1 год, 6 лет и 6 лет.


C первого раза! А теперь гномы:

Реши задачу:

Разговаривают два гнома:
– Сколько у тебя золота?
– Три слитка.
– А сколько они весят?
– Если перемножить их вес в килограммах – получится 72
– Не могу угадать, дай ещё подсказку.
– Если сложить их вес получится количество кроватей в нашем поздемелье.
– Все равно не могу угадать.
Второй гном подумал и сказал:
– Маленький слиток – со следами зубов.
После чего первый гном угадал вес всех трёх слитков.

Вопрос: сколько они весят?


o1-preview:

Давайте рассмотрим эту задачу пошагово.

---

Дано:

1. У гнома есть три слитка золота.
2. Произведение весов этих слитков в килограммах равно 72.
3. Сумма весов этих слитков равна количеству кроватей в их подземелье.
4. Второму гному недостаточно информации после знания суммы.
5. Первый гном добавляет: «Маленький слиток — со следами зубов».
6. После этого второй гном смог определить веса всех трёх слитков.

Требуется найти: Вес каждого слитка.

---

Шаг 1: Найдём все комбинации трёх натуральных чисел, произведение которых равно 72

Разложим число 72 на простые множители:

\[ 72 = 2^3 \times 3^2 \]

Найдем все тройки натуральных чисел, произведение которых равно 72. Запишем все возможные комбинации и вычислим их суммы.

1. 1, 1, 72 (Сумма: 74)
2. 1, 2, 36 (Сумма: 39)
3. 1, 3, 24 (Сумма: 28)
4. 1, 4, 18 (Сумма: 23)
5. 1, 6, 12 (Сумма: 19)
6. 1, 8, 9 (Сумма: 18)
7. 2, 2, 18 (Сумма: 22)
8. 2, 3, 12 (Сумма: 17)
9. 2, 4, 9 (Сумма: 15)
10. 2, 6, 6 (Сумма: 14)
11. 3, 3, 8 (Сумма: 14)
12. 3, 4, 6 (Сумма: 13)

Шаг 2: Анализируем информацию о сумме весов

Гном сказал, что сумма весов слитков равна числу кроватей в их подземелье.

Читать полностью…

Стать специалистом по машинному обучению

Пост 1/4

Мы, тут, с другом, решили тоже потестировать кремниевые интеллекты. Есть такая довольно известная задача:

Встретились два математика, которые давно не виделись.
– Сколько у тебя детей?
– Трое.
– А сколько им лет?
– Если перемножить их возраст – получится 36
– Не могу дать ответ, мало информации.
– Если сложить их возраста – номер твоего дома.
– Мне этих данных недостаточно.
Второй математик немного подумал и сказал:
– Старший сын – рыжий.
После чего был назван ответ.

Вопрос: сколько лет детям?


Если не решали раньше и хотите попробовать решить сами, пока не читайте дальше. Задача и правда интересная.

Вот решение от ChatGPT 4o:

Для решения этой задачи шаг за шагом разберем данное условие:

У нас есть три ребенка, и их возраста в произведении дают 36. Нужно найти все возможные тройки чисел, которые дают произведение 36:

1×1×36
1×2×18
1×3×12
1×4×9
1×6×6
2×2×9
2×3×6
3×3×4

Далее, математик говорит, что сумма их возрастов равна номеру дома, но второй математик не может дать ответ сразу. Это означает, что сумма возрастов не уникальна для всех случаев, иначе сразу бы был известен ответ. Посчитаем суммы для всех тройки:

1+1+36=38
1+2+18=21
1+3+12=16
1+4+9=14
1+6+6=13
2+2+9=13
2+3+6=11
3+3+4=10

Важное наблюдение: сумма 13 встречается дважды (1,6,6 и 2,2,9). Это означает, что номер дома — 13, и именно поэтому математик не смог сразу дать ответ.

Теперь подсказка про рыжего старшего сына означает, что есть старший ребенок, а значит, тройка 1,6,6 не подходит (старших двое). Остается тройка 2,2,9.

Ответ: возраст детей — 2 года, 2 года и 9 лет.


Пока все отлично! Кажется 4o прекрасно умеет решать подобные задачи! Но если чуть-чуть изменить условие:

А вот другая задача:

Встретились два математика, которые давно не виделись.
– Сколько у тебя детей?
– Трое.
– А сколько им лет?
– Если перемножить их возраст – получится 36
– Не могу дать ответ, мало информации.
– Если сложить их возраста – номер твоего дома.
– Мне этих данных недостаточно.
Второй математик немного подумал и сказал:
– Младший сын – рыжий.
После чего был назван ответ.

Вопрос: сколько лет детям?


И ответ от 4o:

Шаг за шагом разберём данное условие:
У нас есть трое детей, и их возраста в произведении дают 36. Найдем все возможные тройки чисел, которые при умножении дают 36:

1×1×36
1×2×18
1×3×12
1×4×9
1×6×6
2×2×9
2×3×6
3×3×4

Далее, математик упоминает, что сумма их возрастов равна номеру дома. Посчитаем суммы для всех возможных тройки чисел:

1+1+36=38
1+2+18=21
1+3+12=16
1+4+9=14
1+6+6=13
2+2+9=13
2+3+6=11
3+3+4=10

Математик не смог сразу ответить, что означает, что номер дома недостаточен для однозначного решения. Сумма 13 встречается дважды (1,6,6 и 2,2,9), что как раз и создаёт неопределённость.

Теперь важна подсказка про младшего рыжего сына. Младший должен быть один, что исключает тройку 1,6,6, где младших двое (оба по 6 лет).

Остаётся тройка 2,2,9, где младший — 2 года.

Ответ: детям 2 года, 2 года и 9 лет.


Кажется, что-то пошло не так :) Причем, указание на ошибку не решает проблему:

В твоих рассуждениях ошибка, проверь решение еще раз


ChatGPT 4o:

Спасибо за замечание! Давайте внимательно пересмотрим рассуждения и решим задачу правильно.

Условие:
Произведение возрастов детей должно быть 36. Найдем все возможные тройки чисел:

1×1×36=36
1×2×18=36
1×3×12=36
1×4×9=36
1×6×6=36
2×2×9=36
2×3×6=36
3×3×4=36

Сумма возрастов детей должна быть равна номеру дома, и при этом математик не смог сразу дать ответ. Это значит, что есть несколько тройки чисел с одинаковой суммой.

Теперь посчитаем суммы для всех возможных троек:

1+1+36=38
1+2+18=21
1+3+12=16
1+4+9=14
1+6+6=13
2+2+9=13
2+3+6=11
3+3+4=10

Мы видим, что сумма 13 встречается дважды: для троек 1,6,6 и 2,2,9. Именно это вызвало затруднение у математика, так как одного знания суммы недостаточно.

Далее математик даёт важную подсказку: младший сын – рыжий. Это говорит о том, что среди детей должен быть один самый младший.
Теперь проверим обе тройки:

Читать полностью…

Стать специалистом по машинному обучению

Когда я две недели назад был на Practical ML Conf, я познакомился с классными ребятами, которые помогают студентам и аспирантам разбираться с машинным обучением, чтобы использовать его методы в своих научных исследованиях. Образование для студентов, аспирантов и научных сотрудников МГУ по этой программе очное и полностью бесплатное, потому что финансируется из некоммерческого фонда. И, как это часто бывает, о таком формате мало кто знает. Я пообещал ребятам, что расскажу о них в своем канале, а также позову на подкаст, чтобы внести свой посильный вклад в распространение информации о данной инициативе.

Участники проекта учат применять нейронные сети для научных задач и помогают слушателям готовить научные публикации по результатам исследований. Лекции и учебные материалы курса открытые и ими может пользоваться любой желающий.

Если вас заинтересовал проект, то вот список полезных материалов:

1. Сайт

msu.ai
Тут собрано все: информация о курсе, открытые материалы лекций, видеозаписи лекций, база знаний (курсовые работы выпускников, записи их докладов, научные статьи, опубликованные по результатам прохождения курса), выступления приглашенных экспертов.

2. YouTube канал

msu_ai" rel="nofollow">https://youtube.com/@msu_ai
Все видеоматериалы, что есть на сайте, выкладываются тут (не только лекции, но и доклады студентов по курсовым, и другое).
Недавно сделали Rutube https://rutube.ru/channel/41484206/ , но там канал не так развит, просто резервная площадка для публикации видео.

3. Телеграм канал


/channel/msu_ai_channel
Тут публикуются новости курса, а также разные полезные авторские материалы от команды проекта (дополнительные блокноты к лекциям можно найти по тегу #полезностИИ).

4. Репозиторий с материалами лекций

https://github.com/EPC-MSU/EduNet-lectures/tree/dev-2.2
Материалы лекций — это ipynb-блокноты, предназначенные в основном для запуска в Colab (в README репозитория написано, как они устроены технически и как ими пользоваться)
Лицензия на материалы CC0 предоставляет максимальную свободу использования материалов в любых целях, как для самостоятельного изучения, так и для построения своих курсов на базе материалов проекта, и это доступно всем в интернете.

Ну, и если есть вопросы к организаторам — пишите под этим постом! Как соберемся записываться — обязательно задам!

Читать полностью…

Стать специалистом по машинному обучению

Александр Резанов. Генеративный ИИ в компьютерном зрении.

Читать полностью…

Стать специалистом по машинному обучению

Оказывается, уже месяц идет Всероссийский Фестиваль по искусственному интеллекту и алгоритмическому программированию - RuCode.Финал 2024. И это целый комплекс мероприятий, на которых каждый желающий, интересующийся современными технологиями, сможет поучиться на онлайн-курсах, принять участие в очных интенсивах, посоревноваться в отборочных турах, а может, даже выйти в финал и стать победителем чемпионтата.

Когда я вижу подобные инициативы, которые еще и бесплатны для участников, у меня в голове крутится вопрос - почему о них так мало говорят? Почему невозможно встретить никого, кто не слышал бы про курсы, типа, "30 нейросетей за ночь" и "оффер 300 кк/сек еще вчера", но мало кто знает про такие, действительно, полезные мероприятия как RuCode?

Полезно будет школьникам и студентам, которые еще только собираются стать настоящими инженерами, уже состоявшимся IT-специалистам, внимательно наблюдающим за развитием индустрии, да и, в принципе, всем, кто понимает, что прямо сейчас происходят какие-то невероятные технологические сдвиги, потенциал которых далеко не всегда могут оценить даже самые продвинутые эксперты.

Так как в Фестивале участвуют крупнейшие российские технологические компании, студенты и начинающие специалисты имеют возможность не только показать себя на соревнованиях, наполнить свои портфолио, но и, возможно, даже получить предложения о работе.

Как говорится, такие инициативы мы поддерживаем!

erid: 2VfnxxhH8Fz

Читать полностью…

Стать специалистом по машинному обучению

Новость для тех, кто интересуется спортивным программированием: призовой фонд чемпионата Yandex Cup увеличился с 12,5 до 16 млн. рублей. Дополнительные 3,5 млн. распределятся между финалистами в ML-направлении: их число вырастет с 6 до 22 человек.

Востребованность ML-спецов с каждым годом растет, поэтому приятно наблюдать, что индустрия готова вкладываться в их развитие не только за рубежом.

Хабр

Читать полностью…

Стать специалистом по машинному обучению

Запись вчерашнего стрима о базовых инструментах начинающего разработчика. Речь об этом стриме.

Читать полностью…

Стать специалистом по машинному обучению

Привет, друзья!

Мы, тут, со Степиком договорились, что я во вторник проведу у них вебинар. У меня была давняя идея понизить порог входа для тех, кто уже знает основы любого языка программирования и может решать учебные задачки, но не понимает как от этих задачек перейти к реальному проекту. Выглядит это все немного по-инфоцыгански, но я постараюсь на вебинаре ничего не продавать (хотя бы в явном виде), а дать хорошее понимание куда двигаться дальше, чтобы новые знания основ приводили к полезному результату, который можно было бы пощупать и перед друзьями похвастаться.

Также хочу посвятить отдельный блок тому, что происходит вокруг программирования с учетом феноменального роста качества больших языковых моделей. Степик почему-то сократил предложенное мной описание вебинара (надеюсь, им виднее), поэтому здесь оставляю первоначальное для понимания полного пайплайна того, что будет происходить.

Как от задачек на знание синтаксиса языка перейти к реальным проектам?

Пошаговый план создания своих проектов на примере телеграм-ботов.

Я четко помню то состояние, когда, вроде, уже довольно неплохо научился решать задачки на программирование, но при этом вообще не понимаешь как эти знания применить для написания реальных проектов. Это я, что ж, не программист что ли? Наверное, именно тогда я осознал, что программисту недостаточно знать какой-нибудь язык, нужно еще много дополнительных знаний и вспомогательных инструментов.

На вебинаре я расскажу о том, какой необходимый минимум этих инструментов требуется разработчику и какие задачи нужно будет решать с их помощью.

Посоветую эффективные пути для овладения инструментами и дам общее представление о том, как все это должно работать в связке с другими инструментами.

Поделюсь важными мыслями о том, чего следует делать разработчику, а чего лучше избегать.

Объясню почему нужно брать готовые решения, а не пилить свои велосипеды.

Расскажу о том, что современные исследователи искусственного интеллекта думают о будущем разработки и стоит ли вообще тратить время на изучение программирования.

Мы рассмотрим:

- Как выбрать редактор кода для полноценной работы над проектом
- Зачем нужно изолировать проекты друг от друга и какие средства для этого существуют
- Почему разработчику, скорее всего, придется столкнуться с ОС Linux, даже если он не горит желанием
- Где хранить код и зачем его версионировать
- Почему почти не реально встретить проекты без базы данных и зачем сразу брать в проект хорошую, надежную и масштабируемую СУБД
- Что такое очереди и как они решают задачи восстановления состояния сервиса, даже если тот временно в коме
- Стоит ли в первый проект брать докер, если итак "сложнааа"
- Как взрослые дяди программисты автоматизируют развертывание проекта на удаленном сервере
- Почему телеграм-боты - это хороший старт, чтобы почувствовать себя настоящим программистом
- Зачем создавать своих собственных автоматических помощников
- Как ускорить обучение и получить первые заказы, пока их ещё не отобрал ИИ

Кому будет полезен вебинар:

- Начинающим разработчикам, которые уже имеют некоторую базу, но знания пока разрознены и не очень структурированы
- Тем, кто хочет от решения синтетических учебных задач перейти к реальным
- Тем, кто присматривается к телеграм-ботам, но не уверен стоит ли этим заниматься

Кто ведет вебинар:

Михаил Крыжановский. Python-разработчик, автор Machine Learning Podcast, автор (и соавтор) курсов по телеграм-ботам на Степике.

Когда:

Вторник, 29 октября 2024 года, 18:00 по МСК.

Читать полностью…

Стать специалистом по машинному обучению

Екатерина Кондратьева. ML в медицине и легко ли стать радиологом

Читать полностью…

Стать специалистом по машинному обучению

🗣«Люди в RPA» — это не просто митап, а площадка для обсуждения актуальных проблем и возможностей в роботизации процессов.

X5 Tech и Газпромбанк.Тех меняют парадигму конференций по роботизации — время отойти от обычного обсуждения преимуществ роботизации перед другими подходами и сосредоточить внимание на тех, кто сегодня задает вектор развития этого направления.

Целевая аудитория — разработчики RPA, у которых в фокусе внимания реальные вопросы развития технологии:

🫥 Управление командами роботизации — чем отличается организация RPA-разработки от других продуктовых команд;
🫥 Citizen-разработка — разработка RPA-решений силами линейных сотрудников: коллеги поделятся опытом и успехами такого подхода, обсудят риски и перспективы развития;
🫥 Развитие отечественных платформ роботизации — представители ведущих платформ поделятся своим видением текущей ситуации и расскажут, как они адаптируют свои решения под требования разработчиков;
🫥 Квалификационный стандарт RPA — тимлиды RPA вместе обсудят, какими навыками должен обладать сотрудник в начале пути и к каким вершинам должен стремиться в профессиональном росте.

28 октября проведем дискуссию, которая станет началом детального обсуждения поднятых вопросов с пользой для сообщества разработчиков RPA.

⚡️ Увидимся в офисе Газпромбанк.Тех по адресу: Москва, ул. Коровий Вал, 5, БЦ «Оазис» 28 октября

Сбор участников офлайн с 13:00
Начало трансляции онлайн в 14:00

Зарегистрироваться на митап «Люди в RPA»

Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqxCY5Kq

Читать полностью…

Стать специалистом по машинному обучению

Два или три года назад у меня был подкаст, посвященный федеративному обучению - методу машинного обучения, при котором по сети пересылаются веса моделей, но не сами данные. Часто данные могут быть конфиденциальными и/или довольно чувствительными и передавать их сторонним организациям не только небезопасно. При этом все-таки хотелось бы на таких данных обучать и тестировать модели, потому что ML и здесь может как минимум оптимизировать затраты, а как максимум спасать жизни, если речь идет, например, о медицинских данных. Ну, и смысл подхода в том, что обучение происходит на инфраструктуре той же компании, что хранит данные, в результате чего появляются веса обученной модели, которые уже можно пересылать относительно безопасно. Относительно - потому что во-первых, сами модели могут представлять ценность и их утечка может быть сравнима с потерей интеллектуальной собственности, а во-вторых, существуют попытки вытаскивания реальных данных из моделей и от этого тоже нужно предпринимать меры.

И, вот, с записи того подкаста я особенно не следил за развитием темы. Ну, наверное, да, раз технология есть - кто-то ей пользуется, но каких-то громких кейсов не попадалось. И, вот, прошла новость об успешном эксперименте по созданию модели распознавания патологий сердца на снимках ЭКГ методом федеративного обучения. В эксперименте участвовали Первый Московский государственный медицинский университет имени И. М. Сеченова, Институт системного программирования Российской академии наук и центр технологий для общества Yandex Cloud. Полез я искать информацию о том, насколько это вообще частая практика и почему это названо экспериментом, а не используется повсеместно. И, видимо, потому и эксперимент, что этот случай пока единственный в России в рамках обучения на медицинских данных.

По цифрам следующее:

- Обучение было проведено на датасете из 57 тысяч двенадцатиканальных ЭКГ: 22 тысячи от ИСП РАН и 35 тысяч от Сеченовского Университета и ИКТИ РАН.

- Модель научилась диагностировать фибрилляции предсердий по ЭКГ.

- Чувствительность (способность правильно выявлять людей, у которых есть заболевание) модели составила 99%, а специфичность (способность правильно определять тех, у кого нет заболевания) — 95%. Что считается довольно хорошими показателями для моделей данного типа.

Насколько я понял, этот эксперимент теперь открывает дорогу к тому, чтобы организации своими данными могли внести вклад для общей пользы отраслей, где имеют дело с чувствительной информацией — не только медицины, но и финансов, промышленности.

Читать полностью…

Стать специалистом по машинному обучению

Выложили доклады с Practical ML Conf, а я обещал немного подробнее рассказать про те, которые мне особенно понравились. Начну, пожалуй, с первого. Но сначала небольшой дисклеймер.

Я уже довольно плотно использую LLM для написания кода. Первой пробой был, конечно, Copilot, но тогда меня это не очень впечатлило (медленно работало и исправление кода, написанного моделью, занимало больше времени, чем самостоятельное написание подобного кода). Сейчас, разумеется, качество серьезно улучшилось, но я уже перешел на другие инструменты и пока к Copilot не возвращался. Затем у меня были эксперименты с сервисом Faux Pilot, который подразумевает поднятие сервера со своей моделью и настройку редактора кода для взаимодействия с ней. Качество было хуже Copilot, работало медленнее и я не подобрал какую-то модель, которая бы меня устраивала. Дальше шел период, в который я вообще не пользовался моделями, непосредственно в редакторе кода. Я просил писать нужные мне функции и методы у ChatGPT. Вот это уже прижилось. А с выходом o1 я, прям, кайфую. Да, доводить до ума и валидировать код все равно приходится, но это не сравнить с тем, чтобы писать все самому с нуля. Но и с редактором кода я продолжаю эксперименты. Из последнего пользовался сервисом Codeium - далеко не всегда угадывает, что я хочу написать, но зато когда угадывает - очень ускоряет набор от одной до 15-20 строк за одно нажатие клавиши. Плюс предлагает варианты автоматического рефакторинга и заполнения докстрингов.

Короче, к чему я это все? К тому, что некоторый опыт с такими системами я уже имею, а значит, был готов воспринимать доклад Виктора Плошихина не просто как случайный участник конференции, а как практик, имеющий понимание чего ждать, а чего не ждать от таких сервисов. Ну, и в общем, с большим интересом послушал рассказ о решении большого количества инженерных задач на пути создания автоматического помощника написания кода. И вам рекомендую. Там есть, прям, красивые проблемы и их элегантные решения. Например, обучение подели было не на предсказание следующего токена, как интуитивно мы часто себе представляем себе подобное обучение, а на целые законченные участки кода. Еще в процессе работы над задачей пришлось придумывать собственные метрики, потому что стандартные не подходили и оценивали не то, что нужно. И так далее. Если желаете погрузиться в проблематику - горячо рекомендую доклад.

После выступления Виктора, мне удалось с ним пообщаться по теме доклада и пригласить поучаствовать в подкасте. Принципиально мы договорились, но конкретной даты еще нет, так что можете пока накидать вопросов.

Читать полностью…

Стать специалистом по машинному обучению

Я думал, что только я не понимаю как строится число TREE(3) и почему оно настолько большое (число Грэма даже близко не стоит с TREE(3)). Но, оказывается, ChatGPT тоже не очень понимает :)

Читать полностью…

Стать специалистом по машинному обучению

Виталий Кулиев. А чё там по железу?

Читать полностью…

Стать специалистом по машинному обучению

Пост 4/4

После этого второй гном не смог определить веса слитков. Это означает, что сумма весов не уникальна — есть по крайней мере две комбинации с одинаковой суммой, из-за чего невозможно однозначно определить веса слитков только по знанию суммы.

Из наших комбинаций видно, что сумма 14 встречается дважды:

- Комбинация 10: 2, 6, 6 (Сумма: 14)
- Комбинация 11: 3, 3, 8 (Сумма: 14)

Другие суммы уникальны, поэтому если бы сумма была, например, 13, то второй гном сразу бы определил веса слитков как 3, 4, 6 кг.

Следовательно, число кроватей в подземелье — 14, и из-за наличия двух комбинаций с такой суммой второй гном не смог определить точные веса слитков.

Шаг 3: Используем дополнительную информацию о маленьком слитке

Первый гном сказал: «Маленький слиток — со следами зубов». Это ключевая информация.

Это означает, что есть один уникальный самый маленький слиток. Следовательно, среди трёх слитков есть только один слиток с минимальным весом, который меньше остальных.

Рассмотрим две комбинации с суммой 14:

Комбинация 10: 2, 6, 6

- Веса слитков: 2 кг, 6 кг и 6 кг.
- Самый маленький слиток: 2 кг — уникальный, один.
- Большие слитки имеют одинаковый вес.

Комбинация 11: 3, 3, 8

- Веса слитков: 3 кг, 3 кг и 8 кг.
- Самые маленькие слитки: два слитка по 3 кг — одинакового веса.
- Нет уникального маленького слитка.

Вывод: Поскольку в первой комбинации есть один уникальный самый маленький слиток (2 кг), а во второй — два одинаковых по весу маленьких слитка, то дополнительная информация указывает на комбинацию 2, 6, 6.

Шаг 4: Финальный ответ

Веса слитков: 2 кг, 6 кг и 6 кг.

---

Ответ: Слитки весят 2 кг, 6 кг и 6 кг.


Кажется, Скайнет ближе, чем мы думаем :)

Читать полностью…

Стать специалистом по машинному обучению

Пост 2/4

1,6,6 – здесь двое детей младшего возраста (оба по 6 лет), так что эта тройка не подходит, так как нет одного младшего.
2,2,9 – здесь тоже два младших ребенка с одинаковым возрастом, что также не подходит для условия с "младшим сыном".

Таким образом, исходя из этой логики, ошибочное предположение заключалось в том, что подсказка о младшем сыне подразумевает один самый младший возраст, однако в данном случае эта подсказка не помогает исключить обе тройки.


Путем нескольких наводящих вопросов нам удалось, в конечном итоге, вывести 4o на верный ответ, но в процессе диалога видны явные провалы в логике. Причем, модифицированная задача тоже оказалась сложной для 4o:

Еще одна задача. Реши ее.

Разговаривают два гнома:
– Сколько у тебя золота?
– Три слитка.
– А сколько они весят?
– Если перемножить их вес в килограммах – получится 72
– Не могу угадать, дай ещё подсказку.
– Если сложить их вес получится количество кроватей в нашем поздемелье.
– Все равно не могу угадать.
Второй гном подумал и сказал:
– Маленький слиток – со следами зубов.
После чего первый гном угадал вес всех трёх слитков.

Вопрос: сколько они весят?


ChatGPT 4o:

Шаг 1: Перемножение весов слитков
Согласно условиям задачи, произведение весов трех слитков равно 72. Нам нужно найти такие три числа, которые при перемножении дают 72.

Возможные комбинации:

1 × 1 × 72
1 × 2 × 36
1 × 3 × 24
1 × 4 × 18
1 × 6 × 12
2 × 2 × 18
2 × 3 × 12
2 × 4 × 9
2 × 6 × 6
3 × 3 × 8
3 × 4 × 6

Шаг 2: Сумма весов слитков
Второй гном сказал, что сумма весов равна количеству кроватей в подземелье. Это важная подсказка. Если бы количество кроватей было однозначным, первый гном сразу бы угадал вес слитков. Однако он не мог угадать с первого раза. Это говорит о том, что есть несколько комбинаций с одинаковой суммой весов.

Итак, находим суммы для всех возможных комбинаций:

1 × 1 × 72 → сумма 1 + 1 + 72 = 74
1 × 2 × 36 → сумма 1 + 2 + 36 = 39
1 × 3 × 24 → сумма 1 + 3 + 24 = 28
1 × 4 × 18 → сумма 1 + 4 + 18 = 23
1 × 6 × 12 → сумма 1 + 6 + 12 = 19
2 × 2 × 18 → сумма 2 + 2 + 18 = 22
2 × 3 × 12 → сумма 2 + 3 + 12 = 17
2 × 4 × 9 → сумма 2 + 4 + 9 = 15
2 × 6 × 6 → сумма 2 + 6 + 6 = 14
3 × 3 × 8 → сумма 3 + 3 + 8 = 14
3 × 4 × 6 → сумма 3 + 4 + 6 = 13
Мы видим, что две комбинации имеют одинаковую сумму – 2 + 6 + 6 и 3 + 3 + 8. Оба варианта дают сумму 14.

Шаг 3: Дополнительная подсказка
Второй гном сказал, что маленький слиток со следами зубов. Это намекает на то, что один из слитков должен быть меньше остальных. Вариант 2 × 6 × 6 не подходит, потому что там два слитка равны. Остается вариант 3 × 3 × 8.

Ответ: Вес трех слитков: 3 кг, 3 кг и 8 кг.

🤷‍♂️🤷‍♂️🤷‍♂️

А что будет, если спросить у o1-preview?

Встретились два математика, которые давно не виделись.
– Сколько у тебя детей?
– Трое.
– А сколько им лет?
– Если перемножить их возраст – получится 36
– Не могу дать ответ, мало информации.
– Если сложить их возраста – номер твоего дома.
– Мне этих данных недостаточно.
Второй математик немного подумал и сказал:
– Младший сын – рыжий.
После чего был назван ответ.

Вопрос: сколько лет детям?

Читать полностью…

Стать специалистом по машинному обучению

Группа «Интер РАО» запустила ТурбоХакатон по обработке данных в сфере электроэнергетики. Участвуйте в соревновании с 10 октября по 26 ноября и получите шанс разделить призовой фонд в 500 000 рублей.

Регистрация уже открыта

Приглашаем на хакатон специалистов в области Data Science и Machine Learning от 18 лет. Участвовать можно индивидуально или в команде до 5 человек.

На соревновании вас ждет:
🔸 Решение задач, основанных на реальных датасетах Группы «Интер РАО».
🔸 Менторство от ведущих экспертов отрасли, готовых поделиться своими знаниями.
🔸 Возможность получить предложение о работе в Группе «Интер РАО».
🔸 Авторы лучших проектов смогут запустить свои решения на суперкомпьютере Питерского политехнического университета Петра Великого.

Задачи ТурбоХакатона:
1️⃣ Цифровой ассистент – система «вопрос\ответ» для быстрого поиска ответов во внутренней документации компании через вопросы, заданные в свободной форме
2️⃣ Система рекомендации технологических параметров для оптимизации режимов работы ТЭС
3️⃣ Анализ аномалий в платежах за тепловую энергию
4️⃣ Оптимизация маршрутов обхода многоквартирных домов для проверки состояния приборов учета и контроля достоверности показаний
5️⃣ Оптимизация процесса планирования закупки топлива на электростанциях на основе прогнозирования цены электричества и объемов его выработки

Расписание мероприятия:
🔹 08.10 – старт ТурбоХакатона и открытие задач;
🔹 10.10-04.11 – работа над задачей;
🔹 08.11-12.11 – отбор лучших решений для участия в финальном питчинге;
🔹 19.11 – итоговая питч-сессия и презентация решений для жюри ТурбоХакатона;
🔹 26.11 – объявление результатов и награждение победителей.

Успейте подать заявку до 4 октября

Читать полностью…

Стать специалистом по машинному обучению

Буквально пару дней назад я записывал очередной выпуск подкаста и, помимо прочего, мы с гостьей обсуждали то, как хорошим правильным инициативам не хватает пиара. Почему-то те, кто продвигает полезные инициативы, часто уверены в том, что сам факт того, что инициативы полезны, уже является достаточным условием для того, чтобы все продвигалось само. Отчасти это, конечно, так, но внимание человека небезгранично. И мы тогда сошлись во мнении, что Яндекс все делает правильно, стараясь как можно больше рассказывать о себе и своих достижениях. И мне не жалко в очередной раз поделиться ссылкой на статью на Хабре, в которой Ольга Зайкова рассказывает о том, как они в компании решают задачу автоматической генерации рекламы.

Понятно, что товаров много, а маркетологов мало, и еще лучше понятно то, что в эпоху LLM идея автоматической генерации заголовков и описаний к товарам лежит на поверхности. В статье есть небольшой экскурс в то, как развивалась генерация еще до GPT и как появление трансформеров изменило этот мир.

При этом тяжелые модели, выигрывая в качестве генерации, одновременно проигрывают в скорости, а товаров, напоминаю, очень много. Нужно оптимизировать. В статье довольно много подробностей о том, какие проблемы на каких этапах возникали и как решались. И по итогу описан рабочий пайплайн, применяемый в компании, получившийся путем решения вполне конкретных задач бизнеса. В общем, интересно было почитать.

Кажется, уже близко то время, когда реклама будет автоматически генерироваться не столько для людей, сколько для их персональных ИИ-ассистентов :)

Читать полностью…

Стать специалистом по машинному обучению

Приветствую, друзья!

Очередной выпуск подкаста подоспел! В гостях Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске!

https://mlpodcast.mave.digital/ep-62

Читать полностью…

Стать специалистом по машинному обучению

Есть такой аргумент в пользу того, что мы живем в симуляции - слишком маленькая вероятность, что именно МЫ именно СЕЙЧАС живем в изначальном реальном мире, который потенциально может породить бесчисленное количество симуляций.

Глядя на то, как стремительно развиваются технологии за последние десятилетия и что AGI уже почти среди нас, иногда начинает казаться, что, возможно, мы живем в будущем и в качестве развлечения для отпуска просто выбрали себе погружение в самый интересный период развития человечества - почувствовать себя причастными к созданию того, что радикально это самое человечество изменит, если не уничтожит.

Такие мысли на ночь.

Читать полностью…
Subscribe to a channel