life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
Скотт Александр мастер щитпостов
https://www.astralcodexten.com/p/what-is-man-that-thou-art-mindful
Апдейт по пет-проекту. Бенчмаркнул свои первые попытки что-то учить (на данный момент SmolLM2 135M и Gemma3 270M) против предобученного qwen0.6B с ризонингом.
Ожидаемо, что квен намного медленнее. Но я не ожидал, что он будет настолько хуже. Меньше половины верных ответов несмотря на ризонинг и х2 параметров. Пока что лидирует smollm со structured outputs, а с геммой я что-то сделал не так (скорее всего косяк с применением чат темплейта).
Запись и презентация моего выступления на митапе Practical AI про автоматизацию бизнес-процессов с LLM
https://www.youtube.com/watch?v=baXli1UVoBg
Даня, организатор митапа, так описал главный инсайт:
Настоящая экономическая ценность искусственного интеллекта — в автоматизации «тупой интеллектуальной работы».
Это задачи, которые легко объяснить человеку, но почти невозможно описать жесткими правилами в коде. Например, оценить по фото, является ли товар подделкой.
Раньше такие процессы были ограничены скоростью и количеством людей. AI позволяет масштабировать эту «человеческую» оценку до миллионов операций в сутки. Вы переходите от выборочных проверок к 100% покрытию, получая уровень контроля, который раньше был экономически и технически недостижим.
https://crisostomi.github.io/blog/2025/model_merging/
Охренеть красиво
Кстати лучшие хьюман мемеры пока не будут заменены даже нанобананой. Мне потребовалось буквально два часа, чтобы навайбфотошопить этот мем. Приходилось на добавление каждого символа создавать новый чат раза 3-4 пока не получалось приемлемо. Очень плохо работает с маленькими деталями типа символов и текста.
Быстрее бы сам нарисовал.
Но по сравнению с тем, что было раньше, это конечно огромный прогресс
Мой канал попал в подборку от РБК. Всем новичкам добро пожаловать! Хороший повод обновить приветственный пост.
#whois
Привет, я Боря и это мой канал про профессиональное (машинное обучение, ИИ, IT), интересное, личное и просто весёлое. В этом посте можно найти мини-интервью со мной.
Сейчас я пишу научпоп книгу про исскуственный интеллект, подробнее тут.
Я работал:
- Staff Machine Learning Engineer в eBay
- Тимлидом компьютерного зрения в агротехе PlanetFarms
- Исследователем в Yandex (Toloka)
Преподаю машинное обучение (ВШЭ, OTUS, DLS), временами консультирую людей по поиску работы и компании по ML/DS/AI.
Предлагаю почитать в канале из нового:
* Искусственный интеллект не дает преимуществ — почему ИИ инструменты не помогают преуспеть в карьере.
* Обзор исследования METR — про влияние AI инструментов на продуктивность разработчиков.
* Как распознать AI текст в 2025
* Может ли LLM написать книгу за меня — эксперимент на друзьях и подписчиках.
Из менее нового:
* Минимальные знания ML Engineering для Data Scientist — серия постов.
* Два способа делать ML — как стоит и как не стоит делать ML/AI проекты.
* Лихие Джуновские — как все начиналось.
* Как я убеждал младшего брата, что он путешествует во времени — с чего начинался канал.
* Серия постов с обзором самого масштабного исследования безусловного базового дохода.
Лонгриды:
* Методичка: Поиск Работы в ML/DS, мой наиболее популярный и полезный материал
* "Нормально разбираемся в Нормальном распределении" на Хабре.
* Туториал по реализации алгоритма поиска BM25+ на Хабре.
* Гайд по опционам в стартапах для сотрудника.
В канале есть реклама, если я считаю её полезной для подписчиков. Подробнее здесь
Мучаю comet browser на самом полезном юзкейсе: принимать инвайты в линкдине с учетом расизма.
Так не работает: accept all invites except from indian people
Вчера прошлись с другом по Лиссабону и заглянули в иммигрантский квартал (Martim Moniz). Неожиданно нашли себе истинно европейское развлечение: смотреть как дерутся на ножах люди беднее тебя.
Для дополнительного колорита прям на той же площади проходило какое-то индийское празднование человек эдак на двести, возможно свадьба
Во-первых: зачем?
Потому что я могу.
В eBay я позанимался тем, что делал бенчмарки и SFT датасет для мультимодальных inhouse LLM. Мне очень понравилась придумывать как из имеющихся данных сделать клевые инструкции. Показалось, будто у меня есть некоторая интуиция как добывать и делать хорошие данные.
Поэтому оказавшись на свободе мне захотелось сделать что-то своё в этой области, заодно изучить как можно больше. Придумал сделать какой-то полезный тюн, который будет включать все этапы:
1. Собрать данные
2. Построить data engine, генерить синтетику
3. Провести эксперименты и обучить модели
4. Заплатить за компьют 😱😱😱😱
5. Задеплоить
6. Бенчмаркать
Почему именно конвертация в JSON:
1. Конверсия из одного формата в другой – самая LLM-ная задача на свете. Маловероятно, что не заработает.
2. Задача не требует много мозгов, надо только понимать синтаксис. Значит можно обойтись маленькой моделью, может быть до 1b. Я же не миллиардер гонять экспы для 8b.
3. Задача верифицируется. Для любой схемы и JSON можно проверить подходит ли этот JSON к схеме. Значит будет легко доставать и генерировать данные.
4. Просто бенчмаркать.
5. Это может кому-то пригодиться! Бекендеры только и делают, что перекладывают JSON. Есть надежды, если получится, продавать это как сервис по API. Но главная цель просто фан и поучиться.
В общем хочется сделать универсально, но при этом очень быстро.
Чувствую себя каким-то живым мемом. Устал перекладывать JSON и получать за этой деньги, вырвался из найма, чтобы спокойно перекладывать JSON за свой счет. Это как если бы дальнобойщик в отпуске возил кирпичи по кругу на своем маленьком грузовичке, чисто для души
В какой-то момент обнаружил, что прокрастинирую написание книги дебажа трейнинг раны этого пет-проекта 🙂👀
Pro tip: поставь в зуме имя "AI notetaker" и можешь молча присутствовать на любых встречах
Читать полностью…Через 30 минут выступаю на митапе! Буду рассказывать какие выводы сделал из своего корпоративного опыта про автоматизацию штук через LLM
Ссылка для подключения
Скандалы интриги расследования про SWEBench-verified
/channel/gkorc/439
Кстати, заметил, что ноутбуки окончательно не нужны. В последнее время я даже графики сразу рисую в Streamlit.
Поэтому рядом с метриками у меня теперь есть интерактивная диффалка где можно сравнить как выбранные модели отвечали на один и тот же пример в бенчмарке. Всё одним промптом в курсоре, красота.
Свой личный вывод (о том, что LLM и прочий "AI" меняют в автоматизации по сравнению с обычным DS/ML) я бы описал этой картинкой.
У неё есть история. Несколько лет назад меня позвали провести для менеджеров ВТБ ликбез по машинному обучению. Тогда я придумал картинку слева, чтобы объяснить, когда ML применять, а когда нет.
Теперь у нас есть новый способ автоматизировать тупую интеллектуальную работу. Вместо обучения моделей можно что-нибудь напромптить и попросить не делать ошибок. Что поменялось принципиально?
Я думаю так: LLM это новый инструмент который отличается от обычного DS/ML бОльшей гибкостью в обмен на бОльшую стоимость и худшее качество. LLM меньше тупеют когда данные отличаются от тренировочных. К тому же систему на LLM и промптах очень легко дорабатывать и адаптировать под меняющиеся условия. Изменить промпт кратно проще, чем пересобрать датасет и заново обучить классификатор.
Кроме того автоматизация на LLM отличается по другим критериям. Например, как ты за неё платишь. Обычный ML это огромные capital expenses в начале. Один раз за дорого делаем модель, потом бесконечно получаем от неё профит по цене инференса. LLM размазывают capex по времени и превращают их в operational expenses. Вместо необходимости выложить огромную котлету сразу ты получаешь большой счет каждый месяц. Часто этот трейд-офф оправдан: с opex сильно проще работать. Более предсказуемо. Это превращает работу с ML в что-то типа юнит-экономики: главное зарабатывать на пользователе больше, чем он сжигает токенами, и экономика сходится.
В общем есть много мыслей. Если интересуют детали, то смотрите презентацию и выступление!
On the Theoretical Limitations of
Embedding-Based Retrieval
- TLDR универсальные эмбединги слабо скейлятся, нейронки нормально не репрезентят высокоранговое пространство, а BM25 да.
We give Gemini all 46 documents and all 1000 queries at once, asking it to output
the relevant documents for each query with one generation. We find that it can successfully solve
(100%) all 1000 queries in one forward pass. This is in contrast to even the best embedding models
with a recall@2 of less than 60%
12 сентября в Москве пройдёт big tech night — «ночь музеев» в мире IT. Яндекс, Сбер, X5, Т-Банк и Lamoda одновременно откроют двери своих офисов для IT-специалистов, которые хотят узнать, как устроена внутренняя кухня в разных бигтехах. Если не сможете приехать, то будет онлайн-студия с отдельной программой.
Будет три трека активностей:
— Хард-трек про всё, что связано с технологиями. Будут рассказы про искусственный интеллект, опенсорс, безопасность, разработку и не только.
Например, Павел Капля выступит с докладом «GPT-функции в Алисе: backstage» про реальный опыт замены старой-доброй классификации интентов на LLM агента.
— Софт-трек посвящён управлению командой и развитию гибких навыков.
— Фест-трек про отдых и всякий интерактив: иммерсивные экскурсии, алгоритмическая вечеринка, киберспортивный турнир, квартирник, где можно пожаловаться на своего тимлида и даже IT-стендап.
📅 Когда: 12 сентября
📍 Где: офисы Яндекса, Сбера, X5, Т‑Банка и Lamoda (Москва)
🔗 Подробности и программа
27 сентября буду смотреть PRACTICAL ML Conf 2025 от Яндекса. Это одна из самых качественных конференций по индустриальному ML с фокусом на реальных кейсах применения ML.
Доклады будут в Москве, но можно присоединиться и к онлайн трансляции. Я этому очень рад, так как не смогу присутствовать оффлайн. Чтобы смотреть трансляцию нужна регистрация!
Я слежу за этой конференцией с 2023 года. Например, в прошлом году обозревал доклад про создание LLM для кода. В этом году тоже будут доклады от компаний-лидеров ML/AI рынка, а еще кейноут про математику и язык от Андрея Окунькова – лауреата Филдсовской медали! О том, что Окуньков будет выступать на PML еще даже не написали на сайте. Так сказать, эксклюзив для нашего комьюнити. К тому же добавился отдельный трек онлайн докладов.
Чтобы вы представляли вайб программы, вот три ключевых доклада:
1. "От classifier-free guidance к диалогу: куда движется генерация изображений?" от Сергея Овчаренко из Яндекс Поиска.
2. "Оптимизация обучения и инференса моделей для генерации видео на множестве GPU" от Марии Ковалевой из Sber AI.
3. "Генеративные рекомендательные технологии: что работает в Яндексе" от Николая Савушкина из Яндекс Поиска.
Много докладов ожидаемо про применение трансформеров в разных сферах. В целом сохранился фокус на кейсах применения передового ML в бизнесе. У меня лично глаз зацепился за доклад про синтетические данные для обучения LLM от Т-Банка, потому что сейчас в пет-проекте занимаюсь примерно тем же.
В программном комитете я обнаружил аж четырех админов соседних тг каналов про ИИ 👀
Мест не очень много, регистрируйтесь заранее!
Реклама ООО «ЯНДЕКС» ИНН 7736207543
Gemini 2.5 Flash Image с редактированием изображений (которая nanobanana) просто космос какой-то
Читать полностью…Так работает: accept all invites except from people with indian-sounding names
Читать полностью…Наш русскоязычный датасет для TTS опубликован!
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
/channel/den4ikresearch
/channel/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
https://www.strangeloopcanon.com/p/walter
Хороший пост про (достаточно успешные) попытки научить LLM делать хорошие твиты с помощью RL. Казалось бы нет задачи проще, но насколько же это не так.
В основном про невероятную способность моделей хакать любой ревард.
Причём блог пост не про технические детали, а скорее про личный опыт. Для деталей есть статья про метод авторов.
# Anything2JSON
Можно наконец рассказать про проект, которым я сейчас занимаюсь. Потому что у меня наконец что-то успешно обучилось.
Идея такая: маленькая LM которая принимает на вход произвольные структурированные (toml, yml, xml, html, ...) данные и конвертирует их в JSON согласно заданной схеме.
То есть быстрый и универсальный конвертер для случаев, когда у вас есть много каким-то образом структурированных данных, но вам нужно свести их к нужному формату.
На видео демо (важно: без structured outputs): результат первого успешного трейнинг рана SmolLM2-135M. Как видите моделька может выдать валидный JSON и даже адаптироваться к небольшим изменениям входа и схемы.
Она пока что глупая и делает слишком много ошибок, но это не страшно. Основной каркас создан: data engine для датасета и скрипты для тренировки на коллабе и runpod. Теперь улучшение это вопрос итераций. Надеюсь обойдемся без RL, но посмотрим.
Буду вам потихоньку рассказывать про этот проект
Всем спасибо! Пришло аж 60 человек и вопросы были классные. Позже будет запись и презентация.
Спасибо Дане и Practical AI за организацию!
Нет, Perplexity, НЕ ТАК. BRUH
Причем дать мне поисковую выдачу по запросу "qr code generator" он отказывается, говорит присылай ссылку и я сделаю