15113
life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
Искал какая доля транзакций криптовалют приходится на незаконную деятельность (админ сходил на первый в своей жизни крипто митап 😐).
Нашел отчет европола за 2022 год в котором говорится: крипта слишком волатильная для преступников 😂
Папиры надо писать так, чтобы респект получала даже жена подруги мужа соавтора
Читать полностью…
#дайджест
Новогодний дайджест 🎆 29.01.2025 - 04.01.2026
К счастью без крупных релизов (давайте уже после праздников)
Tencent: WeDLM 8B Instruct
Очередной эксперимент с диффузионными языковыми моделями - WeDLM 8B Instruct. По бенчам модель не отстаёт от Qwen3-8b-instruct, но в три раза быстрее.
Блогпост, HF, Статья, Код
Fal AI: FLUX.2 Dev Turbo
Fal оптимизировали FLUX.2, достигнув ускорения модели в 6 раз без снижения качества.
HF
Alibaba: MAI-UI
Семейство агентов для управления интерфейсами смартфонов на основе Qwen 3 VL (2B, 4B, 32B, 235B). SOTA на агентских UI бэнчмарках AndroidWorld и ScreenSpot-Pro
Статья, HF
ByteDance: StoryMem
LoRA Wan2.2-I2V, улучшающая работу памяти видеомоделей. Идея в том, чтобы при генерации кадра кроме ближайших пары секунд держать в контексте ключевые кадры более длинного видео. По идее это улучшает консистентность и память, не сильно увеличивая вычислительную сложность. Компания сделала ST-Bench, чтобы замерить эти параметры. В итоге рост на своем бенчмарке относительно базовой модели 28,7%.
Блогпост, HF, Код, Статья
Tencent: HY-Motion 1.0
Diffusion transformer text-to-motion модель (переводит текстовый промпт в скелетную 3D анимацию). Это первая крупная (1B) text-to-motion модель.
Блогпост, Код
Можно ещё 5 агентов запустить решать задачу параллельно
Читать полностью…
Что там по стартапам в 2025, ловите полный PDF от Carta
Читать полностью…
Время подводить итоги года, но как-то не хочется. Поэтому просто всех с наступающим + красивая фотка (так выглядит этот сезон в Португалии, возможно поэтому новогоднее настроение здесь не совсем то) + красивая утка
Давайте в комментариях сделаем мемотред
Однажды я убил два месяца, пытаясь понять, как писать из Spark, который управляется Airflow в Redis Cluster (101) и в итоге справился. Смешно, но я видимо был первым и последним человеком, который столкнулся с этой проблемой на всем stack overflow.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать. @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.
Подводка (этот текст удалить, все остальное оставить как есть, сырки поступят на ваш счет в течение дня):
Чо, пьёте пиво попятницампонедельникам? 🍺
А пока вы пьёте — агенты не пьют. Агенты устраивают диверсии на ваш прод, слушаются prompt-инъекций и сливают данные в даркнет.
@neural_prosecco навайбкодила красивые итоги года для каналов
624 поста! Получается я посчу практически два раза в день
Достиг новой вехи карьеры инфлюенсера: когда скамеры начинают продавать марафоны от твоего имени
Друзья, если что обучений по ИИ от Бориса не существует. Мы тут больше деградируем + пытаемся забыть
Но есть карьерные консультации
Upd: прям волна скама, много кому пишут, будьте осторожны
Сейчас я уничтожу вашу продуктивность
Обнаружил для себя www.healthdata.org и ghdx.healthdata.org.
GBDS это проект University of Washington где можно посмотреть какой-то бездонный кладезь данных про здоровье с разбивкой по разным странам, способам измерения, возрастным группам, итд.
Для примера вот вам количество насильственных смертей в разных странах.
Ссылка на график: http://ihmeuw.org/7cmk
Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
Выйду на улицу, отдохнуть от нейрослопа проклятого.
Улица:
#дайджест
Запоздалый Дайджест ML/AI за неделю 15 - 21 Декабря 2025
Google: Gemini Flash 3
Новая версия моей любимой модели. Дешевая и очень быстрая модель. По бенчмаркам удивительно хороша, сравнима и даже местами бьет Claude Sonnet 4.5 и GPT-5.2, из курьезного незначительно обходит Gemini 3 Pro на MMMU-Pro. Средняя скорость на artificialanalysis 200 т/с и все это при цене $0.50/$3 через API. Доступна везде как модель по умолчанию. Ну и как обычно Гугл раздает какие-то бесконечные лимиты на Flash версию.
Пробовать здесь
Блогпост
OpenAI: GPT Image 1.5
OpenAI обновили модель для генерации изображений, улучшили следование промптам, точность редактирования изображений, почти убрали желтизну. На Artificial Analysis Leaderboard заняла первое место с небольшим отрывом от Nano Banana Pro. Модель доступна в бесплатном тарифе и по API на 20% дешевле чем GPT Image 1.
Блогпост
Black Forest Labs: FLUX.2 [max]
Новая лучшая модель компании, занимает третье место на Artificial Analysis Leaderboard, между Nano Banana Pro и не Pro.
Из интересного, можно добавлять до 10 изображений контекста, также модель может брать данные из интернета для контекста по запросу, так что "нарисуй фото по координатам" будет работать еще лучше, даже с погодой.
Доступна по API 0.03$/MP
Попробовать здесь
Блогпост
Qwen: Qwen-Image-Layered
Opensource модель для декомпозиции картинок на слои как в фотошопе. Открывает новые возможности для контроля над редактированием изображений и построения пайплайнов. Примеры есть в блогпосте.
github, статья, попробовать здесь
Google: T5Gemma 2
Encoder-decoder модель от гугл. Модель представлена в трех размерах 270М, 1B, 4B. Расширили контекст до 128к токенов, 140 языков, мультимодальность. Модель уверенно обходит Gemma 3 тех же размеров.
Блогпост, Статья,
Kaggle, HF, Colab
Meta: SAM Audio, PE-AV
Meta создала инструмент для извлечения конкретного звука из видео, при этом указать на звук можно через таймкод где звук доминирует, текстовым промптом или кликом мышью на источник звука.
Блогпост, Код, Попробовать здесь
Также Meta релизнула энкодер на котором построен SAM Audio. Perception Encoder Audiovisual (PE-AV) объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV доступна в шести чекпоинтах различного размера - от Small до Large.
Блогпост, Код, Модель
Nvidia: Nemotron 3
MoE модель с контекстным окном на 1М токенов, представлена в трех размерах: Nano (31.6B, активирует 3.6B), Super (~100B) и Ultra (~500B). Использует гибридную архитектуру Mamba-Transformer MoE. Nano превосходит GPT-OSS-20B и Qwen3-30B-A3B на популярных бенчмарках NVIDIA Nemotron. Доступна Nano. Super и Ultra обещают выпустить в первой половине 2026.
Блогпост, Статья, HF
Мало кто знает, но когда ты звонишь в AIMA (Португальская инстанция занимающаяся ВНЖ и паспортами) и попадаешь на линию ожидания, самый компетентный сотрудник вынужден бросить все дела и полчаса играть тебе фламенко на гитаре
Шутка (шутка ли???) доступна тем, кто страдает вместе со мной
Ув. Техножрица поделилась списком бесплатных умных книг, чтобы прокачаться за новогодние праздники. Но что если вы не собираетесь становится умнее?
Поделюсь своей неожиданной находкой прошлого года: серия Dungeon Crawler Carl.
Я обнаружил её когда искал что почитать на ночь такого, чтобы не было сложно, но и не совсем плохо. Увидел на амазоне нечто с такой обложкой, что я бы ни за что не стал это читать, но с абсурдно хорошим рейтингом. Решил попробовать и случайно нашел золото. Залпом прочитал семь книг.
Это LitRPG. LitRPG это такой жанр игры в книге. Как правило главный герой попадает в какую-то игровую среду (симуляция с полным погружением, галлюцинация или что-то ещё), находит способ заэксплойтить правила игры и всех побеждает. Большая часть книг в этом жанре это проходной фикшн.
Но, внезапно, не эта книга! Я считаю это настоящий шедевр своего жанра. Неожиданно это одновременно LitRPG и хорошая книга как книга. И такое бывает оказывается. То есть ставки чувствуются. Персонажи не картонные и ты им сопереживаешь. Все ребята, в том числе злые, ведут себя рационально и пытаются выиграть (привет фанатам Worm), но при этом ведут себя как люди. Сюжет удивляет. Хотя казалось бы как он может удивлять в книге где ты всегда знаешь, что "наши" победят? Вопросы задаются серьезные. Эмоции испытываются.
Даже LitRPG элементы играют большую роль в сюжете, а не просто снабжают тебя дофаминчиком.
Что ещё более удивительно: всё это одновременно с абсолютно трешовым сеттингом "апокалипсис в стиле TV шоу." Пришельцы прилетают на Землю и делают из неё данжн-кроулер-батл-рояль с магией, квестами, босс-файтами, карикатурами на Земную культуру. Как минимум второй главный герой книги говорящая кошка. В какой-то момент у нас ГГ в магических трусах в сердечко летит вместе с кошкой на гоблинском самолете в сторону пылающего адским пламенем бога. Звучит бредово, но оно на 100% имеет смысл в контексте, поэтому ты всё равно чувствуешь ставки и переживаешь! В общем автор гений построеня сеттингов.
Кроме того я ни в одной книге не видел такого умелого жонглирования сюжетными линиями. В какой-то момент я насчитал под десять параллельных линий. При этом ни одного "висяка" и ничего лишнего. В конце каждой книги всё сходится к кульминации, все вопросы закрываются, весь происходивший бред обретает смысл и ты в этом не путаешься.
В общем, всем желающим зачиллиться на новогодних советую попробовать.
Carta выпустила свой State of Startups 2025: 146 слайдов различной статистики по стартапам (60к стартапов, 3к венчурных фондов).
Carta мне кажется единственные публикуют подробные данные
Ссылка тык
Хотя давайте подведу итоги очень странных дел года
Ушел с фултайм работы. Два месяца оказывался в ситуации когда на картах меньше денег чем нужно на аренду. Впервые в жизни такое.
Был на региональном Берне, Flamingalo. Один из лучших опытов в жизни. Выиграл там на конкурсе красоты пенисов в номинации best fragrance 👀. Спел "Коня" на весь фестиваль. В следующем году снова поеду!
Был на нелегальном лесном рейве (на фото). В какой-то момент его накрыла полиция. Всем рекомендую этот полицейский сквад для ваших вечеринок, 5 звезд, максимально вежливо попросили всех разойтись.
Развиртуализировался с рекордным количеством людей с которыми мы общаемся в интернете. Вроде админов других тг каналов про ИИ.
Познакомился на улице с девушкой из Кабо-Верде которая не говорит по английски. А я не говорю по португальски. Поэтому опыт был интересный.
Впервые сделал проект по разработке на заказ не написав ни строчки кода. Только дерижировал исполнителями и успокаивал заказчиков. Это как вайбкодинг, но дороже. В итоге заработал невероятные 40 тысяч рублей за три месяца головной боли. Я бизнесмен!
Оказался в ситуации когда СЕО публично торгующейся компании предлагает мне сделать стартап в его вертикали. Грубо говоря приходи с любой идеей — дадим денег на MVP и тест. К сожалению направление было не по моей части, пришлось отказаться.
Стал фотомоделью (немного). Предлагали подать портфолио в рекламное агентство. Говорят твинки неординарные мужчины со смесью мужественного и женственного сейчас в цене. Забил отложил это на случай если IT сколлапсирует.
Согласился обучать личную LLM на 30+ годах заметок и записей некоего богатого и эксцентричного голливудского продюсера. За безумную почасовую ставку 😈. Это мне предстоит в следующем году, но предложение поступило в этом, так что считается!
Встретил самого конченного человека которого я видел в жизни. Чтобы вы понимали, он после своей собственной фразы сказал: "точность это вежливость королей." И это даже не точное воспроизведение афоризма!
Было что-то около 16 стендап выступлений. На импровизационной части одного из них мне надо было ответить на вопрос одного немца: что делать в связи с угрозой Европе со стороны России? Вся жизнь готовила меня к этому. Я сказал, что как немца его понимаю, но как русский не вижу проблемы.
В общем год был очень богатым на приключения. Желаю, чтобы и у вас было не менее интересно в 2026 😇
https://www.kapwing.com/blog/ai-slop-report-the-global-rise-of-low-quality-ai-videos/
Читать полностью…
#дайджест
Дайджест ML/AI за неделю 22 - 28 Декабря 2025
Alibaba: Qwen-Image-Edit-2511
Оупенсорс аналог nano-banana/gpt-image от Qwen. Как и ожидается в декабре 2025 - хороший контроль редактирования, понимание контекста, консистентность. Из интересного: встроили популярные LoRA предыдущей версии в базовую модель. Уже доступна в ComfyUI .
Qwen Chat, Попробовать HF, Статья, GitHub
Alibaba: Qwen3-TTS VoiceDesign и VoiceClone
Alibaba выпустила две TTS-модели:
Qwen3-TTS-VD-Flash - синтез речи. В промпте можно задать параметры от тембра голоса до фона и личности персонажа, может имитировать звуки животных (наконец услышим о чем блеят нейроовцы).
На InstructTTS-Eval benchmark проигрывает Gemini-2.5-pro-preview-tts, сравнимо с Mimo-audio-7b-instruct.
Qwen3-TTS-VC-Flash - копирует голос с трёх секунд аудио. На TTS Multilingual Test Set побеждает всех на английском и китайском, на русском проигрывает ElevenLabs.
Блогпост, VoiceDesign демо, VoiceClone демо, Статья.
Nvidia: NitroGen
Vision-action foundation model. То есть модель для игры в любые игры. Спарсили 40 000 часов геймплея с YouTube и Twitch, в которых на видео был выведен геймпад, автоматически разметили и обучили базовую модель. В итоге файнтюн модели на игру вне датасета выполняет игровые задачи на 52% быстрее, чем модель, обученная на эту игру с нуля с тем же бюждетом. Для zero-shot нет оценки, но есть видео на Reddit.
Сайт проекта, Статья, HF, Датасет
Hunyuan3D-2-WinPortable
Умельцы™ сделали портабл сборку оупенсорс 3D-генератора от Tencent, которая работает на 3GB VRAM. Теперь превращение картинок в 3D-модельки приемлемого качества доступно каждому.
github
EpochAI: Top 10 Data Insights of 2025
Все подводят итоги года, и EpochAI свели самые интересные инфорграфики 2025 года в одну статью. Сколько месяцев назад модели которые сейчас можно запустить на своем GPU были бы SOTA? На что OpenAI тратит компьют? И другие инсайты смотрите в статье.
xAI: Collections API
xAI запустили Collections API — инструмент для создания RAG-систем по API. Позволяет загружать датасеты от PDF до кодовых баз. Использует OCR и layout-aware парсинг, поддерживает гибридный поиск с reranker.
По внутренним бенчмаркам обходит Google File Search и OpenAI Vector Store, но не сильно.
Первая неделя бесплатно, далее $2.50 за 1000 запросов. Данные обещают не использовать для обучения моделей без спроса.
Блогпост
Яндекс делает любопытный эксперимент по взаимодействию с ИИ ассистентами, называя их люменами. Это ИИ-помощники, которые не притворяются людьми.
Описывают их так:
Люмены скорее тотемные животные, деймоны из книжек Филипа Пулмана, они самостоятельны, обладают индивидуальной внешностью и при этом будут продолжениями своих хозяев.
Что-то меня занесло в кроличью нору
Вот например какие у меня (мужчины 30 лет) наиболее вероятные способы умереть в случае переезда в разные страны.
США: передоз фентанилом
Англия: смерть от ножа
РФ: 😐
Португалия: спотнулся на скользкой плитке
http://ihmeuw.org/7cmq
getgpu.ru открывают ранний доступ к своей bare metal инфраструктуре для обучения в РФ от 299₽/GPU-час
Кластеры:
- A100 80GB и H100 80GB
- NVLink и InfiniBand для обмена данных
- 2 ТБ RAM и NVMe на 32 ТБ в каждом узле
Посмотреть подробности и забронировать слот можно на сайте: https://getgpu.ru
сегодня наконец дописал статью про то как я делал minimodal
контекст: modal.com это очень крутая серверлесс платформа для машинного обучения
было очень много всего сделано - точно такой же sdk, control plane который собирает образы, переправляет запросы воркерам (делать шедулер запросов было очень интимно), воркеры которые исполняют код в изолированных песочницах и возвращают результаты на сокетах. есть и батч операции, и стриминг, и все это вроде должно работать благодаря ретраям, DLQ и circuit breaker
ну и всякие удобные штуки типа секретов, вольюмов и вебпоинтов тоже поддерживаются
мне прям супер понравилось порисовать архитектуру неделю и заимплементить кучу штук которые прочитал за последние пару лет
читаем тут - distributedhatemachine.github.io/posts/modal
не читаем тут - github.com/wtfnukee/minimodal
ML-шум, хайп и реальность: подводим итоги года
Перед эфиром знакомим ближе с гостями, кто будет подводить итоги года в Machine Learning. Они не наблюдали за индустрией со стороны, а прожили этот год изнутри, принимая сложные решения, создавая системы и мотивируя свои команды.
Александр Толмачёв, Chief Data Officer, ex-Ozon.
Превращает Machine Learning в прозрачный бизнес-эффект, понятный CEO и измеримый в деньгах.
Андрей Венжега, Head of Search & Recommendations, Avito.
Делает сложные ML-системы продуктами, которые реально улучшают пользовательский опыт и масштабируются без потери смысла.
Павел Пархоменко, Руководитель ML, AI и логистических сервисов, Яндекс.Лавка.
Масштабирует ML так, что он одновременно ускоряет бизнес, оптимизирует логистику и выдерживает нагрузку реального мира.
Андрей Кузнецов, Head of ML, Positive Technologies.
Cтроит устойчивые ML-системы и команды, которые стабильно работают в продакшене и выдерживают критические сценарии.
🗓 24 декабря, 13:00–14:00 (МСК)
📍 Telegram-канал South HUB