12834
Жоский ИИ Дядя Твой личный поставщик AI 🦾🤖 Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾 Для связи @dealer_ai (реклама и консультации по AI для бизнеса). Head of AI CoE, AI-визионер РКН: 6348592885
Code Exec with MCP, когда контекста мало всем.
У anthropic вышел небольшой такой постик про MCP и контекстный менеджмент для LLM. Сначала, думаю, из каждого утюга вон об этом пишут, не интересно. Но приходится дать свою точку зрения.
Итак, вся идея статьи, строится на фундаментальной проблеме - контекст LLM конечен. И к сожалению, не было бы это MCP, вы в любом ином месте живете и боритесь с этим. И не MCP такой плохой, хотя не без проблем, а именно костылим мы контекст. Да автор поднимает вопрос перехода от тонкого клиента, к части функционала на стороне mcp по удобному хранению и обработке данных, необходимых для исполнения задач. LLM принимает теперь функцию не моста по передаче/хранению данных+ризонера/планировщика, а только последнее. Таким образом, мы костылим ограничение контекста, переносом функций хранения в нем информации на клиент MCP. А могли бы, будь это не MCP, а условно memoryOS на файловую систему вашей ОС переложить или еще как удобно. Все.
При этом, автор статьи подчеркивает, что он поднимает проблематику и свое видение ее решения, но как это будет осуществленно формально, лежит на самих разработчиках, готовых рецептов нет. Не mcp плох, не антропики дурачки, а проблема базы над которой живут агенты и пр. - LLM и ее контекст. И туда же все ваши SO/constrained output, SGR и прочие изощрения.
Поэтому, дальше Вы сами.
Продолжаем посты, cookbooks для чтения на выходных.
У Microsoft вышел классный курс по малым моделям на конечных устройствах. Подписчики рекомендуют.
В целом, знаю много любителей моделек on-device, в свое время было очень популярно делать tflite формат + устройство, туда же потом влетел onnx и прочее.
В общем, приятного чтения. 😁
Сэкономил – считай заработал. TOON форматы.
Мы в последнее время с памятью для LLM на fc/tc столкнулись с жёстким переполнением контекста. Начали резать описания, а тут подвернулась работа. Обещают срезать 40/60% объема.
Остаётся вопрос, насколько нативно оно работает as is на текущих LLM, и как следствие нужно ли доп.дотюнить под такое (скорее всего да)?
Кто-то уже пробовал? Пишите мысли в комментариях. 👇
Сегодня в 23.59 все закончится, давайте поднажмём.
Читать полностью…
Память или кошелек. Слухи об монетизации с чатами OpenAI.
Говорят, что OpenAI будет таргетировать контекстную рекламу на основе вашей истории переписок. Если вам оно не надо, ну будете жить без памяти чатов, всего-то. Для меня это ожидаемо, об этом я писал в серии постов: тут и тут. 💸
Вайб Цех
Первый раз в жизни собираю митап!
Когда мы прогоняли сегодня с ребятами материал для конфы я понял, мы собрали реально очень полезную инфу для вас!
И от 0 и до 100 по сложности есть!
Значит будет интересно!
Ссылка на онлайн стрим https://red-mad-robot.timepad.ru/event/3605115/
25.10.2025
Дядя вещает вещи: /channel/dealerAI
Писал уже, что рано или поздно оно будет, ну и вот.
Upd. Даже в посте про Regen об этом говорил. Теперь жду интерактивные рекомендашки. Интерактивный поиск с чат окном уже есть.
Ток оно не работает ни на чем кроме mac...челы на Интел маках тоже со...вершенно не у дел пока.
https://openai.com/index/introducing-chatgpt-atlas/
Experiences for Windows, iOS, and Android are coming soon
REGEN – новый подход к рекомендациям на основе диалогового взаимодействия.
Традиционные рекомендательные системы сосредоточены на предсказании следующего товара, который может понравиться пользователю, но не способны вести естественный диалог, понимать отзывы на естественном языке или объяснять причины рекомендаций. Существующие архитектуры и наборы данных не позволяли изучать эти новые возможности, теперь же есть REGEN от Google (Reviews Enhanced with GEnerative Narratives).
Работа поделена на два важных аспекта:
1. Датасет для измерения качества подобных взаимодействий юзера, рекомендательной системы и диалогового интерфейса.
2. Предложены и протестированны две архитектуры рекомендаций: FLARE - на базе коллаборативной фильтрации; и LUMEN - на базе LM (Gemma LLM), учитывающей, как интеракции user-item, так и текстовые взаимодействия. Люмен заявили впервые именно в статье REGEN.
Начнём с данных. Созданный набор данных REGEN был собран не совсем с нуля – исследователи дополнили общедоступный Amazon Product Reviews dataset, синтезировав с помощью LLM Gemini 1.5 Flash два ключевых элемента:
1. Критика: Примеры того, как пользователь может выразить предпочтение или критику в диалоге (например, "Я бы предпочел черную ручку, а вы предлагаете мне красную").
2. Нарративы: Разнообразные текстовые пояснения, такие как причины для покупки, отзывы о продуктух или предпочтения пользователя.
Архитектуры моделей. Как уже упоминалось, были предложены и протестированы два подхода:
1. Гибридная система FLARE. Классическая модель аля SASRec предсказывает следующий товар, а легковесная языковая модель Gemma 2B генерирует нарратив на основе этого предсказания.
2. Единая модель LUMEN. Одна большая языковая модель обучается для совместного выполнения задач: обработки критики, генерации рекомендации и создания нарратива в рамках единого процесса. Модель учится e2e "решать", когда выдать ID товара, а когда продолжить генерировать текст.
Дизайн эксперимента и метрики.
Эксперименты были построены вокруг предложенной авторами статьи задачи – совместной генеративной рекомендации товаров. Модели получали историю покупок и, опционально, текстовую критику, после чего должны были порекомендовать следующий товар и сгенерировать о нем контекстуальный нарратив.
Для оценки использовались два типа метрик:
- Метрики точности рекомендаций. Основной метрикой был Recall@10 – насколько часто желаемый товар оказывается в топ-10 предсказаний.
- Метрики качества текста. Для оценки сгенерированных нарративов использовались BLEU, ROUGE и семантическое сходство cosine similarly (используют Gecko эмбы).
В итоге, включение пользовательской обратной связи в модели улучшало Recall@10 для обеих архитектур. Разумеется, для модели на базе e2e подхода LUMEN качество согласованности было лучше, ввиду исполнения LM как базы архитектуры. Однако и последовательное использование FLARE, как next item prediction+LM также улучшало метрики. Для подробного изучения показателей бенчей советую заглянуть в статью.
В целом, основная идея авторов создать новый подход на основе не только исторических интеракций юзера с товарами, но и посредством воздействия естественного языка в виде обратной связи (отзывов, критики и пр.). Это же позволяет перевести рекомендации и поиск в "живой формат" диалогового взаимодействия, возможностью уточнения и обратной связи. Представьте, вам не понравились рекомендации, вы просто пишите: "неплохо, но я бы хотел видеть тут <целевой объект>". А система тут же реагирует на это в виде обновления пула.
В целом, мы уже видим на примере Perplexity и OpenAI переход в диалоговое взаимодействие с их решениями, как наиболее нативное и удобное. Теперь очередь рекомендательных систем.
Спасибо всем, кто был с нами сегодня.
#meme для привлечения внимания и образования ;)
Дядя не пропал, просто много дел. Но вот вам мем на ночь.
Читать полностью…
ModernVBERT, как fromage только для энкодера.
На днях ребята из моей группы эмбеддеров прислали статью про новый multimodal embedder. Очень изящный и красивый подход, мое увожение.🎩
В общем, как получают vlm без омнимодальности? Берут decoder выделяют ему спец токены под image projection, в которой кормят эмбы с картиночного бэкбона: clip, siglip, resnet и т.п. че хотите. Это живет вместе с текстовыми токенами, далее уже учатся генерить контекстно тексты, с опорой на мультимодальную информацию. Также можно кормить и аудио эмбы и видео и т.п. Такое придумали пару лет назад ребята из fromage, там правда еще присыпали темами с двухголовостью (token prediction + еще image retrieval), но это произвело фурор и дало ОГРОМНЫЙ вклад в создание последующих VLM и т.п.
Но в ModernVBERT челики красиво еще повернули эту темку. Тип, а че мы ток можем с декодерами так жить? Вигвам, будем пробовать с энкодером. Прям как мы с мерджингом.
Далее гипотеза: "а что если вкинем тоже самое в энкодер, ток на этапе MLM и тип у нас будет картинос эмб помогать помимо текстового контекста демаскировать токен (см. схему ниже)?" Собрали, обучили и получилось. Причем этот подход совмещает в себе два рабочих: первый, конечно же вышеуказанный fromage, а второй это REALM (картинка тоже будет снизу).
REALM - это RAG только не на этапе инференса, а на этапе MLM претрена, тут мы кидаем подсказки с БД в контекст энкодера для улучшения качества демаскирования токена. И тоже вполне себе рабочий подход.
В итоге микст дает:
1. Использование спец токенов для картиночных эмбов во общем внимании с текстовым контекстом.
2. Учит эти представления помогать для лучшего демаскирования токенов в MLM таске e2e.
Обучение идет по схеме: претрен на чисто текстовой задачке (опускаем, т.к. ModernBERT уже обучен), далее допретрен (они зовут это выравнивание) на картиносах, далее contrastive tuning уже на ретривал задачу.
В завершении, получается турбо-хомяк до 300м параметров, с прекрасными свойствами мультимодального поиска и возможностью запускать модельку на CPU. 🌿
Пару недель назад, Александр @dealerAI подробно рассказывал у себя на канале о проекте MemAgent, если в двух словах, то это проект запускающий специально науськанную на работу с файловой систему модель, для того чтобы на оной организовать Obsidian-подобное хранилище памяти, в виде эдаких заметок.
Меня данная возможность очень впечатлила, стал пробовать для локальной разработки, оказалось решение состоит из двух компонентов:
- хитрой LLM driaforall/mem-agent основанной на qwen3 4b, скрипты обучения модели тут (в репе будут еще и логи обучения 14b модели, но веса почему-то не выложили)
- обёртки firstbatchxyz/mem-agent-mcp для непосредственной работы с файловой системой в формате простенького MCP-сервера, к сожалению без Dockerfile
Ну и сами понимаете, пришлось ручками упаковывать всё в Docker-образ, по итогу у меня получились:
- отдельно docker-compose.yaml для запуска LLM-модельки на GPU-сервере с vLLM
- сам Dockerfile чтобы упаковать mem-agent
- и дополнительный docker-compose.yaml чтобы управлять сборкой Dockerfile
К слову сказать моделька отжирает 9Гб даже при bnb-квантизации до int4 с контекстом 4000 токена, так что вероятно в будущем я её конвертирую в GGUF.
❗️Анонс. Приглашаем принять участие в эксклюзивном мероприятии на тему “RAG системы от экспериментов к полноценному индустриальному решению”, которое состоится 27 ноября в Москве.
Спикер: Александр Абрамов, руководитель AI / ML команд в кластере решений для b2c, SberAI.
С позиции одного из ведущих экспертов рынка в области AI Александр поделится ценным практическим опытом построения RAG-систем в реальных продуктах. Поговорим о базовых архитектурных решениях, метриках и тонких местах. Затронем тему оптимизации производительности и качества ответов, а также разберем, как превратить прототип в масштабируемую систему.
Детали события:
Дата: 27 ноября 2025
Время: 19:20 (сбор гостей начинается в 19:00)
Локация: ул. Рочдельская д. 15 с. 16 (Трехгорная мануфактура, пространство Геолофт).
📆 Добавить в календарь
🗺️ Схема проезда
Очень приятно, что Дядина прозорливость и видение потенциального применения mem-atents не только, как память для код ассистента, но и для диалогов в обычной жизни, сработала. Кого-то удалось заразить методологией, кто-то реализовал идею в жизни.
Ребята молодцы:
1. /channel/evilfreelancer/1452
2. /channel/neuraldeep/1710
Дорогие друзья, очень признателен Вам за помощь и поддержку. К сожалению, голосование было продлено до 5.11 и было бы кощунством Вас просить все также голосовать активно в эти длинные выходные.
Однако, для меня уже большое признание, что Вы поддержали меня: подписчики, товарищи и друзья из комьюнити ИИ-блогеров, такого единения давно не было. Спасибо Вам огромное, постараюсь не подвести Вас. ☺️😏
Cookbook от HF, как построить world level LLM.
А пока орги продлили голосовуху и всю эту суету 🥲до 5.11, почитаем cookbook от Huggingface 🤗. Как построить LLM мирового уровня, небольшой гайдик:
- Если ты не в курсе с чего начать, а оно вообще тебе надо?
- А в каком порядке идет pretrain, rl, sft, annealing?
- Что такое kv caching?
- А curriculum learning он зочем?
- Какие стратегии скейлинга по датке и gpu.
И многое другое, ты найдешь в данном небольшом руководстве на 200+ страниц 🤣, с формулами, картинками и графиками. Версия на сайте. Будет, что почитать на выходных. 🧑🎓
Други, дорогие, Вы очень многое сделали для канала. Пришла благая весть, наш админ попал в историю. Хорошую.
Он в шорт-листе премии RuCode2025
И ему нужна Ваша поддержка)
https://vk.com/wall-44001716_10214
Дядя - Абрамов Александр)
Наша FRIDA набрала 100 лайков на hf (давайте еще накинем) и достигла среднемесячного числа скачиваний в ~200к. А в этом месяце все 300к+.
Также FRIDA активно используется в финтехе, бигтехе и на соревнованиях.
Присоединяйтесь к числу пользователей.
Дядя принес редкую вакансию от классного международного стартапа. 🥳
Мои знакомые ищут Lead AI Engineer (Speech)
Чечики делают AI тьютора по прокачке разговорного английского языка, прошли самый известный акселератор в мире Y-Combinator, привлекли $2.5M 💸 от топовых фондов и только за этот год выросли в 60+ раз по выручке - пробили $5M+ ARR. 🐸
Команда состоит из 7 топовых ребят (prev. Google, Nvidia, Lyft, Amazon), оба фаундера с техническим и research бэкграундом. 💪
Если вас не тянет к корпоративной работе, хотите брать отвественность на себя и много релизить в прод, то рекомендую откликнуться!
Условия следующие:
- Full Async Remote, любая таймзона
- Работа напрямую с фаундерами и CTO
- Хорошая ЗП в $ + опцион в старатапе, который стоит $20M+
Бонус: собеседования проводят фаундеры, без сторннего HR, от собеседования до оффера можно пройти за 3-5 дней.
Ищут senior+ спеца, который может ent-to-end держать фичи и работать на больших скоростях. Опыт в YC стартапе ценится по всему миру, так что может дать классный буст карьеры на международном рынке.
Вы будете одним из первых инженеров - это почти как присоединиться к гугл в 2001 году 😎
Узнать детальнее и откликнуться можно ➡️ тут
P.S. Кстати, они еще ищут Lead Frontend Engineer и платят 5000$ за рекомендацию сотрудника, которая сработает. Если не подходите сами, порекомендуйте друзей (сделать можно в форме по ссылке).
Вспомнить все: трек памяти для LLM на AIJ contest 2025.
Приоткрыли завесу тайны, что за соревнование, дали пару советов и кое-что пошерили для вас.
P.S. И как вовремя qwen.chat.ai выпустили свой вариант ассистента с памятью. Хороший обзор у коллеги по цеху.
https://habr.com/ru/companies/sberbank/articles/957292/
В одном из чатиков про AI:
"ААААААААААААААААА!!!
МногоУважаемый Господин Qwen, только что, обвинил меня в ошибке при реализации кода, которую, допустил он...
Пойду повинюсь. А то кошкожены лишат...
"(С)
Занавес 💳💳💳
UPD.
Вот и вайбкодь после этого.
Кстати, а кто по-вашему виноват в том, что в коде порожденном copilot'ом, курсором и т. п. допущена ошибка и она попала в проект?)
Пишите в комментариях. Это вчера мы на конфе не успели обсудить в рамках панельки.
👇👇👇
Мама любит Mamba и Сережа тоже (с) Тихий "релиз" Mamba3 на ICLR2026.
Если хотите понять, про что Mamba и все эти RWKV, какие модели уже были и оценить перспективу – читайте тут, тут и тут.
Утечка тут, чирикают тут. Хвалебные отзывы по каналам смотреть не тут. 💳
Мое мнение такое, уже несколько лет мы видим развитие SSM, RWKV моделей. Основной пойнт - это линейность от размера входного сиквенса, в отличии от механизмов внимания в трансформерах. При этом, мы наследуем и проблемы, аля затухание или взрыв градиента, что влияет на механизм "памяти" внутри архитектуры. Отсюда мы и получаем пляски с разными микстами rnn+transformer в виде указанных выше моделей семейств ssm, rwkv.
Причем можно проследить несколько направлений:
1. Работа с механизмом внутренней "памяти" в лице специальных блоков внутри архитектуры.
2. Работа с сложностью от длины контекста. Микстят блоки ssm с блоками трансформера, где-то последовательно, где-то параллельно.
3. Оптимизация работы всей этой доброты на GPU. Т.к. в отличии от RNN-like, трансформеры параллеляться хорошо.
Кстати знаю, что в бигтехах стажерам дают RWKV делать для тюна автокомплит и пр. Штуки для умной клавы, вместо lstm, разумеется. И это работает on-device хорошо, как и сказано в Mamba3 в качестве перспективы.
4. Работа над стабильностью самой архитектуры, чтобы исключить проблемы RNN. Все эти плавности/насыщения весов и сходимость оттуда же.
В итоге, задается вопрос: А за что мы платим линейной сложностью от длины контекста и памятью в рамках него же, и стабильностью архитектуры?
Также мы уже видели публично аналоги от Qwen3 next, от ребят из Nvidia и пр., стало ли это смертью трансформера? Поживем, увидим, пока все еще не становилось. Но динамика развития архитектур данного семейства хорошая, может даже кому-то лучше заложиться на знание и представление о таких архитектурах. А каким-то rnd командам и на собственные исследования и разработки, чтобы потом внезапно не оказаться в догоняющих.
Всем добра, увидимся. 👍
Онлайн конференция по использованию AI в разработке
Мои товарищи решили сделать онлайн AIDev конфу, и конечно, позвали меня поучаствовать, а я приглашаю Вас. Будет без буллщита и воды. Только личный опыт от действующих инженеров и их менеджеров.
Спикеры: тех лиды, руководители разработки, CTO и AI head.
Когда: 14 октября, 14:30 14:00 (мск)
О чем: 6 докладов про эффективное использование AI инструментов в разработке для разного уровня подготовки от начинающих инженеров до авторов собственных тулов, от индивидуальных контрибьюторов до руководителей команд и департаментов.
Посмотреть детали и зарегистрироваться.
Upd. Будьте внимательны, обновлено время начала.
GRPO на самом деле DPO и это многое упрощает 😱
Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.
Поэтому данная статья считая оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.