Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Скоро к Мире Мурати весь бывший OpenAI перетечет
На сайте ее стартапа Thinking Machines Lab тихо обновился список сотрудников. Появилось два новых имени в разделе "advisors":
➖ Боб МакГрю. Бывший директор по исследованиям и ключевой рисерчер OpenAI. До 2018 занимался роботами, затем разрабатывал GPT-3 и 4.
➖ Алек Радфорд. Очень талантливый инженер и тоже бывший исследователь OpenAI. Работал в стартапе почти 10 лет и стоял у истоков GPT, Whisper и DALL-E
С такой командой можно и GPT-5 раньше Альтмана выпустить
В опенсорс наконец официально релизнули того самого агента, чью статью приняли на крупнейшую ML-конференцию ICLR
Напоминаем, что это ИИ-агент The AI Scientist-v2 от японской лаборатории Sakana. Его статья (написанная полностью автономно) примерно месяц назад прошла рецензирование на ICLR воркшоп.
Вот наш пост про первую версию. Главный принцип: система разбивает весь процесс на стадии (генерация идей, реализация экспериментов, визуализация и написание текста), и при этом на каждом этапе работает специальный агент-менеджер. Что нового в v2:
1. Agentic tree search. Вместо последовательной проверки гипотез агент теперь гуляет по пространству идей в виде дерева, так что эксперименты могут проводиться параллельно (картинка 2).
2. Добавили Vision-Language Model, которая отдельно проверяет все таблицы, графики, схемы и подписи к ним.
3. Этап экспериментов раздробили на отдельные подшаги. На каждом добавили ответственного агента и критерии завершения.
4. Написание кода стало полностью автономным. Раньше агент умел только менять человеческие шаблоны, но теперь может и код с нуля написать, и нужный датасет найти, и на HF за моделькой сходить.
К сожалению, кое-где в "уязвимых" местах (типа ссылок на литературу) еще остаются галлюцинации, но в целом – здорово.
Техрепорт | Гитхаб
Генерация длинных видео с помощью Test-Time Training от Nvidia и Стэнфорда
Посмотрите на мультик наверху. Он длится целую минуту и при этом c начала до конца сгенерирован моделью. Это довольно большая продолжительность, потому что в основном все "сгенерированные ролики" длиннее 30 секунд – это на самом деле много отдельных коротких генераций, склеенных человеком в одну ленту. А тут – до минуты из коробки.
Что самое интересное – под капотом Test-Time Training слои. Каждый такой слой это маленькая двухслойная нейросеть, хранящая историю. Это похоже на скрытое состояние памяти в RNN, но вместо вектора тут параметры сети.
На каждом шаге к этим параметрам применяется шаг градиентного спуска по некоторому вспомогательному лоссу. Проще говоря, при обработке каждого блока входных токенов модель дообучается во время инференса, чтобы лучше зафиксировать долгосрочные зависимости.
Это эффективнее, чем голый self-attention. За счет этого и последовательность может масштабироваться до тысяч кадров. В остальном это обычный Diffusion Transformer и локальное внимание на окнах в 3 секунды.
Конечно, физика и целостность кое-где все еще страдает, но по сравнению с конкурентами на длинных видео прогресс есть.
Демки | Код | Статья
Пользователи настолько недовольны Llama-4 Maverick, что начали сомневаться, что рейтинг на lmsys арене честный
Подозрений было так много, что в ответ организаторам арены пришлось опубликовать 2к+ реальных баттлов, в которых участвовала Maverick. Они содержат промпт юзера, два ответа разных моделек (включая Maverick) и итоговое предпочтение пользователя. Посмотреть можно тут.
Все вроде честно, но есть некоторые вопросы к разметчикам. Посмотрите на пример выше: Llama отвечает менее правильно, зато развернуто и со смайликами, и пользователь голосует за нее.
А, ну и да, все это не считая того, что на арене версия Maverick вообще другая. Она кастомизирована под оптимизацию с учетом человеческих предпочтений. На HF и в любых других чатах такой чекпоинт недоступен, там лежит просто Instruct.
Организаторы lmsys говорят, что не знали об этом и обещают в ближайшее время добавить на арену реальную версию.
Стартовал набор в ШАД — успейте подать заявку!
Технологии меняют нашу реальность, но за их развитием стоят люди, которые умеют находить нестандартные решения. И именно в Школе анализа данных Яндекса готовят таких специалистов! Здесь амбициозные и увлечённые студенты:
- погружаются в машинное обучение, Data Science и искусственный интеллект;
- перенимают опыт экспертов из индустрии;
- учатся решать задачи, стоящие перед ведущими IT-компаниями и исследовательскими центрами.
Учёба в ШАДе — это серьёзный вызов даже для тех, кто уже знаком с анализом данных. Поступить непросто, но если вы готовы к интенсивной нагрузке, нестандартным кейсам и полной пересборке своего мышления — это место для вас! За 2 года обучения вы получите инструменты и навыки, которые позволят работать над сложнейшими задачами индустрии, запускать собственные проекты и двигать науку вперёд.
Занятия полностью бесплатны и проходят по вечерам. Если в вашем городе нет филиала, можно учиться онлайн. Готовы бросить вызов данности? Тогда подавайте заявку до 4 мая!
Сэм Альтман 🤝 Илон Маск
купить собственный стартап
OpenAI рассматривает возможность покупки стартапа io Products, который занимается производством оборудования с ИИ и для ИИ. На интервью в The New York Times руководители говорили, что цель стартапа – создание продуктов, которые «менее разрушительны для общества, чем iPhone».
io Products основали Сэм Альтман и Джони Айв – бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad.
The Information уточняет, что, возможно, OpenAI не поглотит стартап, а просто станет партнером, однако условия сделки еще обсуждаются.
www.theinformation.com/articles/openai-discussed-buying-jony-ive-sam-altmans-ai-device-startup
Приятные новости: OpenAI подтвердили, что Deep Research скоро станет доступен бесплатным пользователям
Сейчас агент доступен только в платных подписках, но на недавнем стриме Айза Фулфорд – исследовательница из команды пост-трейнинга – сказала: "we'll launch you to free very soon" 🍯
Российский ответ ChatGPT: A-Vibe от Авито превзошла западные аналоги
Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.
На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.
Результаты впечатляют:
1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku
A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.
Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.
Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов
Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.
Как я представляю себе идеальное утро понедельника ⬆️
Вайб-кодинг – да или нет?
Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.
Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.
Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:
➖ Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
➖ Как ИИ меняет процессы, что агенты могут и чего не могут
➖ Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом
Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.
⚡️ Вышла Llama-4 с огромным контекстом
Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).
– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.
– Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.
Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса
– Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.
Блог | Попробовать
Хорошая новость: OpenAI выпустит o3 и o4-mini через пару недель. Об этом сообщил Сэм Альтман в своем твиттере. Это, к слову, первое упоминание модели o4.
Плохая новость: также Альтман сообщил, что запуск GPT-5 откладывается.
На это есть есть куча причин, но самая захватывающая из них заключается в том, что мы можем сделать GPT-5 намного лучше, чем планировали. Кроме того, мы хотим убедиться, что у нас достаточно мощностей для поддержки этой модели, которая, как мы ожидаем, будет пользоваться беспрецедентным спросом.Читать полностью…
Вышел Devin 2.0 – конкурент Cursor.
О первой версии мы писали вот тут, она была довольно популярна. Что интересного в обновлении:
➖ Можно запускать несколько агентов одновременно. Они будут работать параллельно над разными задачами, но каждого можно контролировать.
➖ К среде агента подключили локальный браузер, так что теперь можно полноценно тестировать продукты не отходя от кассы (и ИИ).
➖ Перед тем, как что-то делать, агент покажет вам план и предложит его подкорректировать. Он также может помочь уточнить сырые требования и вместе с вами докрутить тз.
➖ Есть специальные режимы Search и Deep Mode для поиска и ответов на вопросы по кодовой базе
➖ Ко всему, что делает, Devin сразу создает подробную документацию со схемами и ссылками на источники, чтобы пользователь не терял понимание происходящего
Стоит 20$. Попробовать можно здесь
⚡️ Вышла Midjourney v7
Основное нововведение (помимо улучшения качества, фотореализма и анатомии) – драфт режим. Это скоростная генерация в голосовом моде: включаете conversational mode и наговариваете, что хотите, а модель в это время рисует и уточняет по вашим идеям наброски. Работает в 10 раз быстрее обычного режима и стоит в два раза дешевле.
Кроме того, это первая модель с персонализацией по умолчанию. Можно активировать, 5 минут потратить на небольшой опрос, и модель будет лучше понимать, что вы имеете в виду или что вам нравится.
Пока обе версии (Turbo и Relax) выкатили в альфа-тестирование и обещают обновлять еще несколько раз в течение последующих недель.
www.midjourney.com/updates/v7-alpha
OpenAI сделали подписку Plus на ChatGPT бесплатной для всех американских и канадских студентов просто потому что у них скоро экзамены
С этого дня и до конца мая студентам будет предоставлен полноценный доступ ко всем фичам Plus (вообще тариф стоит 20$). Все что нужно – подать заявку и подтвердить место учебы. И все, можно два месяца бесплатно "готовиться к экзаменам".
То чувство, когда тебе в университете выдавали максимум пропуск в библиотеку 🚬
17 апреля в Москве пройдет Дата Саммит «Пульс данных» 2025
📍 Место: LOFT №2 и LOFT №3 (10 минут от м. Автозаводская)
📡 Формат: Офлайн + онлайн-трансляция
Это ключевое событие весны для аналитиков, руководителей бизнес-подразделений, CDO, CDTO, CIO и вообще всех, кто строит бизнес на основе данных.
Почему это стоит того:
· Более 15 часов полезного контента, актуальных знаний и практик.
· Нетворкинг с 400+ участниками офлайн и 2000+ онлайн.
· 5 панельных и 1 пленарная дискуссии под модерацией главного редактора TAdviser Александра Левашова.
· 30+ выступлений от крупнейших компаний, включая Сбер, Газпром нефть, ВТБ, РЖД, Росатом и др.
· Эксклюзивный анонс новой высокопроизводительной платформы и решения класса Data Lakehouse.
Спикеры — ведущие эксперты в цифровой трансформации и ИИ, топ-менеджеры крупнейших корпораций.
Не упустите возможность стать частью события, которое формирует будущее управления данными.
Зарегистрируйтесь прямо сейчас по ссылке https://data-summit.ru/ и ощутите пульс данных вместе с командой DIS Group.
Реклама. ООО "ДАТА ИНТЕГРЕЙШН СОФТВЕР", ИНН: 7713555858, erid: 2VtzqvXsnjb
Очень показательный пример того, что могут MCP протоколы: разработчики audio моделек ElevenLabs сделали свой MCP и теперь любой ваш агент (например, Claude) может использовать все возможности их сеток.
Например, чтобы куда-то позвонить, создать аудиокнигу тем голосом, который вы захотите или сделать конспект лекции. Юзкейсов море, при этом усилий на разработку потрачено минимум.
Обучение моделей требует больше электричества, чем кажется
Домашние GPU съедают до 700 ватт. Это примерно как 4 холодильника. При этом видеокарты еще и нагреваются – иногда температура может дойти до 85°C.
С Intelion Cloud можно не переживать о непредвиденных расходах: их серверы с жидкостным охлаждением, так что работать будут даже на пиковых нагрузках, а на счета за электричество никак не повлияют.
Вы обучаете модели – Intelion Cloud экономит вам ватты и берет на себя весь мониторинг ➡️ выбирайте сервер здесь.
🎁 P.S. Промокод на скидку: TGTOP15
Там VSCode только что раскатили свой Agent Mode на всех пользователей
Теперь любому юзеру IDE доступен бесплатный Cursor (но не курсор). Внутри автономное редактирование кода, исправление багов в цикле, полноценный контекст всей кодовой базы и прикрученные MCP и расширения VSCode.
Как подключить:
1. Обновить VSCode
2. Открыть VSCode и перейти в режим Chat (кнопка справа)
3. Залогиниться через GitHub
4. Устновить chat.agent.enabled в настройках
5. Выбрать "Agent" в выпадающем списке в чате
Подробности тут
О, Google раскатили Gemini Live на пользователей приложения на Android
Это, фактически, шеринг экрана и видео с камеры с Gemini. Ассистент сможет анализировать происходящее в смартформе или вокруг и отвечать на вопросы.
Например, можно использовать модель как навигатор или читать с ним статьи прямо с телефона.
Любители iPhone, вам ждать еще лет 5.
MTS AI представляет Kodify 2 — нового ИИ-ассистента для разработчиков
Этот мощный инструмент поддерживает 90 языков программирования и предлагает богатый функционал для автоматизации разработки: автодополнение кода, исправление ошибок, генерацию тестов и документации.
Что нового в Kodify 2?
- 7 миллиардов параметров для более точных рекомендаций
- Поддержка контекста до 32 тысяч токенов
- OpenAI-совместимый API для легкой интеграции с другими системами
Кстати, в МТС с помощью ИИ-помощников, включая Kodify 2, уже создается до 15% кода.
В Оксфорде предложили метод обучения нейросетей без обратного распространения ошибки
Back-propagation – это канонический подход для обучения сетей, который используют всегда и везде. Суть его в том, что мы сначала «прогоняем» входные данные вперёд по сети (forward pass), вычисляем ошибку, а затем прогоняем сигнал ошибки назад (backward pass), чтобы вычислить градиенты и обновить веса.
Это работает хорошо, но есть несколько НО. Во-первых, высокое потребление памяти. Во-вторых, последовательная природа вычислений, из-за которых обучение сложно параллелить.
Что предлагают в статье:
➖ Общая концепция – «слой как денойзер». Это похоже на диффузионки. Каждый слой сети рассматривается как отдельный блок, который должен расшумлять некоторую шумную версию целевого выходного значения.
➖ На примере классификации изображений: на этапе обучения t мы берем нашу метку класса, зашумляем ее, передаем в слой и просим предсказать исходную чистую метку.
➖ Получается, что обучение каждого слоя происходит независимо от других слоёв. Нет общей цепочки прямого/обратного прохода.
Во время инференса исходные данные играют роль исходного шума и последовательно проходят по всем слоям, которые постепенно расшумляют информацию в сторону метки.
На MNIST подход выбивает точность около 99.5%. Это примерно столько же, сколько у классического backprop. На CIFAR-10 и CIFAR-100 результаты также очень близки. При этом памяти используется почти вдвое меньше.
Сложно, неинтуитивно, но интересно
arxiv.org/abs/2503.24322 (аккуратно, внутри зубодробительная математика)
Тем временем по поводу новой Llama 4 положительного фидбэка от пользователей как-то не слышно
Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.
Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...
P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)
Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием
Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.
С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.
youtu.be/iyEFLKnNWAM
Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали
Про архитектуру:
➖ Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.
➖ В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.
➖ В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.
➖ Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.
➖ Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.
➖ Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.
➖ Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.
➖ Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)
➖ То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.
➖ Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.
➖ Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.
➖ Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.Читать полностью…
➖ В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.
➖ К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.
Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027
В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.
Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.
Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.
Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:
⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.
⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.
⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.
⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.
⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.
⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.
Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.
Что сказать. Сохраняйте, проверим через 3 года.
Свежая статья от DeepSeek: как точнее оценивать награды в RL
Обучение с подкреплением строится вокруг того, что помимо обучаемой модели (агента) у нас есть некоторая reward модель (RM) – она оценивает награду, которую должен получать агент за свои действия. На основе именно этих наград агент пересматривает политику, так что чем они точнее – тем быстрее сходится RL и тем лучше результаты.
Обычно RM либо скалярные (выплевывают всего одно число – оценку), либо парные (сравнивают два ответа и выбирают лучший). Оба подхода не масштабируемые, не очень гибкие и довольно однобокие.
В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга. То есть:
🟦 Модель получает на вход промпт и ответы агента (один или несколько), а на выход отдает подробный критический разбор каждого из них. Подход универсальный – так можно скорить и одиночные, и парные, и множественные ответы по любым нужным нам критериям без танцев с бубном.
🟦 RM также специально натаскали различать, какие ответы лучше других. Этому ее учили в два этапа. (1) Rejective Fine-Tuning – учимся отбрасывать совсем неподходящие ответы и генерировать верный формат ОС. (2) Rule-Based Online RL – дальнейший RL-тюнинг вида «угадай лучший ответ — будешь молодец, не угадаешь — штраф».
🟦 Ну и вишенка: такая RM может скейлиться на этапе инференса. То есть если k раз сэмплировать ее результаты и усреднять, то качество итоговой оценки растёт. С обычными ревард моделями такое вообще не работает, так что с практической точки зрения это ну очень полезный результат (рис 1).
На всех бенчмарках reward-моделей подход, естественно, показывает себя отлично и обгоняет даже популярные «LLM-as-a-Judge». Плюс демонтрирует меньшие перекосы (bias) и не переобучается на определенный тип задач.
Ксати саму ревард модель, которую обучили в лаборатории – DeepSeek-GRM – скоро пообещали опенсорснуть
arxiv.org/pdf/2504.02495
А конкуренция в ИИ все растет: Сбербанк сообщает, что в этом году у них на 35% больше заявок на ML-стажировку
Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.
Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.
Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.
Новое исследование от Anthropic: ризонинг модели на самом деле думают не то, что выдают за свои мысли
Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.
В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.
При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).
Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:
Результат предполагает, что вопреки надеждам мониторинг CoT в текущем виде вряд ли можно использовать для выявления опасного поведения моделей.
Model Context Protocol – незаменимый инструмент для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.
В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
1. Архитектуру Model Context Protocol.
2. Основные возможности стандарта.
3. Примеры реализации: от простых к сложным.
Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupdatasecrets
А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.
MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.
MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.
Регистрация открыта до 11 апреля включительно: https://cnrlink.com/itonecupmldatasecretsmcp