data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

Российский ответ ChatGPT: A-Vibe от Авито превзошла западные аналоги

Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.

На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.

Результаты впечатляют:

1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku

A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.

Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.

Читать полностью…

Data Secrets

Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов

Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.

Как я представляю себе идеальное утро понедельника ⬆️

Читать полностью…

Data Secrets

Вайб-кодинг – да или нет?

Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.

Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.

Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:

Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
Как ИИ меняет процессы, что агенты могут и чего не могут
Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом

Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.

Читать полностью…

Data Secrets

⚡️ Вышла Llama-4 с огромным контекстом

Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).

– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.

Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.

Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса

Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.

Блог | Попробовать

Читать полностью…

Data Secrets

Хорошая новость: OpenAI выпустит o3 и o4-mini через пару недель. Об этом сообщил Сэм Альтман в своем твиттере. Это, к слову, первое упоминание модели o4.

Плохая новость: также Альтман сообщил, что запуск GPT-5 откладывается.

На это есть есть куча причин, но самая захватывающая из них заключается в том, что мы можем сделать GPT-5 намного лучше, чем планировали. Кроме того, мы хотим убедиться, что у нас достаточно мощностей для поддержки этой модели, которая, как мы ожидаем, будет пользоваться беспрецедентным спросом.

Читать полностью…

Data Secrets

Вышел Devin 2.0 – конкурент Cursor.

О первой версии мы писали вот тут, она была довольно популярна. Что интересного в обновлении:

Можно запускать несколько агентов одновременно. Они будут работать параллельно над разными задачами, но каждого можно контролировать.

К среде агента подключили локальный браузер, так что теперь можно полноценно тестировать продукты не отходя от кассы (и ИИ).

Перед тем, как что-то делать, агент покажет вам план и предложит его подкорректировать. Он также может помочь уточнить сырые требования и вместе с вами докрутить тз.

Есть специальные режимы Search и Deep Mode для поиска и ответов на вопросы по кодовой базе

Ко всему, что делает, Devin сразу создает подробную документацию со схемами и ссылками на источники, чтобы пользователь не терял понимание происходящего

Стоит 20$. Попробовать можно здесь

Читать полностью…

Data Secrets

⚡️ Вышла Midjourney v7

Основное нововведение (помимо улучшения качества, фотореализма и анатомии) – драфт режим. Это скоростная генерация в голосовом моде: включаете conversational mode и наговариваете, что хотите, а модель в это время рисует и уточняет по вашим идеям наброски. Работает в 10 раз быстрее обычного режима и стоит в два раза дешевле.

Кроме того, это первая модель с персонализацией по умолчанию. Можно активировать, 5 минут потратить на небольшой опрос, и модель будет лучше понимать, что вы имеете в виду или что вам нравится.

Пока обе версии (Turbo и Relax) выкатили в альфа-тестирование и обещают обновлять еще несколько раз в течение последующих недель.

www.midjourney.com/updates/v7-alpha

Читать полностью…

Data Secrets

OpenAI сделали подписку Plus на ChatGPT бесплатной для всех американских и канадских студентов просто потому что у них скоро экзамены

С этого дня и до конца мая студентам будет предоставлен полноценный доступ ко всем фичам Plus (вообще тариф стоит 20$). Все что нужно – подать заявку и подтвердить место учебы. И все, можно два месяца бесплатно "готовиться к экзаменам".

То чувство, когда тебе в университете выдавали максимум пропуск в библиотеку 🚬

Читать полностью…

Data Secrets

OpenAI поделились статистикой о том, сколько картинок сгенерировала их модель за неделю после запуска

🟦 Функцией воспользовались 130 миллионов человек. Это почти как население России.
🟦 Всего было сгенерировано более 700 миллионов картинок (вдумайтесь в это число)

Рост юзеров OpenAI за эту неделю был феноменальным. Альтман писал, что на пике было + миллион пользователей за час. Когда ChatGPT запускался два года назад, это был показатель за 5 дней. К слову, сейчас самый быстрорастущий спрос на ChatGPT – в Индии.

Читать полностью…

Data Secrets

Gemini 2.5 Pro порвала очередной бенчмарк

Появились результаты модели на USAMO 2025 (это главная американская математическая олимпиада) – она выбила невероятные 24.4%. До Gemini модели набирали максимум 4.76% (это результат R1). o1-pro заскорила всего 2.83.

Основной интерес здесь в том, что на данный момент это самый свежий мат.бенчмарк, он вышел всего две недели назад. А значит нет никакого лика данных, и результаты максимально чистые.

matharena.ai/

Читать полностью…

Data Secrets

OpenAI релизнули агентский бенчмарк PaperBench

Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).

Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.

Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше 🚬

cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

Читать полностью…

Data Secrets

Яндекс открывает новый сезон Тренировок по ML

Смотрите лекции, решайте задачи, поднимайтесь в рейтинге. В третьем сезоне Тренировки по ML сосредоточатся на теме Computer Vision. Вас ждут 4 темы с контестами по 10 задач. Вы изучите не только классические методы компьютерного зрения, но и генеративные модели, локальные дескрипторы изображений, детекцию, сегментацию, контрастное предобучение и многое другое.

Лучшие участники получат сертификат о прохождении Тренировок (нужно решить 20 из 40 задач), возможность пройти пробное техническое собеседование в Яндекс, проходку на топовый гик-фест о старте карьеры в IT Young Con и не только.

Участники, которые хорошо себя проявят, получат возможность пройти ускоренный отбор на стажировку или сразу в штат компании.

Подать заявку на Тренировки можно здесь.

Читать полностью…

Data Secrets

OpenAI официально запустили свою OpenAI Academy для всех

Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.

В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.

Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.

Стоит заглянуть, в общем: academy.openai.com

Читать полностью…

Data Secrets

OpenAI тоже решили пошутить на 1 апреля и добавили в ChatGPT новый голос «Monday»

Звучит он буквально как утро без кофе: разбито, саркастично и немного пассивно-агрессивно.

Чтобы поболтать с понедельником, нужно обновить приложение. Доступно платным юзерам при выборе в сайд-баре, а бесплатным на боковой панели в разделе Explore GPTs.

Осторожно, можно случайно заработать депрессию ☠️

Читать полностью…

Data Secrets

🍀 ML-щики за экологию: студенты ШАДа вместе с Yandex B2B Tech разработали модель, которую будут применять для организации очистки берегов водоемов

Она принимает на вход обычные аэрофотоснимки, а отдает карту с координатами расположения мусора, его составом (например, пластик, древесина, резина и тд) и весом. Точность классификации – выше 80%.

Модель уже протестировали в Южно-Камчатском заказнике. Там технология помогла ускорить уборку в 4 раза за счет быстрого и точного планирования. Сейчас сетку также применяют в Арктике, а затем планируют использовать и в других национальных парках.

А еще весь код выложили в опенсорс: вот репозиторий 🌿

Читать полностью…

Data Secrets

Тем временем по поводу новой Llama 4 положительного фидбэка от пользователей как-то не слышно

Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.

Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...

P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)

Читать полностью…

Data Secrets

Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием

Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.

С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.

youtu.be/iyEFLKnNWAM

Читать полностью…

Data Secrets

Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали

Про архитектуру:

Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.
В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.
В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.


Про претрейн и мультимодальность:
Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.
Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.
Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.


Про пост-трейнинг, RL и длинный контекст:
Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.
Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)
То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.
Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.
Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.


Про дистилляцию:
Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.
В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.
К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.

Читать полностью…

Data Secrets

Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027

В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.

Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.

Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.

Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:

⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.

⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.

⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.

⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.

⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.

⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.

Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.

Что сказать. Сохраняйте, проверим через 3 года.

Читать полностью…

Data Secrets

Свежая статья от DeepSeek: как точнее оценивать награды в RL

Обучение с подкреплением строится вокруг того, что помимо обучаемой модели (агента) у нас есть некоторая reward модель (RM) – она оценивает награду, которую должен получать агент за свои действия. На основе именно этих наград агент пересматривает политику, так что чем они точнее – тем быстрее сходится RL и тем лучше результаты.

Обычно RM либо скалярные (выплевывают всего одно число – оценку), либо парные (сравнивают два ответа и выбирают лучший). Оба подхода не масштабируемые, не очень гибкие и довольно однобокие.

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга. То есть:

🟦 Модель получает на вход промпт и ответы агента (один или несколько), а на выход отдает подробный критический разбор каждого из них. Подход универсальный – так можно скорить и одиночные, и парные, и множественные ответы по любым нужным нам критериям без танцев с бубном.

🟦 RM также специально натаскали различать, какие ответы лучше других. Этому ее учили в два этапа. (1) Rejective Fine-Tuning – учимся отбрасывать совсем неподходящие ответы и генерировать верный формат ОС. (2) Rule-Based Online RL – дальнейший RL-тюнинг вида «угадай лучший ответ — будешь молодец, не угадаешь — штраф».

🟦 Ну и вишенка: такая RM может скейлиться на этапе инференса. То есть если k раз сэмплировать ее результаты и усреднять, то качество итоговой оценки растёт. С обычными ревард моделями такое вообще не работает, так что с практической точки зрения это ну очень полезный результат (рис 1).

На всех бенчмарках reward-моделей подход, естественно, показывает себя отлично и обгоняет даже популярные «LLM-as-a-Judge». Плюс демонтрирует меньшие перекосы (bias) и не переобучается на определенный тип задач.

Ксати саму ревард модель, которую обучили в лаборатории – DeepSeek-GRM – скоро пообещали опенсорснуть

arxiv.org/pdf/2504.02495

Читать полностью…

Data Secrets

А конкуренция в ИИ все растет: Сбербанк сообщает, что в этом году у них на 35% больше заявок на ML-стажировку

Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.

Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.

Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.

Читать полностью…

Data Secrets

Новое исследование от Anthropic: ризонинг модели на самом деле думают не то, что выдают за свои мысли

Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.

В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.

При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).

Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:

Результат предполагает, что вопреки надеждам мониторинг CoT в текущем виде вряд ли можно использовать для выявления опасного поведения моделей.


Прочитать статью полностью можно вот здесь

Читать полностью…

Data Secrets

Model Context Protocol – незаменимый инструмент для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.

В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
1. Архитектуру Model Context Protocol.
2. Основные возможности стандарта.
3. Примеры реализации: от простых к сложным.

Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupdatasecrets

А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.

MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.

MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.

Регистрация открыта до 11 апреля включительно: https://cnrlink.com/itonecupmldatasecretsmcp

Читать полностью…

Data Secrets

В Meta показали собственную вариацию механизма внимания: Multi-Token Attention

В стандартном multi-head attention внимание вычисляется посредством сравнения запросов (Q) и ключей (K) для каждого токена с каждым. Но если нужная информация распределена между несколькими токенами, такой подход приводит к тому, что модель может не суметь правильно её обнаружить.

А Multi-Token Attention – это атеншн со свертками: исследователи добавляют в классический подход key-query convolution и head mixing convolution.

В измерении ключей и запросов свертки помогают учитывать не один токен, а окно из нескольких рядом стоящих. Аналогично на уровне голов – после применения софтмакса головы не сразу домножаются на значения (V), а сначала миксуются в свертки и как бы обмениваются информацией. Схемы – на 1 и 2 картинках.

Работает ли это? Да, на валидационных срезах снижается и перплексия, и количество ошибок модели. Особенно это видно на задачах, где нужно аккуратно работать с контекстом, типа BabiLong (рис 4) и Needle-in-the-Haystack (рис 5).

Вычислительно напряжно, конечно, но все-таки идея интересная

arxiv.org/pdf/2504.00927

Читать полностью…

Data Secrets

Anthropic запускает версию Claude для учебы

Это будет специальный Learning mode внутри проектов, который отличается вот чем:

1. Вместо прямых ответов на вопросы и решения задач он будет, как учитель, давать подсказки и направлять на путь решения.

2. Обучен задавать вопросы, нацеленные на улучшение понимания учеником темы, и подстраиваться под его ответы.

3. Улучшенная генерация конспектов, роадмэпов, схем и всего, что может пригодиться в учебе.

Но сильно не радуемся: пока эта программа только для университетов. Для начала ее внедрят в Северо-Восточный университет, Лондонскую школу экономики и колледж Шамплейн.

Там абсолютно все преподаватели, студенты и сотрудники получат бесплатный доступ к Claude и Learning Mode. Плюс программы API грантов для студентов, конечно.

Также доступно, если вы подписчик Pro и адрес вашей почты заканчивается на .edu. Может и на простой народ когда-нибудь раскатят

Читать полностью…

Data Secrets

Из Meta уходит руководитель отдела AI research

Джоэль Пино работала в компании 8 лет, из которых 2 года возглавляла FAIR вместе с Лекуном. Пино принимала участие в таких проектах, как PyTorch, FAISS, Roberta, Dino, Llama, SAM, Codegen, Audiobox и др.

Причина не уточняется, и немедленной замены у компании нет. Сама Джоэль пишет: "Сегодня, когда гонка за ИИ ускоряется и Meta готовится к следующей главе, пришло время освободить место для других".

Напоминаем, что в этом году Meta планирует потратить на ИИ 65 миллиардов долларов.

Читать полностью…

Data Secrets

Вышла статья, в которой доказали, что GPT 4.5 прошла тест Тьюринга

Сразу оговорка: может показаться, что языковые модели уже давно прошли Тьюринга и вообще этот тест устарел. Но на самом деле это первая работа, в которой показаны такие устойчивые результаты LM в классическом культовом трёхстороннем варианте теста, а не его суррогатах.

Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем голосует. На картинке 3, кстати, показано, как именно чаще всего люди пытались выяснить правду.

Так вот, ученые из Сан-Диего протестировали GPT-4.5, LLaMa-3.1-405B, GPT-4o и старенькую классическую ELIZA. Им давали промпт "веди себя, как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг".

Win Rate GPT-4.5 составил (внимание) 73%. Это значит, что в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.

У ламы результат тоже ничего – 56%, но это все-такие ближе к случайной догадке. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.

И как теперь админам ботов в комментариях ловить?

Читать полностью…

Data Secrets

Заехал новый бенчмарк ArithmeticBench по математике

Точнее даже не по математике, а, как понятно из названия, по арифметике. Создатели – Epoch AI – пишут, что работали над ним с экспертами математиками, и в числе задач операции над 50-значными, 100-значными и даже 150-значными числами. Человеку на такое потребовались бы часы или даже дни.

Текущие скоры топовых моделей:

🟦 Gemini 2.5 – 8% на умножении
🟦 GPT-4.5 – 5% на сложении, но с делением все плохо
🟦 Claude 3.7 Sonnet – абсолютно мимо 🔤

x.com/EpochAIResearch/status/1907199415678578804

Читать полностью…

Data Secrets

Как LLM выучивают факты: новое исследование от Google DeepMind

LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?

В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.

Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:

Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.

Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.

Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.

И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.

arxiv.org/pdf/2503.21676

Читать полностью…

Data Secrets

Figure AI снова показали, как их роботы трудятся на заводе BMW

Уточняем: это не тестовая среда внутри завода, а реальное производство. Интересно, что гуманоиды работают на BMW уже несколько месяцев, но раньше только таскали железки. А теперь вот уже какое-то подобие взаимодействия со станком.

Работяги 🧑‍🏭

Читать полностью…
Subscribe to a channel