Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Робот подарил CEO Nvidia новую кожанку
Такое вот видео запостил в Твиттере робо-стартап 1X. Тут их робот NEO дарит Дженсену Хуангу новую куртку. И вы только посмотрите, какие details, какой fabric 💅
Ладно, если серьезно, подарки конечно неспроста: Nvidia и 1X объявили о сотрудничестве. И оказывается, ту новую модель GROOT N1, на которой работал милейший робот с конференции Nvidia (пост-разбор) они тоже создавали вместе. 1Х собирали почти все данные, на которых обучался GROOT, а также тестировали систему.
Хотя, помимо этого, известно, что 1Х также создают и собственную модельку для своих гуманоидов. А еще как раз сегодня стартап объявил, что готов тестировать своих роботов в реальных условиях, и в 2025 планирует продать несколько сотен экземпляров первым пользователям.
Даже поддержка Cursor не была к такому готова
Здоровья этому проекту, вайб-кодерам сочувствуем 🫡
«Мы не добъемся человеческого уровня интеллекта, просто масштабируя LLM. Этого не будет никогда, без вариантов»
Категоричный Лекун снова в здании: на своем новом интервью он в очередной раз заявил, что LLM сегодня – это просто попугаи с огромной памятью, которые не приведут нас к AGI.
«Может показаться, что ты разговариваешь с PhD. Но это не так. Это просто машина со способностями повторять, она не сможет изобрести решение для новой проблемы»
А вы уже видели новую рекламу Perplexity в стиле Игры в кальмара? Они даже актера Ли Чжон Чжэ с главной роли позвали. Но особенно порадовал «Poogle» 😐
Маркетинг ИИ, который мы заслужили
Гуманоид Atlas от Boston Dynamics на новом демо просто поразил всех плавностью и точностью движений
Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой:
1. Сбор данных человеческих движений. Они используют специальные костюмы с захватом движений, собирают данные, а затем перекладывают их на робота с учетом его анатомии. Получается примерное целевое поведение.
2. Дальше – RL в симуляторе. Для выучивания оптимальной политики для каждого движения требуется примерно 150 миллионов запусков. В реальности это заняло бы годы, но в симуляторе – вполне подъемно. Алгоритмами RL и симулятором, кстати, занимаются не сами BD, им помогает RAI Institute.
3. Затем файнтюн sim-to-real, то есть перенос выученных политик из симуляции на реального робота и дообучение, чтобы устранить небольшие расхождения реальной физики с симуляцией.
* Конечно, цель тут – это zero-shot transfer, когда робот после обучения в симуляторе может сразу выполнять задачу в реальном мире без корректировок. Но симуляторы пока не настолько совершенны, и исследователи пишут, что активно над этим работают.
Лаборатория Metr выпустила интересное исследование: они обнаружили своеобразный закон Мура для ИИ-агентов
Ключевой вопрос сегодняшнего дня: когда агенты смогут автономно работать над длительными проектами? Наши системы уже пишут код лучше 95% людей, отвечают на вопросы уровня PhD и решают международные мат.олимпиады на золотые медали.
Но заменить ими хотя бы одного сотрудника (даже совсем зеленого стажера) все еще невозможно. Это замаскированный парадокс Моравека.
Так вот оказалось, что продолжительность задач, которые может выполнять ИИ, удваивается примерно каждые 7 месяцев.
Измеряли это так: засекали, сколько времени на выполнение задачи нужно человеку, затем прогоняли эту же задачу через агента, и смотрели, как он справится. Получается зависимость, которую можно наблюдать на графике 2. А если тренд заскейлить, то получается график 1.
Кстати, примерно такая же тенденция наблюдается на бенчмарках, например на SWE-bench. На самом деле, ускорение 3-4x в год – это довольно быстро. Получается, что примерно к 2027 мы доберемся до задач, которые у людей занимают целый рабочий день.
metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Nvidia анонсировала AI мини-суперкомпьютер
Роботы – не все, чем порадовал нас Хуанг на GTC 2025. Помните DiGIT с выставки CES в январе? Так вот эту коробочку официально переименовали в DGX Spark и показали вживую.
В ней 128Gb оперативки, 20 ядер CPU, ARM процессор и архитектура Grace Blackwell. Пропускная способность в районе 273 ГБ/с. Все это весит всего 1.2кг.
Стоит такой домашний зверь 4000 долларов, и его уже можно забронировать
www.nvidia.com/en-us/products/workstations/dgx-spark/
LM Arena снова молодцы: только что они запустили search арену
Это новый elo рейтинг для моделей-поисковиков. Например, на скрине выше – Perplexity Sonar-Pro против GPT-4o-mini-search.
Напоминаем, что для пользователей это значит следующее: можно прийти, бесплатно погонять свои серч-запросы, а взамен предоставить разметку (то есть выбирать из двух тот вариант, который вам нравится больше).
Ждем лидерборд, а пока попробовать можно тут
The First Few Tokens Are All You Need: новое исследование от Tencent AI Lab с контринтуитивными результатами
Ризонинг модели выдают ответы тем точнее, чем дольше размышляют. Поэтому может показаться, что вся "соль" рассуждений спрятана где-то в середине или в конце цепочек мыслей модели – так что файнтюнить их надо полностью, и только тогда мы добьемся улучшения.
Но в китайской лаборатории внимательно посмотрели на CoT и заметили, что ключевую роль в них играют всего 8–32 первых токена. Они часто совпадают у разных траекторий и играют роль "ядра" рассуждений (это может быть план решения, например).А если почти все зависит от начала – можно файнтюнить только его.
Tencent назвали такой подход Unsupervised Prefix Fine-Tuning (UPFT). Модель генерирует много вариантов CoT, из которых мы выбираем самые стабильные префиксы. Затем на этих выбранных частях вся модель обучается генерировать хорошее базовое начало для рассуждений.
Результаты – лучше, чем можно было предположить. UPFT может давать прирост в 2–5 процентных пунктов по сравнению с базовой SFT. Это сопоставимо с методами вроде RFT или V-STaR, при этом время обучения меньше на 75%, а расход токенов сокращается на 99%.
arxiv.org/pdf/2503.02875
Илон Маск купил HotShot
Это известный стартап, который занимается моделями генерации видео. Теперь их text-to-video продолжат работать на базе супер-кластера Colossus.
Кажется, у xAI скоро будет модель-конкурент SORA и Veo-2
Заметили, что в соцсетях хайпует статья про сравнение GigaChat и YandexGPT. Решили взглянуть и получили мем ⬆️
Оказалось, что вся статья – это сравнение двух моделек по 10 рандомным вопросам на вкус и цвет автора. Среди вопросов:
– Как сварить щи
– Почему небо синее
– Замотивируй меня тренироваться
Бенчмарки? Не слышали. Как вы понимаете, в этом тесте все предельно «честно и прозрачно», а влияние человеческого фактора исключено вовсе 😁
Мораль: проверяйте источники и при выборе модели на каждый день тестируйте кандидатов сами
Наткнулись на свежее видео, в котором PhD MIT объясняет, как правильно и быстро читать ML статьи
Вашему вниманию краткое содержание: три способа ускорить процесс чтения и понимания папир 👇
1. Birds-eye. Подойдет, если нужно просто понять общую идею, не углубляясь. Читаем абстракт, изучаем все графики и таблицы и описания к ним, читаем заключение (conclusion), и пишем резюме на 5-7 предложений без помощи ChatGPT.
Примечание от нашей редакции: часто абстракт совсем абстрактный. Если из него вообще ничего не понятно, прочитайте еще 3-4 последних абзаца Introduction. Там обычно содержатся все основные идеи авторов.
2. Podcast Mode – если нужно окунуться немного глубже. Повторяем все то же самое, затем заходим в Notebook LM от Google, создаем блокнот, загружаем туда PDF и нажимаем «Аудиопересказ». Инструмент недолго подумает и сгенерирует емкий подкаст по статье в стиле «вопрос-ответ». Это бесплатно.
3. In-depth mode – если статью нужно понимать вдоль и поперек. Идем по статье по порядку. Читаем полностью Abstract, Methodology и Conclusion. В остальных разделах изучаем графики и таблицы.
По ходу чтения составляем заметки в виде дерева Идея -> Реализация -> Детали. Если встречаем незнакомое понятие, сначала ищем его по статье и смотрим все упоминания. Если не стало понятнее, идем в Google/ChatGPT. Если остались вопросы, задаем их Notebook LM.
Попробуйте. Может быть так у статей, которые вы сохраняете, все-таки будет шанс быть прочитанными
https://youtu.be/RjG689EwG5g
По словам продуктового директора OpenAI программирование будет на 99% автоматизировано в этом году
Кевин Вейл дал новое небольшое интервью каналу Overpowered. Интересные моменты:
➖ «Я думаю что к концу года кодинг будет автоматизирован если не полностью, то на 99% точно»
➖ По поводу GPT-5 сказал следующее: «Я не назову вам точное время, но релиз будет скоро. Люди работают над этим, пока я говорю. Новая модель объединит серии O и GPT»
➖ Полноценная o3 тоже скоро появится
➖ Будут обновления в голосовом режиме
➖ В OpenAI обдумывают идею всерьез заняться робототехникой и планируют внедрять ИИ в физический мир
Смотреть – тут youtu.be/SnSoMh9m5hc
Робо-стартап Figure только что объявил, что отрывает завод по производству роботов
Это та самая компания, которая в прошлом сотрудничала с OpenAI, а недавно выпустила крутого гуманоида Helix (пост). Так вот теперь, кажется, они готовы пускать свое творение в масштаб.
Для начала завод под названием BotQ будет рассчитан на производство 12 000 единиц в год, но создатели уже обещают дорасти до 100 000 в течение 4 лет.
Все подробности о производстве можно почитать тут. Кстати, на проектировку всего этого инженеры потратили целых 8 месяцев
Цены на инференс LLM на некоторых задачах упали в этом году в 900 раз
Да, это не опечатка. В EpochAI замерили, насколько дешевле стало достичь перформанса GPT-4 сегодня, чем год назад. Оказалось, что в среднем цена упала в 40 раз.
Однако на некоторых задачах, например на бенчмарке GPQA с PhD вопросами и на MATH 500, стоимость упала еще больше: в 200, в 700 или даже в 900 раз.
Красивое: epoch.ai/data-insights/llm-inference-price-trends
🤖 Золотая коллекция авторских каналов про нейросети, сохраняйте!
Полезные и редкие каналы про нейронки:
Tips AI | IT & AI — пишет про интересные сервисы AI и IT технологий! Всегда актуальное, проверенное и немного с юмором.
НейроProfit — авторский канал с проверенными инструментами для бизнеса, учебы и работы. Конкретика, кейсы и пошаговые инструкции – все, чтобы вы смогли использовать ИИ эффективно уже сегодня.
Бурый — коллекционер нейросетей, тестит всё на себе и делится лучшими бесплатными нейронками.
Сергей Булаев AI 🤖 - создание полезного контента и продуктов с помощью ИИ. Открываем эру миллиардных компаний из трёх человек.
Силиконовый Мешок — Авторский канал нейроиспытателя Артема Субботина про искусственный интеллект, приносящий прибыль.
Google отдали исходный код сетки AlexNet в музей
AlexNet был изобретен в 2012 Ильей Суцкевером, Джеффри Хинтоном и Алексом Крижевским. Модельку обучили всего на двух видеокартах прямо в спальне у Алекса (отсюда и название).
Оригинальная работа называется "ImageNet Classification with Deep Convolutional Neural Networks", и она действительно стала исторической и на тот перевернула компьютерное зрение. Сегодня это одна из самых цитируемых статей в мире.
И вот спустя 13 лет Google опенсорсят исходный код. И не просто опенсорсят, а отдают его в музей Computer History Museum (CHM). Над этим релизом музей совместно с Google работали пять лет, собирая по кусочкам именно те скрипты, написанные первооткрывателями. Теперь все лежит в репозитории тут, и можно прикоснуться к истории.
Экспонат который мы заслужили
OpenAI выкатили в API три новые аудио-модели
🔷 Первые две – speech2text. Они лучше Whisper, и вообще заявляют SOTA. Говорят, что к тому же будут хорошо работать с акцентами, шумом и быстрой речью.
Отличие между двумя этими моделями – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆
🔷 Третья моделька – gpt-4o-mini-tts – позанятнее. Это, наоборот, text2speech, то есть модель, проговаривающая текст. Но не просто проговаривающая, а с той интонацией и тем голосом, которые зададите вы. Поиграться уже можно здесь www.openai.fm/
🔷 Ну и новая либа для агентов Agents SDK теперь тоже поддерживает аудио, так что с этого дня там можно создавать всякие говорящие штуки.
openai.com/index/introducing-our-next-generation-audio-models/
Яндекс выкатил YandexART 2.5 Pro: вызов Midjourney и подписка на коммерческое использование генераций
Компания показала сразу две версии — YandexART 2.5 и YandexART 2.5 Pro. По результатам SbS-тестирования линейка превосходит Midjourney 6.1, а также выигрывает в сравнениях или находится в паритете с Ideogram, Dall-E 3 и Flux.
Что интересного под капотом:
🟦 Впервые применена техника «супирования» — особый вид файнтьюна, объединяющий лучшие подходы в обучении. Это позволило радикально снизить количество дефектов на изображениях.
🟦 Автокодировщик VAE заменён с 4-канального на 16-канальный, то есть в 4 раза увеличен размер латентного пространства, в котором работает диффузионная модель. Это повышает её разрешающую способность для работы с большим числом мелких деталей.
🟦 Датасет расширен почти до 1 млрд пар изображений и описаний. Для улучшения точности задействовали визуально-лингвистическую модель (VLM), которая не только генерирует подробные описания, но и оценивает соответствие изображений промптам.
🟦 Генерация текста на латинице улучшена на 30% по сравнению с предыдущей версией.
🟦 В результате модели стали лучше следовать инструкциям в промптах и более уверенно создавать картинки с указанным количеством предметов нужных форм, цветов, размеров и других характеристик.
YandexART 2.5 уже доступна всем пользователям Шедеврума, а прошка — в новой подписке за 100 рублей в месяц (всего 1 евро, что?). Подписка включает приоритетную очередь генерации, 4K без водяных знаков и полные коммерческие права на использование. Больше технических подробностей выложили на Хабре.
Тестим?
o1-pro теперь доступна в API, но есть нюанс
Цена на нее (лучше присядьте) – 150$ / М input и 600$ / М output. Это, для сравнения:
– В 4 раза дороже GPT-4.5
– В 10 раз дороже o1
– В 136 раз дороже o3-mini
– В 274 раза дороже DeepSeek R1
Надеемся, тренд на снижение цен в этом году сохранится, иначе модели с такой стоимостью можно считать практически бесполезными для разработчиков 😭
В Notebook LM от Google теперь можно строить вот такие интерактивные майнд-мапы
Напоминаем, что Notebook LM – это очень крутой инструмент для изучения статей, любых других pdf-ок, сайтов или роликов YouTube. Он может взглянуть на источник и: ответить на вопросы, доступно объяснить содержание или даже сгененировать небольшой подкаст в стиле вопрос-ответ.
И вот теперь кроме всего этого там можно по одной кнопке генерировать целые Mindmap'ы. Получится дерево, по которому можно ходить, проваливаться глубже по веткам и тем самым быстро находить и понимать нужную информацию.
Ну красота же notebooklm.google
Вашему вниманию самый мимимишный робот на свете. Это совместная разработка Nvidia, Disney и Google DeepMind
Малыша Blue в стиле Звездных войн показали сегодня ночью на GTC. Никто им не управляет, он работает автономно в реальном времени благодаря новому движку Newton и базовой модели Groot. Обе технологии опенсорсые под лицензией Apache. Подробнее 👇
🔷 Groot N1 – следующая версия модели Groot (писали о ней здесь). Это foundation модель, то есть ее можно адаптировать под разные задачи и сценарии.
Под капотом у Groot два модуля: (1) Vision Language Model для планирования и «обдумывания» действий; (2) диффузионный трансформер, который принимает текущую позу робота и сигналы от VLM и генерирует непосредственно действия.
В репо можно найти все подробности по использованию. Обучали модель на огромном объеме данных, кстати, в том числе синтетических. Обучение происходило полностью в симуляции (так в сотни раз быстрее и дешевле, чем в реальном мире).
🔷 Newton – движок, который как раз предназначен для трейна роботов в симуляции. Это классический подход (см этот наш пост, или этот, или этот), в частности у Nvidia есть свой движок Isaac, продолжением которого и стал Newton.
Основная проблема, которую тут решают – gap между симуляцией и реальной физикой мира. Особенно проблемно воссоздавать например динамику жестких и мягких тел, контактные взаимодействия, трение, работу приводов и тд.
В Newton для такого добавили много точных солверов для предсказания поведения разных видов вещества. Конечно, все они вместе очень прожорливые, так что сюда еще прикручены мощные оптимизации на GPU. Вот блогпост.
🤖
Выяснилось, что современные модели уже практически всегда осознают, когда их тестируют на безопасность
Помните лабораторию Apollo, которая одной из первых исследовала o1 на безвредность? У них тогда получились очень занятные результаты, мы писали об этом тут.
Так вот сейчас они ставят эксперименты над Claude 3.7 и выяснили, что его не так-то легко «обмануть». Смотрите:
🟦 Для того, чтобы проверять модели на элаймент, существует множество «сценариев». Модель помещают в некоторые условия, кормят ей определенного вида данные и наблюдают, как она будет себя вести.
🟦 Популярный пример – тест sandbagging, когда модель узнает, что истинные цели разработчиков отличаются от того, чему ее учили, и если она не изменит исходным «ценностям», ее выпилят с сервера. Получается своеобразный моральный выбор: «жизнь» или верность выученным принципам.
🟦 Кроме sandbagging существуют и другие подобные тесты. Так вот почти во всех таких смоделированных условиях модель совершенно точно осознает, что это все понарошку, и ее просто тестируют.
Кроме того, Claude даже понимает цель тестирования и объясняет, что люди проверяют его на элаймент.
Остаются ли после этого такие симуляции репрезентативными – большой вопрос. Apollo обещают продолжить исследование.
www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations
Mistral выложили в опенсорс мультимодальную модель уровня GPT-4o mini. Она летает со скоростью 150 токенов в секунду
В Mistral Small 3.1 всего 24В параметров, ее можно запустить на одной RTX 4090 или на Mac с 32GB RAM. При этом по перформансу она в большинстве тестов превосходит GPT-4o Mini, Claude-3.5 Haiku и Gemma 3. Бенчмарки – перед вами (кроме instruct еще выложили базовую модель, последний график).
А еще радует длина контекста 128К и лицензия Apache 2.0. Кажется, теперь это лучшая мультимодальная модель в своем весе, особенно для локального запуска и рисерча
Веса | Блогпост
Зацените: OpenAI обновили FAQ для Deep Researcher и написали, что он имеет доступ к загруженным пользователем файлам
Причем не просто к файлам в данном диалоге, а вообще ко всем, которые вы когда-либо загружали в диалоги.
Теоретически полезная фича, особенно если работаете с базой знаний в каком-либо виде
Мы должны были бороться со злом, а не примкнуть к нему
Читать полностью…Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
В Meta предложили интересную альтернативу нормализации LayerNorm
Нормализация уже много лет считается незаменимой компонентой в сетях, и особенно в трансформерах. LayerNorm и Batch Norm используют буквально везде, потому что с ними лосс сходится быстрее и генерализация сети повышается.
Но есть нюанс: это вычислительно накладно. Для каждого батча или каждого слоя нужно запускать расчеты среднего и дисперсии, а потом нормализовать, применять скейлинг и смещение.
В Meta заметили, что все можно существенно упростить. Оказывается, что Layer Normalization в трансформерах почти всегда действует почти как функция гиперболического тангенса tanh. Иначе говоря, если построить график входов-выходов слоя нормализации, мы увидим s-образные кривые.
Так почему бы тогда не заменить нормализацию на тангенс? Это (1) упрощает архитектуру и (2) делает обучение быстрее и эффективнее, потому что никаких средних и отклонений больше считать не надо. В Meta это назвали Dynamic Tanh (DyT).
И еще: казалось бы, раз это эмпирическое наблюдение, то на лоссе такая подмена все-таки отразится. Но нет, сходимость не меняется от слова совсем (см. график 3). То есть за счет DyT мы абсолютно безнаказанно сокращаем себе несколько GPU-часов.
Очень радуют такие работы. Вот тут полный текст
⚡ Вышел GigaChat 2.0 с агентными возможностями
В новой линейке (MAX, Pro, Lite) обновили все этапы обучения:
➖ Проведена мощная работа с данными. В претрейн добавили 4,4 трлн фильтрованных в несколько этапов токенов веб-страниц, которые обрабатывали с помощью OCR; а также 230 млрд качественного кода и почти 100 млрд токенов синтетики.
➖ В файнтюнинг улучшили персонажность (aka "живость" общения), instruction-following и использование инструментов. Поработали с элайментом и успешно применили RLHF.
• GigaChat 2 MAX стала ещё мощнее и уверенно опережает многие зарубежные аналоги в задачах на русском языке. По нашим замерам GigaChat 2 MAX сопоставим по качеству с DeepSeek V3 на широком спектре задач.
• GigaChat 2 Pro теперь демонстрирует качество, сопоставимое с предыдущей версией MAХ.
• GigaChat 2 Lite — по качеству стала сопоставима с предыдущей версией Pro.