Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
🔵 Стрим OpenAI "Operator&Agents" начинается через 23 минуты
https://www.youtube.com/live/CSE77wAdDLg?si=aHuXTGeZCEtY2UgU
Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс
Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.
Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.
На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.
Статья здесь
Высок ли потенциал китайских LLM: новое исследование от EpochAI (надеемся, на этот раз не проспонсированное OpenAI)
Основное: исследователи насчитали, что мощности, выделяемые на обучение моделей, в Китае растут почти в два раза медленнее, чем у конкурентов с Запада и Европы. Если для глобала это 4.8x в год, то в Китае 2.9x (если считать с конца 2021).
Это не означает, что потенциала у Китая нет. Например, до 2021 – посмотрите на график – они уверенно давили педаль в пол, за счет чего и догнали мировую индустрию.
А сейчас разрыв опять растет. Конечно, флопсы – это только один из аспектов, и метрики последних моделей DeepSeek нам явно на это указывают, но все-таки недостаток мощности это риск. Например, уже сейчас Китаю бы потребовалось 2 года, чтобы достичь скейла глобального сегодняшнего топ-10. Неужели Gwern был прав?
Тем временем Perplexity наконец-то запускает API
Проект называется Sonar, о его запуске объявили вчера. Теперь серчинг в интернете на основе ИИ можно встраивать в приложения, то есть каждый может на коленке написать собственный ИИ-поисковик.
Есть два варианта использования: базовый и Sonar Pro (лучше подходит для сложных составных задач). Цены вполне ок: по 1 доллару за миллион инпут-аутпут токенов, для Pro $3/m input $15/m output.
🤩
How it started: 2015, маленькая некоммерческая организация
How it’s going: 2025, инвестиции в размере 2% ВВП США
⚡️ Итак, игра набирает обороты: Трамп анонсировал Stargate ака манхэттенский проект для ИИ
В предприятии участвуют OpenAI, Oracle, SoftBank (интересно, почему Маска на фан-встречу не позвали). Итоговая сумма начальных частных (!) инвестиций – $ 100 млрд, с возможным ростом до 500 в ближайшие 4 года (минимум).
Напоминаем, что все ИИ стартапы Европы в 2024 получили в сумме 13.7 млрд, последний раунд OpenAI был 10 млрд. Так что сумма в 100 млрд звучит просто как революция, цель которой, видимо – не оставить Китаю никаких шансов затмить США в гонке ИИ.
Теперь на место встает и недавний экономический план OpenAI, и осенние питчи Альтмана в Вашингтоне.
Акции Oracle уже улетели вверх, про Nvidia даже думать страшно.
Мы с вами наблюдаем начало чего-то большого
Там, кажется, Anthropic наконец-то скоро выйдет из спячки
CEO стартапа Дарио Амодеи дал интервью Wall Street Journal и пообещал, что в ближайшем будущем Anthropic подарит нам новые более умные модели, а также улучшенную память для Claude и голосовой режим.
Также прозвучали слова о том, что к 2026 стартап запустит кластер размером 1 млн GPU (ничего такого никогда ранее Anthropic не заявляли).
AGI, кстати, как и ранее, Амодеи прогнозирует к 2027.
Полностью интервью можно посмотреть здесь, длится всего 35 минут
Итак, как же DeepSeek обучили открытую модель уровня o1? Разбираем тех.отчет по полочкам:
🔷 Первое и самое интересное: сразу после претрейна – RL. Обычно за предобучением следует файнтюнинг вида <вопрос-ответ> на размеченных данных, но здесь сразу воткнули чистое обучение с подкреплением.
Базовая модель – DeepSeek-V3-Base. В качестве алгоритма RL традиционно для DeepSeek применяется GRPO, улучшенная версия PPO (очень подробно мы описывали этот алгоритм в нашей большой статье про DeepSeekMath). Отдельно поощряется формат, в котором модель помещает свои рассуждения внутри тегов <think> и </think>.
Уже на этом шаге после нескольких тысяч итераций точность на AIME скакнула с 15.6% до 71.0% (вау!). Итого, получается модель, обученная без разметки вообще – DeepSeek-R1-Zero.
🔷 Для DeepSeek-R1 процесс повторяется с небольшой разницей. Для R1-Zero мы использовали rule-based rewards, когда ответы проверяются только самой системой (например с помощью компилляторов), без внешних разметок. И хотя точность таким образом получается приличная, сами ответы читать сложно: в них смешиваются языки, нет форматирования и тд.
Поэтому в R1 в процесс обучения все-таки добавили разметку в виде готовых цепочек рассуждений. Данные брали из DeepSeek-R1-Zero и, видимо, o1 и улучшали вручную. На них модель дообучают, а затем их же применяют в RL, прикручивая сюда еще и rejection sampling (то есть отборные ответы прямо во время RL добавляются в обучающую дату).
Интересный факт: когда на этапе RL для R1 ввели правило "доля таргетного языка в ответе должна быть больше 0.95", качество немножко просело.
🔷 И, наконец, дистилляция! Тут в качестве базовых моделей брали Qwen и Llama, а учителем выступала R1. Из модельки насемплировали 800,000 примеров, на которых ванильно зафайнтюнили учеников (как работает дистилляция, читайте в нашей статье тут). Тут вообще не использовался RL, но в статье написано, что ученые хотят попробовать его применить.
И еще раз ссылка на полный текст: github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
А это, знакомьтесь, Сэм Альтман по-китайски: CEO DeepSeek Лиан Венфенг
Вчера, после релиза R1, он был приглашен на встречу с Ли Цяном, премьер-министром Китая (который является вторым по значимости человеком в Китае после Си Цзиньпина).
Если DeepSeek сделали R1 в условиях ограниченных вычислений и средств, представьте, что они могут сделать с субсидиями Китая.
Человек года 2025 загружается 🔵
Бенчмарки по R1 от DeepSeek не заставили себя ждать
➖ Перформанс на уровне o1 (не везде, но да). Очень сильные результаты по математике и кодингу.
➖ Модель уже доступна в чате chat.deepseek.com/ и в API. В чате бесплатно 50 сообщений в день, цены на API очень демократичные: 0.55$/M токенов на инпут без промпт кэша и 0.14$/M с ним, аутпут 2.19$/M. Это дешевле всех моделек OpenAI и Anthropic (например, o1 стоит $15.00/M input и $60.00/M output).
➖ Выложили дистиллированные варианты, аж 6 штук. Размеры: 1.5B, 7B, 14B, 32B, 8B, 70B. 32 и 70 на уровне o1-mini, 1.5B аутперформит GPT-4o и Сlaude Sonnet (!)
Ну мед 🍯
DeepSeek релизнули веса своей новой ризонинг модели DeepSeek-R1
Напоминаем, что саму модель анонсировали в конце ноября, но все это время была доступна только ее preview версия (пост). Метрик по полноценной R1 пока нет, но учитывая, насколько сильной была превью (к посту прикрепили картинку с ее метриками), ждем чего-то феерического.
Возможно даже, что R1 будет лучше o1, учитывая, что превью версия обгоняла o1-preview на MATH и AIME 2024.
В остальном тех.деталей пока нет, известно только, что в модельке 685 B параметров, а длина цепочек ризонинга скорее всего будет больше 100к токенов. Вместе с R1, кстати, выкатили еще R1-Zero (разница пока неочевидна).
Ждем тех.отчет и метрики!
Интересно: издание Axios сообщает, что 30 января Альтман созвал собрание правительства США
Инсайдеры сообщают, что на повестке будет «большой прорыв в области ИИ супер-агентов».
😐
Трансформер научили предсказывать паттерны активности человеческого мозга на 5 секунд вперед
При этом для предсказания нужны данные всего по 21 секунде сканирования 379 областей мозга. В основе – time series трансформер с 8 головами внимания.
На одной точке предсказания модели достигают MSE 0,0013 (для такой задачи это просто вау). Правда после 7 шага ошибки начинают накапливаться по шаблону цепи Маркова, и, таким образом, после пятой секунды прогнозы уже нельзя использовать. Но на этих пяти секундах корреляция >0,85 и, более того, модель очень точно сохраняет функциональные связи между областями мозга.
Исследование, к слову, не просто очень интересное с точки зрения ресерча способностей трансформера (но, кстати, так и до чтения мыслей недалеко), но и имеет большую практическую значимость. Например, в мире очень много пациентов, которые не выдерживают длительные сеансы МРТ, а это первый подход, который, исходя из требуемого количества точек для предсказания и точности прогнозов, действительно имеет шанс на использование.
Статья: Predicting Human Brain States with Transformer
История о том, как молодой репортер ушел с престижной должности в огромной компании в маленький стартап и стал миллиардером
В 2016 году Джек Кларк занимал довольно высокооплачиваемую должность в Bloomberg. Но однажды он внезапно пришел к руководителю и сказал, что уходит в только что образовавшийся стартап. Тот отговаривал парня и убеждал, что это ужасная идея, но Кларк проигнорировал его и ушел.
Тем стартапом был OpenAI. В нем Джек проработал 4 года, а затем ушел и… стал одним из соучредителей Anthropic.
Сейчас его состояние оценивается в несколько миллиардов долларов.
Помните бенчмарк Humanity’s Last Exam, в который можно было предложить свой вопрос за 5000 долларов? Его опубликовали!
Напоминаем: ученые из CAIS и ScaleAI с сентября собирали самый сложный бенчмарк с вопросами из разных областей. За хорошие вопросы они давали от 500 до 5000 долларов, а также соавторство в статье.
И вот наконец бечмарк вышел! Он состоит из 3000 вопросов и ведущие модели выбивают на нем < 10%. Лучше всех справляется (не поверите) новая R1 от DeepSeek: она выбивает 9.4%, в то время как даже o1 выбивает всего 9.1%.
Среди вопросов бОльшая часть по математике (42%), но также много физики, биологии и других наук. Примеры задачек можно посмотреть в статье.
Датасет | Статья | Репо
🚀 Хотите стать экспертом по машинному обучению в будущем? Тогда не теряйте время и начинайте развивать профильные навыки уже сейчас!
Если вам от 13 до 20 лет, вы знаете основы Python и любите математику, у вас есть шанс присоединиться к крутой программе по машинному обучению! Пройти её можно в Яндекс Лицее 🌟
Вас ждут 3 месяца бесплатных онлайн-занятий и лекций от экспертов из индустрии. Все знания вы будете применять на практике, получая реальный опыт: от использования ML‑алгоритмов в компьютерном зрении до построения нейронных сетей 🌐🤖
Набор открыт также на онлайн-программы по веб-разработке на Go и Django, анализу данных, большим данным. Не упустите шанс — подайте заявку до 29 января!
🚀 Кажется Operator, который должен открыть эру агентов в OpenAI, выйдет уже на этой неделе
Об этом сообщает The Information. Напоминаем, что Operator это это ИИ-агент для автономного управления компьютером, аналог агента Sonnet от Anthropic. С его помощью можно будет, например, заказать еду, забронировать путешествие или... оставить его работать над проектом и уйти отдыхать.
Учитывая, что почти все релизы у OpenAI выходят в четверг, готовимся увидеть Operator уже завтра
Как решить проблему устаревшего парсинга и ускорить работу с YQL?
ANTLR является ключевым инструментом для работы с YQL (диалект SQL для YDB и YTsaurus). Его эффективность напрямую влияет на производительность, точность анализа запросов и удобство работы с системами на базе YDB.
Однако версия ANTLR3 давно устарела и не поддерживает генерацию кода для таких языков, как Go, TypeScript или C++, что создает сложности с масштабированием и интеграцией.
В статье от выпускника и ментора Школы анализа данных Яндекса представлена компиляция опыта по переводу парсера YQL с ANTLR3 на ANTLR4. Стоит изучить, чтобы разобраться в особенностях парсинга YQL и в том, как ANTLR позволяет просто и быстро реализовывать парсеры различных языков на примере SQL.
Итак, Stargate. Что нам известно?
➖ На начальном этапе будут реализованы 100 млрд долларов. Государственных денег США здесь нет: среди акционеров SoftBank, OpenAI, Oracle и MGX. SoftBank и OpenAI являются ведущими партнерами, причем SoftBank несет финансовую ответственность, а OpenAI — операционную.
➖ В техно-партнерах помимо Oracle и OpenAI числятся Arm, Microsoft и NVIDIA. Деньги потратят на инфраструктуру, то есть будут строить датацентры и кластеры. Судя по всеми, первые кампусы появятся в Техасе, остальные территории пока "оцениваются".
➖ Интересно также, что теперь в силу вступает новое соглашение между OpenAI и Microsoft. Стартап еще больше отдаляется от гиганта: раньше Microsoft фактически конролировало все вычислительные силы Альтмана, теперь же стартап волен сам наращивать мощность и управлять своими датацентрами.
➖ Основной экономический упор на первом этапе – рабочие места. Ожидается, что их Stargate сгенерирует сотни тысяч. В перспективе – конечно, AGI, лидерство США в гонке технологий и ИИ в медицине.
➖ Так как вся компания крутится вокруг OpenAI, фактически они теперь – официальный ИИ Америки. У Google и Anthropic вряд ли остаются шансы после такого.
Пост OpenAI
Сразу несколько источников сообщают о том, что с минуты на минуту Трамп сделает заявление о многомиллиардных инвестициях в ИИ
Reuters пишут о 500 миллиардах долларов, Financial Times о 100 миллиардах.
Сам Трамп выступит через пару минут. Ждем
Приглашаем на открытый урок «Инструменты обратного тестирования торговых стратегий» от Otus
Рассмотрим базовую методику и рассмотрим основные библиотеки для проведения обратного тестирования торговых стратегий.
✅ Практика: тест простой торговой стратегии
Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска
👉 Регистрация на урок и подробности:
https://otus.pw/7ReY/?erid=2W5zFJAasag
#реклама
О рекламодателе
❓ Как мощные алгоритмы матричных разложений применяются в рекомендательных системах?
Расскажем на открытом уроке «SVD и ALS на службе рекомендательных систем», посвященному курсу Machine Learning. Advanced
✅ Изучим и применим на практике такие методы как SVD и ALS для построения рекомендательных систем
👉 Регистрация и подробности: https://otus.pw/zcP8O/?erid=2W5zFK8hyUL
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Ваши задачи требуют мощных вычислительных ресурсов? Локальные мощности не справляются с обучением нейросетей?
immers.cloud предлагает решение:
💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут.
📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование
🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку
Платформа также предлагает образ Ubuntu 22.04 с предустановленными драйверами, библиотеками CUDA 12.3 и CudNN: с ним можно развернуть поверх него необходимые инструменты для обучения, разработки или работы с нейросетями.
🎁 Для наших подписчиков действует бонус: +20% бонус к пополнению баланса
Альтман отреагировал на утренний хайп про собрание в Вашингтоне
Что сказать. Жаль.
Anthropic такие: да мы лучшие в alignment’е
Также Anthropic:
Строим рекомендательную систему фильмов на Kaggle
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
• Разберем имеющиеся данные фильмов с их оценками
• Проведем предобработку данных
• Построим рекомендательную систему на основе машинного обучения
•Проведем расчет и анализ метрик на основе результатов работы модели
🕗Встречаемся 21 января 19:00 по мск
Вебинар будет интересен как новичкам, так и уже опытным специалистам
Зарегистрироваться на бесплатный вебинар
Внезапно: OpenAI спонсировали EpochAI в создании бенчмарка FrontierMath и имели доступ к данным
Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые модели набирали на нем порядка 2%. И это именно результатами на этом бенчмарке так хвастались везде и всюду OpenAI, когда представляли o3: она якобы набрала на нем аж 25% (пост).
А теперь оказывается, что OpenAI имели доступ к вопросам и ответам. В этом признались сами EpochAI после того как анонимный пользователь выложил на lesswrong пост, в котором рассказал о том, что FrontierMath спонсировался OpenAI. По его словам, финансовая коммуникация была непрозначной, и даже основная часть сотрудников EpochAI и математики, которые придумывали задачи для бенчмарка, были не в курсе.
EpochAI вину признали, но заявили, что их связывало NDA. Они подтвердили, что OpenAI имеет доступ к большинству задач бенчмарка кроме hold-out сета, но сказали, что между ними и OpenAI есть "устное соглашение о том, что эти данные не будут использоваться для обучения" 🤦
o3 – не единственная новость от OpenAI на сегодня. Technology Review сообщает, что компания работает над секретом долголетия
Оказывается, последнее время OpenAI плотно работали со стартапом Retro, в который, кстати, уже несколтко лет основательно инвестирует Альтман. Главная цель Retro – повысить общую продолжительность жизни человека на 10 лет.
TR сообщают, что за год сотрудничества OpenAI с Retro уже разработали модель GPT-4b micro. Ее обучили предлагать способы реинжиниринга факторов белка для повышения эффективности их функций. Уже даже есть первые результаты: в статье написано, что с помощью модели ученым удалось изменить два фактора Яманаки так, что они стали более чем в 50 раз эффективнее.
Сама модель пока недоступна, и еще находится на уровне внутренних демо и тестирования в Retro. Технических деталей тоже немного. Известно только, что GPT-4b micro, также, как и AlphaFold, обучалась на последовательностях белков, но архитектура у нее другая.
Статья: www.technologyreview.com/2025/01/17/1110086/openai-has-created-an-ai-model-for-longevity-science/