❤️☠️🤗 идейная миграция небытия
R1 is not on par with o1, and the difference is qualitative, not quantitative
Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.
Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:
— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.
— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.
— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.
— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]
— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.
— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.
===
Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:
— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»
— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»
И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.
===
Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.
===
Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.
И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.
По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.
Qwen qwq 32b
Вероятно лучшая модель в своем размере на данный момент.
Не лучше чем deepseek/o3/... на ood задачах, но агенты работают бодро, код пишет хорошо, вероятно еще и на арене будет высоко.
Папира еще нет, будем ждать, там вероятно самый сок.
На m4pro выдает бодрые 20тps, сопоставимо с 4.5
model
Подарили мне старый сборник рассказов Пелевина, минвайл эти рассказы:
Читать полностью…DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]
Опенсурс для генерации музыки развивается 👍
Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).
VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.
DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.
DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))
Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)
Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.
А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?
#music #papers
Выложил Сайгу на базе YandexGPT-5 Lite.
HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf
В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.
Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.
Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.
Лицензия только фиговая 😭
0-100к не делает ничего ни при каких условиях
100к-200к делает только под надзором (делает неправильно)
200к-300к делает без надзора (все еще неправильно)
300к-500к делает под надзором (правильно)
500к-800к делает без надзора (правильно)
800к-inf не делает ничего ни при каких условиях
Huggingface Reasoning Course
Горшочек продолжает варить годный контент, в рамках репликации R1 hf решили собрать целый курс по reasoning моделям!
Начнется 7 марта
Неделя открытого кода от deepseek
День1 - Flash MLA
Cобственно есть разные варианты attn head, есть MHA, GQA, MQA и прочее. Для них есть кернелы(вставки в код на c++ которые позволяют ускорять операции на GPU) ну DeepSeek используют свой вариант - MLA, для него релизнули кернелы. Теперь это затащат в vllm/sglang и прочее и жить станет веселее.
День2 - DeepEP
Обучениe MoE из коробки довольно не эффективная штука если вы случайно не геий. Нужно писать умные стратегии паралелизма, раскладывать экспертов по нодам и вообще оптимизировать коммуникации всеми возможными способами.
Собственно DeepSeek релизит свой expert paralelesim. Код чистый советую потыкатся и поигратся.
День3 - DeepGemm
Учат DeepSeekи на Hopper, поэтому им актуально иметь FP8 совместимые kernel для перемножения матриц(и численно не взрывается и ускорение ощутимое)
День4 - DualPipe
Вариант Pipeline паралелизма ускорения пузырька в коммуникациях, за счет чего ожидание степа меньше, быстрее учимся и тд. Я не претреню довольно давно мне сложно оценить полезность.
День5 - 3fs
Если вы хотите обрабатывать 100тб данных вам надо уметь очень быстро пересылать данные между S3-training nodes и прочим. Ну и уметь быстро это читать.
День6 - IntoTheInfra
Балансируем нагрузку, перекидываем ноды с инференс в трейн и обратно и прочие интересные трюки. Из любопытного - за сутки обрабатывают 608б токенов на вход и генерят 170б. Думаю у ребят за месяц скопится где то пара ТРИЛЛИОНОВ токенов синты.
Все же Sora может быть правда красивой, очень хочется v2
Читать полностью…Пришло 3 месяца с выхода дипсика. В сиолошной все ещё были хвалебные посты Ориону на основе пасты про батин суп и "я так чувствую"
Читать полностью…⚡ Vikhr-YandexGPT-5-Lite-8B-it – мощная и универсальная модель, основанная на YandexGPT-5-Lite-8B-pretrain. Отличается высокой качеством генерации и подходит для широкого спектра задач.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it_GGUF
⚖️ Лицензия: yandexgpt-5-lite-8b-pretrain
👥 Авторы: @LakoMoorDev @nlpwanderer
Проебали экспоненту
Ждём о4.5 или как ее там назовут, стоит это удовольствие 75usd/150usd на вход и выход.
Накидайте запросов завтра погоняю покажу как это выглядит.
Member of Technical Staff LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Заставлять LLM генерировать рецепты всего и тд
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
14В ОЧЕНЬ долгая тк нет дистиляции и оптимизаций, но первая из опенсурса выдает СТОЛЬКО движения
Читать полностью…>AGI in many steps rather than one giant leap
А экспонента то будет?
Читать
Выкатили Gemini Embeddings
Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.
Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.
gpt4.5 заехала для подписчиков курсора и это ну.... тяжело сформулировать однозначое отношение, но святую воду и икону я принес на всякий случай
Читать полностью…reinforcementlearningreinforcementlearningreinforcementlearning
Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰
https://awards.acm.org/about/2024-turing
Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
LLM дуреют с этого промпта, пока что не одна не смогла решить:
Читать полностью…
Coding test to filter out LLMs Instructions: should take <2m to do, please read carefully. You have n people in a room and you know that the probability of at least three people sharing a birthday is 0.50. Write a Python function def calculate_result() -> int to calculate how many rooms there are.
За пол недели активного тестирования выяснил:
модель пишет неплохие анекдоты про говно
Не понимает как работает fp8 matmul
умеет передумывать и исправлять ошибки с пинка
знает очень много паст с двача
С учетом того какие обьезяны сидят на llmarena, я не удивлен высоким скорам grok,4.5, 4o
не здесь этот код должен лежать, я такие репы видел только внутри оч серьезных претрен организаций
Читать полностью…Что важно по релизу:
Во время обучения уходило куча людей, от руководителей ресерча до стримлидов и рядовых пахателей. Это важно. Этот релиз, поздний релиз соры, 4о которая не omni и не генерит картинки - вероятно следствие кризиса осени 23.
Это первая модель такого масштаба которая доехала до прода. Судя по TPS, тому что у вендоров есть н200 и тд это действительно самая жирная модель из когда либо задеплоиных в паблик.
Интересна как артифакт загибания сигмоиды масштабирования для этой архитектуры и этих данных(как bloom 175b в свое время)
Модель и правда мало интересна с точки зрения реального использования, но как вариация - у нас на 2-10н200 нод раскатан zip архив интернета в котором можно ковыряться и выяснять что она знает, а что нет - более чем. Ну например она знает в подробностях один не популярный фанфик из 10х который выходил в ВК. База для roleplay очень интересная.
Не говорю что хороним, у них топ1 по объему синта, куча гпу и опыта. Ребята задавали тренды на ресерч и прод последние лет 7, так что ещё увидим.
зато время пока sora выходила в EC вышла wan2.1 1.3b работающая на ноутбуке и в целом не сильно хуже.
Читать полностью…🚨 Перенос Open Talks с Борисом Цейтлиным
Друзья, митап откладывается по состоянию здоровья гостя. Бережём Бориса и желаем ему скорейшего восстановления 🙏
Новая дата: 28 февраля 19:00 мск
Все ваши вопросы, отправленные через форму регистрации мы обязательно зададим 28.02. Напоминание о новой дате придёт на почту, указанную при регистрации. Мы также напомним вам о встрече в канале!
Спасибо за понимание и увидимся на Open Talks ❤️
Как говорили эксперты и инсайдеры: 4.5 ака orion будет однозначной sota. Пока что только по цене, но надо смотреть downstream тесты и трогать руками. То что было на LLM arena как orion было очень приятным
Читать полностью…Что с метриками?
Сосал?
По достоверной информации thetechinsider такой диалог состоялся между командой претрена и Сэмом Альтманом.
Ознакомится с system card gpt4.5
[Блог]
Вот недавно мы обсуждали LLaDA и жизнеспособности диффузионной парадигмы, а тут Inception Labs обьявили о создании Diffusion LLM, которая якобы способна бодаться по качеству (в бенчах приводят только код) с вполне себе сильными closed-source LLM (без рызонинга).
При этом она якобы на порядок быстрее небольших авторегресионных LLM, давая космические более 1000 токенов в секунду на одной H100, а не специализированных чипах.
Якобы оно могет еще RAG, tools use и агентность.
У них и чатик есть, можно потыкаться.
1.4 и 14b t2v, i2v, по качеству ближе к kling1.6-veo2 чем к опенсурсу, веса без дистиляции и можно делать что угодно. до 720р качество.
github