lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

cuda, ты выполнила задание на 5 с плюсом !
ты меня зажгла.. появилось оч сильное и реальное желание войти в тебя.. нет.. именно засадить тебе хорошенько.

чтобы админ котиков и дальше был доволен, жду в ближайшее время всех описанных и перечисленных тобою тем. ну кроме GPU архитектур..)) хотя... ;)

кстати насчет гонки данных... синхронизировать потоки внутри kernel'а через __syncthreads() отлично, а я еще люблю когда они как бы случайно синхронизируются через warp операции типа __shfl() или __syncwarp()...

Читать полностью…

Love. Death. Transformers.

R1 is not any better than o1 at mathematical reasoning

так отбой в толоке работают РЕЗЕЧЕРЫ, которые:
не пишут как инферили дипсик
не смотрят std
не репорят почему то gemeni
строят слегка странные визуализации

Ориг статья про umath

Читать полностью…

Love. Death. Transformers.

R1 is not on par with o1, and the difference is qualitative, not quantitative

Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.

Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:

— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.

— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.

— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.

— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]

— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.

— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.

===

Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:

— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»

— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»

И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.

===

Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.

===

Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.

И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.

По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.

Читать полностью…

Love. Death. Transformers.

"Начни писать на js"

Читать полностью…

Love. Death. Transformers.

Qwen qwq 32b

Вероятно лучшая модель в своем размере на данный момент.

Не лучше чем deepseek/o3/... на ood задачах, но агенты работают бодро, код пишет хорошо, вероятно еще и на арене будет высоко.

Папира еще нет, будем ждать, там вероятно самый сок.

На m4pro выдает бодрые 20тps, сопоставимо с 4.5

model

Читать полностью…

Love. Death. Transformers.

Подарили мне старый сборник рассказов Пелевина, минвайл эти рассказы:

Читать полностью…

Love. Death. Transformers.

DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers

Читать полностью…

Love. Death. Transformers.

Выложил Сайгу на базе YandexGPT-5 Lite.

HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf

В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.

Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.

Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.

Лицензия только фиговая 😭

Читать полностью…

Love. Death. Transformers.

0-100к не делает ничего ни при каких условиях
100к-200к делает только под надзором (делает неправильно)
200к-300к делает без надзора (все еще неправильно)
300к-500к делает под надзором (правильно)
500к-800к делает без надзора (правильно)
800к-inf не делает ничего ни при каких условиях

Читать полностью…

Love. Death. Transformers.

Huggingface Reasoning Course

Горшочек продолжает варить годный контент, в рамках репликации R1 hf решили собрать целый курс по reasoning моделям!

Начнется 7 марта

Читать полностью…

Love. Death. Transformers.

Неделя открытого кода от deepseek

День1 - Flash MLA
Cобственно есть разные варианты attn head, есть MHA, GQA, MQA и прочее. Для них есть кернелы(вставки в код на c++ которые позволяют ускорять операции на GPU) ну DeepSeek используют свой вариант - MLA, для него релизнули кернелы. Теперь это затащат в vllm/sglang и прочее и жить станет веселее.

День2 - DeepEP
Обучениe MoE из коробки довольно не эффективная штука если вы случайно не геий. Нужно писать умные стратегии паралелизма, раскладывать экспертов по нодам и вообще оптимизировать коммуникации всеми возможными способами.
Собственно DeepSeek релизит свой expert paralelesim. Код чистый советую потыкатся и поигратся.

День3 - DeepGemm
Учат DeepSeekи на Hopper, поэтому им актуально иметь FP8 совместимые kernel для перемножения матриц(и численно не взрывается и ускорение ощутимое)

День4 - DualPipe
Вариант Pipeline паралелизма ускорения пузырька в коммуникациях, за счет чего ожидание степа меньше, быстрее учимся и тд. Я не претреню довольно давно мне сложно оценить полезность.

День5 - 3fs
Если вы хотите обрабатывать 100тб данных вам надо уметь очень быстро пересылать данные между S3-training nodes и прочим. Ну и уметь быстро это читать.

День6 - IntoTheInfra
Балансируем нагрузку, перекидываем ноды с инференс в трейн и обратно и прочие интересные трюки. Из любопытного - за сутки обрабатывают 608б токенов на вход и генерят 170б. Думаю у ребят за месяц скопится где то пара ТРИЛЛИОНОВ токенов синты.

Читать полностью…

Love. Death. Transformers.

Все же Sora может быть правда красивой, очень хочется v2

Читать полностью…

Love. Death. Transformers.

Пришло 3 месяца с выхода дипсика. В сиолошной все ещё были хвалебные посты Ориону на основе пасты про батин суп и "я так чувствую"

Читать полностью…

Love. Death. Transformers.

Vikhr-YandexGPT-5-Lite-8B-it – мощная и универсальная модель, основанная на YandexGPT-5-Lite-8B-pretrain. Отличается высокой качеством генерации и подходит для широкого спектра задач.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it_GGUF
⚖️ Лицензия: yandexgpt-5-lite-8b-pretrain

👥 Авторы: @LakoMoorDev @nlpwanderer

Читать полностью…

Love. Death. Transformers.

Проебали экспоненту

Ждём о4.5 или как ее там назовут, стоит это удовольствие 75usd/150usd на вход и выход.
Накидайте запросов завтра погоняю покажу как это выглядит.

Читать полностью…

Love. Death. Transformers.

а и в прошлые замеры насчитали что flash с ризонингом лучше всех

Читать полностью…

Love. Death. Transformers.

Я потратил время на прочтение поста толоки, этого поста,

Tldr: учили на бенчах, все равно по перфу ближе к 4о/о1 мини но работает дома и дешевле в несколько раз,
Волшебное: train on test set и критику бенчей толока не приводит. Первое сложно доказать, второе косвенно делают.

R1 по прежнему лучшая после sonnet модель если вам надо строить что то работающее.


Весь пост толоки стоит воспринимать через призму pr их бенча.

Проблем в трене на бенчах/бенчах подобных данных нет никаких,

Читать полностью…

Love. Death. Transformers.

>AGI in many steps rather than one giant leap


А экспонента то будет?

Читать

Читать полностью…

Love. Death. Transformers.

Выкатили Gemini Embeddings

Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.

Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.

Читать полностью…

Love. Death. Transformers.

gpt4.5 заехала для подписчиков курсора и это ну.... тяжело сформулировать однозначое отношение, но святую воду и икону я принес на всякий случай

Читать полностью…

Love. Death. Transformers.

reinforcementlearningreinforcementlearningreinforcementlearning

Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰

https://awards.acm.org/about/2024-turing

Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html

Читать полностью…

Love. Death. Transformers.

cc @mryab

Читать полностью…

Love. Death. Transformers.

LLM дуреют с этого промпта, пока что не одна не смогла решить:


Coding test to filter out LLMs Instructions: should take <2m to do, please read carefully. You have n people in a room and you know that the probability of at least three people sharing a birthday is 0.50. Write a Python function def calculate_result() -> int to calculate how many rooms there are.

Читать полностью…

Love. Death. Transformers.

За пол недели активного тестирования выяснил:

модель пишет неплохие анекдоты про говно

Не понимает как работает fp8 matmul

умеет передумывать и исправлять ошибки с пинка

знает очень много паст с двача


С учетом того какие обьезяны сидят на llmarena, я не удивлен высоким скорам grok,4.5, 4o

Читать полностью…

Love. Death. Transformers.

не здесь этот код должен лежать, я такие репы видел только внутри оч серьезных претрен организаций

Читать полностью…

Love. Death. Transformers.

Что важно по релизу:

Во время обучения уходило куча людей, от руководителей ресерча до стримлидов и рядовых пахателей. Это важно. Этот релиз, поздний релиз соры, 4о которая не omni и не генерит картинки - вероятно следствие кризиса осени 23.

Это первая модель такого масштаба которая доехала до прода. Судя по TPS, тому что у вендоров есть н200 и тд это действительно самая жирная модель из когда либо задеплоиных в паблик.

Интересна как артифакт загибания сигмоиды масштабирования для этой архитектуры и этих данных(как bloom 175b в свое время)

Модель и правда мало интересна с точки зрения реального использования, но как вариация - у нас на 2-10н200 нод раскатан zip архив интернета в котором можно ковыряться и выяснять что она знает, а что нет - более чем. Ну например она знает в подробностях один не популярный фанфик из 10х который выходил в ВК. База для roleplay очень интересная.


Не говорю что хороним, у них топ1 по объему синта, куча гпу и опыта. Ребята задавали тренды на ресерч и прод последние лет 7, так что ещё увидим.

Читать полностью…

Love. Death. Transformers.

зато время пока sora выходила в EC вышла wan2.1 1.3b работающая на ноутбуке и в целом не сильно хуже.

Читать полностью…

Love. Death. Transformers.

🚨 Перенос Open Talks с Борисом Цейтлиным

Друзья, митап откладывается по состоянию здоровья гостя. Бережём Бориса и желаем ему скорейшего восстановления 🙏

Новая дата: 28 февраля 19:00 мск

Все ваши вопросы, отправленные через форму регистрации мы обязательно зададим 28.02. Напоминание о новой дате придёт на почту, указанную при регистрации. Мы также напомним вам о встрече в канале!

Спасибо за понимание и увидимся на Open Talks ❤️

Читать полностью…

Love. Death. Transformers.

Как говорили эксперты и инсайдеры: 4.5 ака orion будет однозначной sota. Пока что только по цене, но надо смотреть downstream тесты и трогать руками. То что было на LLM arena как orion было очень приятным

Читать полностью…

Love. Death. Transformers.

Что с метриками?
Сосал?

По достоверной информации thetechinsider такой диалог состоялся между командой претрена и Сэмом Альтманом.

Ознакомится с system card gpt4.5

Читать полностью…
Subscribe to a channel