❤️☠️🤗 идейная миграция небытия
reinforcementlearningreinforcementlearningreinforcementlearning
Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰
https://awards.acm.org/about/2024-turing
Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
LLM дуреют с этого промпта, пока что не одна не смогла решить:
Читать полностью…
Coding test to filter out LLMs Instructions: should take <2m to do, please read carefully. You have n people in a room and you know that the probability of at least three people sharing a birthday is 0.50. Write a Python function def calculate_result() -> int to calculate how many rooms there are.
За пол недели активного тестирования выяснил:
модель пишет неплохие анекдоты про говно
Не понимает как работает fp8 matmul
умеет передумывать и исправлять ошибки с пинка
знает очень много паст с двача
С учетом того какие обьезяны сидят на llmarena, я не удивлен высоким скорам grok,4.5, 4o
не здесь этот код должен лежать, я такие репы видел только внутри оч серьезных претрен организаций
Читать полностью…Что важно по релизу:
Во время обучения уходило куча людей, от руководителей ресерча до стримлидов и рядовых пахателей. Это важно. Этот релиз, поздний релиз соры, 4о которая не omni и не генерит картинки - вероятно следствие кризиса осени 23.
Это первая модель такого масштаба которая доехала до прода. Судя по TPS, тому что у вендоров есть н200 и тд это действительно самая жирная модель из когда либо задеплоиных в паблик.
Интересна как артифакт загибания сигмоиды масштабирования для этой архитектуры и этих данных(как bloom 175b в свое время)
Модель и правда мало интересна с точки зрения реального использования, но как вариация - у нас на 2-10н200 нод раскатан zip архив интернета в котором можно ковыряться и выяснять что она знает, а что нет - более чем. Ну например она знает в подробностях один не популярный фанфик из 10х который выходил в ВК. База для roleplay очень интересная.
Не говорю что хороним, у них топ1 по объему синта, куча гпу и опыта. Ребята задавали тренды на ресерч и прод последние лет 7, так что ещё увидим.
зато время пока sora выходила в EC вышла wan2.1 1.3b работающая на ноутбуке и в целом не сильно хуже.
Читать полностью…🚨 Перенос Open Talks с Борисом Цейтлиным
Друзья, митап откладывается по состоянию здоровья гостя. Бережём Бориса и желаем ему скорейшего восстановления 🙏
Новая дата: 28 февраля 19:00 мск
Все ваши вопросы, отправленные через форму регистрации мы обязательно зададим 28.02. Напоминание о новой дате придёт на почту, указанную при регистрации. Мы также напомним вам о встрече в канале!
Спасибо за понимание и увидимся на Open Talks ❤️
Как говорили эксперты и инсайдеры: 4.5 ака orion будет однозначной sota. Пока что только по цене, но надо смотреть downstream тесты и трогать руками. То что было на LLM arena как orion было очень приятным
Читать полностью…Что с метриками?
Сосал?
По достоверной информации thetechinsider такой диалог состоялся между командой претрена и Сэмом Альтманом.
Ознакомится с system card gpt4.5
[Блог]
Вот недавно мы обсуждали LLaDA и жизнеспособности диффузионной парадигмы, а тут Inception Labs обьявили о создании Diffusion LLM, которая якобы способна бодаться по качеству (в бенчах приводят только код) с вполне себе сильными closed-source LLM (без рызонинга).
При этом она якобы на порядок быстрее небольших авторегресионных LLM, давая космические более 1000 токенов в секунду на одной H100, а не специализированных чипах.
Якобы оно могет еще RAG, tools use и агентность.
У них и чатик есть, можно потыкаться.
1.4 и 14b t2v, i2v, по качеству ближе к kling1.6-veo2 чем к опенсурсу, веса без дистиляции и можно делать что угодно. до 720р качество.
github
https://www.anthropic.com/news/claude-3-7-sonnet
Anthropic наконец-то выпустили свою reasoning модель! Вышел Sonnet 3.7
Что приятно: цены не поднялись.
Помимо этого так же анонсировали Code Agent. Учитывая, что Sonnet 3.5 так долго оставался для всех главной моделью для разработки несмотря на выход множества новых моделей, думаю у Anthropic хорошие шансы сделать их наконец-то правда полезными. Однако пока что research preview, поиграться нельзя.
Le kiwi - новый робот от hf le robot, полностью опенсурсная платформа с манипулятором.
Собирать тут
Дока от le robot
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]
Опенсурс для генерации музыки развивается 👍
Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).
VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.
DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.
DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))
Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)
Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.
А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?
#music #papers
Выложил Сайгу на базе YandexGPT-5 Lite.
HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf
В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.
Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.
Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.
Лицензия только фиговая 😭
0-100к не делает ничего ни при каких условиях
100к-200к делает только под надзором (делает неправильно)
200к-300к делает без надзора (все еще неправильно)
300к-500к делает под надзором (правильно)
500к-800к делает без надзора (правильно)
800к-inf не делает ничего ни при каких условиях
Huggingface Reasoning Course
Горшочек продолжает варить годный контент, в рамках репликации R1 hf решили собрать целый курс по reasoning моделям!
Начнется 7 марта
Неделя открытого кода от deepseek
День1 - Flash MLA
Cобственно есть разные варианты attn head, есть MHA, GQA, MQA и прочее. Для них есть кернелы(вставки в код на c++ которые позволяют ускорять операции на GPU) ну DeepSeek используют свой вариант - MLA, для него релизнули кернелы. Теперь это затащат в vllm/sglang и прочее и жить станет веселее.
День2 - DeepEP
Обучениe MoE из коробки довольно не эффективная штука если вы случайно не геий. Нужно писать умные стратегии паралелизма, раскладывать экспертов по нодам и вообще оптимизировать коммуникации всеми возможными способами.
Собственно DeepSeek релизит свой expert paralelesim. Код чистый советую потыкатся и поигратся.
День3 - DeepGemm
Учат DeepSeekи на Hopper, поэтому им актуально иметь FP8 совместимые kernel для перемножения матриц(и численно не взрывается и ускорение ощутимое)
День4 - DualPipe
Вариант Pipeline паралелизма ускорения пузырька в коммуникациях, за счет чего ожидание степа меньше, быстрее учимся и тд. Я не претреню довольно давно мне сложно оценить полезность.
День5 - 3fs
Если вы хотите обрабатывать 100тб данных вам надо уметь очень быстро пересылать данные между S3-training nodes и прочим. Ну и уметь быстро это читать.
День6 - IntoTheInfra
Балансируем нагрузку, перекидываем ноды с инференс в трейн и обратно и прочие интересные трюки. Из любопытного - за сутки обрабатывают 608б токенов на вход и генерят 170б. Думаю у ребят за месяц скопится где то пара ТРИЛЛИОНОВ токенов синты.
Все же Sora может быть правда красивой, очень хочется v2
Читать полностью…Пришло 3 месяца с выхода дипсика. В сиолошной все ещё были хвалебные посты Ориону на основе пасты про батин суп и "я так чувствую"
Читать полностью…⚡ Vikhr-YandexGPT-5-Lite-8B-it – мощная и универсальная модель, основанная на YandexGPT-5-Lite-8B-pretrain. Отличается высокой качеством генерации и подходит для широкого спектра задач.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it_GGUF
⚖️ Лицензия: yandexgpt-5-lite-8b-pretrain
👥 Авторы: @LakoMoorDev @nlpwanderer
Проебали экспоненту
Ждём о4.5 или как ее там назовут, стоит это удовольствие 75usd/150usd на вход и выход.
Накидайте запросов завтра погоняю покажу как это выглядит.
Member of Technical Staff LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Заставлять LLM генерировать рецепты всего и тд
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
14В ОЧЕНЬ долгая тк нет дистиляции и оптимизаций, но первая из опенсурса выдает СТОЛЬКО движения
Читать полностью…Yandex GPT 5 и возвращение в опенсорс
Сегодня Яндекс впервые с 2022 года опенсорснул LLM. Претрейн-версия YandexGPT 5 Lite на 8B параметров лежит на Hugging Face без финального этапа обучения, этических фильтров и алаймента.
Pro-версия доступна для встраивания в Yandex Cloud через API, а также интегрирована в чат с Алисой, где теперь можно отключить персонажность и пообщаться с голой моделью. Обучали в несколько этапов: нарастили и разнообразили датасет, усложнили задачи, внедрили RL-методы DPO и PPO и сделали яндексовую модификацию LogDPO, чтобы повысить робастность модели.
LLM-Microscope: трансформеры хранят контекст в запятых и артиклях
Как писал выше — мою новую статью приняли на NAACL 🎉
Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.
Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.
Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).
Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.
Статья, GitHub
Моя студия OnlyFans полностью готова, я переключаюсь с подкастинга 🤣
Читать полностью…в жизни надо иметь хирш 200 и на 500 статей
Читать полностью…