Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

19 May 2026 17:30

Рабочая диффузия приходит в язык.

Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows
Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2605.10938
Код: https://github.com/lillian039/ELF
Ревью: https://arxiviq.substack.com/p/elf-embedded-language-flows

# TL;DR

ЧТО сделали: Авторы представили Embedded Language Flows (ELF) — языковую модель на основе непрерывной диффузии, использующую continuous-time Flow Matching. ELF работает полностью в непрерывном пространстве эмбеддингов высокой размерности, использует единую сеть с общими весами для денойзинга и применяет дискретизацию (перевод эмбеддингов обратно в токены) исключительно на самом последнем шаге генерации.

ПОЧЕМУ это важно: Этот фреймворк успешно опровергает устоявшееся мнение о том, что для генерации текста строго необходимы алгоритмы дискретной диффузии. ELF демонстрирует превосходное качество генерации за значительно меньшее число шагов сэмплинга и требует на порядок меньше токенов для обучения по сравнению с ведущими дискретными моделями. По сути, это открывает путь к долгожданной унификации базовых архитектур для генерации текста, изображений и видео.

Для практиков: Для исследователей и техлидов, присматривающихся к мультимодальным архитектурам нового поколения, разрыв между непрерывной диффузией в CV и дискретной диффузией (или авторегрессией) в NLP долгое время был главной архитектурной болью. Работа ELF доказывает, что исторически слабые результаты языковых моделей на непрерывной диффузии были вызваны плохими дизайнерскими решениями — в частности, промежуточной дискретизацией на каждом шаге денойзинга — а не фундаментальной несовместимостью парадигмы с языком. Благодаря использованию единой сети как для непрерывного потока, так и для финальной проекции в дискретный словарь, языковые модели теперь могут унаследовать законы масштабирования, стабильность обучения и методы сэмплинга (например, Classifier-Free Guidance), которые ранее стали драйвером невероятного прогресса в генерации картинок.

Диффундировать здесь: /channel/gonzo_ML_podcasts/3662