Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
⚡️ o3-mini раскатят на пользователей уже через пару недель
От этом сообщил сам Альтман в своем блоге. Он объявил, что работа над версией, включая тестирование, закончена, и что компания начинает работу над деплоем. Модель будет доступна за те же 200 долларов, так что слухи о 2к за подписку оказались неправдой (пока что).
Это не все: в реплаях на вопрос про то, насколько о3-mini лучше o1-pro, Сэм сказал «хуже во многих вещах, но быстрее». А вот полномасштабная o3, по словам CEO, будет гораздо умнее o1-pro, «не говоря уже об о3-pro»
🥳
Еще одного бегающего робота показала на этот раз компания Unitree
Это модель Unitree G1. Зацените, как двигается. Можно даже сравнить в оптимусом от Теслы, точно не хуже
Только есть один вопрос: по российскому гололеду он так сможет пробежать?
Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии
В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?
Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.
Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.
🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.
Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.
Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.
Текст статьи полностью тут
Там Gwern*, легендарный анонимный исследователь, очень ярко высказался на форуме про o1 и o3. Цитаты достойны вашего внимания:
"Мне кажется мы стали забывать, что главная функция такой модели, как o1, заключается не в ее развертывании, а в генерации обучающих данных для следующей модели. Каждая задача, которую решает o1 – это отправная точка для o3: все ответы, все траектории, по которым проходила o1 в мыслях, могут быть улучшены моделью, которая на них учится.
На самом деле, я вообще удивлен, что OpenAI потрудились развернуть o1-pro, вместо того чтобы сохранить ее в тайне и вложить средства в дополнительные вычисления для обучения o3. (Похоже, именно поэтому Anthropic так и не показали Claude-3.6-opus — модель не «провалилась», они просто решили сохранить ее в тайне и свести к небольшому дешевому, но внезапно ставшему очень умным Claude-3.6-sonnet.)
Если посмотреть на пример AlphaZero, мысль становится очевидной: если бы обычный поиск во время инференса (чем и является ризонинг) работал хорошо, шахматы были бы решены еще в 60-х. Но на самом деле это просто стимулятор, который увеличивает ваш скор, но асимптотирует его с трудом. То есть его нельзя просто масштабировать, нужно использовать другую бОльшую модель чтобы делать поиск меньшей лучше.
Помните, что сказал Альтман? "o3-mini будет намного лучше и при этом намного дешевле o1". Именно поэтому мы можем никогда не увидеть промежуточные модели вендоров, просто потому что деплой – лишняя трата денег. Зачем тратить деньги на обслуживание внешних запросов, если их можно вложить в обучение и скоро получить такую же умную модель, но в 100 раз дешевле?
Так что пусть такие лаборатории, как DeepSeek дальше тратят ресурсы на развертывание ризонеров, которые производят временный эффект. В отличие от OpenAI, им никогда не хватит ресурсов, чтобы дальше участвовать в настоящей гонке, за ASI. "
Там в Твиттере нашли лучшее применение новому функционалу Тасок в ChatGPT
Читать полностью…Тем временем сотрудники OpenAI продолжают оставлять нам недвусмысленные интригующие твиты
Два дня назад (by Стефен МакАлир, лид-рисерчер безопасности ИИ):
«Контроль суперинтеллекта – это наша самая краткосрочная агенда»
«AlphaGo, который обучали только на человеческих данных, достиг любительского уровня. Но с другой стороны, как только Google щелкнули RL, суперинтеллект стал неизбежен»
«Магия — это то, что происходит, когда неостанавливаемый алгоритм RL, работающий на достаточной вычислительной мощности, встречается с неподдающейся взлому средой RL»
Огонь: Hugging Face запускает собственный бесплатный сертифицированный курс по практическому изучению агентов
Они объявили об этом несколько часов назад в своем блоге. Пишут, что на курсе обучат:
🔵 Теоретическим основам: что такое агенты, какие агенты бывают, как научить агента с помощью LLM воспринимать окружение, в которое его поместили, и действовать там
🔵 Непосредственно созданию агентов. Будет много практики на основных фреймворках и реальных приложениях: «от автоматизации SQL запросов до генерации кода и суммаризации документов». Помните, что это агенты, и, например, та же суммаризация документов – это не про привычный pdf2summary, а про то, как научить модель ориентироваться в сложной структуре файлов на компьютере + самой находить и обрабатывать нужные доки.
Hugging Face, в общем, снова сделали что-то крутое. Запись на курс свободная, записаться можно здесь
Начинаем год с Data Ёлки!
18 января в штаб-квартире VK пройдет большой митап, на котором спикеры обсудят главное, что произошло за год в RecSys, NLP, PyData Stack и других областях DS и ML. А ещё будет много интересного о карьерном стриме в DS и разбор лучших решений участников VK RecSys Challenge.
Тем, кто придет в костюмах, достанутся особые призы. Авторы самых интересных вопросов тоже не уйдут с пустыми руками. И, конечно, будет афтепати: специально для тех, кто любит нетворкать!
Приходите в БЦ Skylight по адресу: Москва, Ленинградский проспект, 39, строение 79.
И не забудьте о регистрации: переходите на эту страницу, жмите «Участвовать», оставляйте заявку и ждите письма на email.
На входе надо будет показать приглашение и паспорт.
Встретимся у ёлки! 🎄
Лаборатория Hailuo AI только что дропнула MiniMax-01: первую LLM с Lightning Attention и контекстным окном 4 миллиона токенов!
Lightning Attention – это модификация атеншена, которая разработана специально для длинных контекстов. Работает на основе key-value lookup (недавно Meta делали про этот подход статью, посмотрите наш разбор).
Ключевое отличие от ванильного внимания: ключи и значения являются обучаемыми параметрами, а не временными активациями. За счет этого архитектура, основанная на таких memory layers, лучше скейлится на длинные последовательности.
Плюсом прикрутили silu, гейтинг и CUDA оптимизации. В итоге получилось что-то довольно красивое: в таблицах видно хорошие приросты метрик в задачах, где надо анализировать много текста, а Memory+ с 64 миллионами ключей достигает точности близкой к Llama 7B, при этом используя в 10 раз меньше FLOPs.
Снова Китай на высоте. Попробовать можно здесь: www.hailuo.ai/
В ChatGPT появились Tasks
Теперь можно запланировать задачу на определенное время, например «пришли мне напоминание вытащить мясо из морозилки в 6 вечера» или «присылай мне колыбельную каждый день в 11 вечера». Бот выполнит ее в установленное время, при этом неважно, онлайн пользователь или нет. Поддерживается до 10 таких отложенных тасок одновременно.
Также теперь бот сам может предлагать какие-то задачи. Например, если видит, что вы не дописали код, может спросить, не хотите ли закончить задачу.
Почему это крутой и заметный релиз? Во-первых, потому что это первый чат-бот, который так умеет. Во-вторых, потому что это еще на шажок приближает нас к агентам, которые могут поддерживать действия в системе, а не просто диалог.
Вспоминается недавняя история о том, как ChatGPT написал юзеру первый и это произвело настоящий фурор в интернете (пост). Снова то, что удивляло нас еще недавно, сегодня становится реальным.
Пробовать можно уже сейчас (раскатили на всех платников), но у многих пока продолжаются сбои из-за наплыва трафика
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах
Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.
В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.
При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:
➖ Memory as Context: долгосрочная память используется как контекст для текущего внимания.
➖ Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
➖ Memory as Layer: самый простой вариант, вся память соединена как слой в сетке
MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.
Полный текст статьи здесь
P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Ресерчеры из Беркли опенсорснули Sky-T1-32B-Preview. Это ризонинг моделька, которую можно обучить локально всего за 450 долларов
При этом по бенчмаркам модель достаточно хороша: на AIME, Math500 и LiveCodeBench выбивает даже больше, чем o1-preview. В данных почти одна синтетика, которую генерировали с помощью QwQ и обрабатывали с помощью o1-mini. Базовая модель – Qwen2.5-32B-Instruct.
Все подробные инструкции по тому, как обучить модельку локально, есть в блогпосте и на гитхабе. При этом стоить это будет всего 450 долларов (против миллионов долларов на о1 и десятков тысяч даже на самые дешевые аналоги), и понадобится только 19 часов на восьми H100 (подъемно почти для любого бизнеса).
Скорость прогресса иногда просто шокирует
Блогпост | Веса | Репа | Датасет
Вышло крутое полуторачасовое интервью Франсуа Шолле. Ниже – TLDR
Шолле – создатель Keras, ex ведущий исследователь Google DeepMind, автор книги "Deep Learning with Python", а также один из главных создателей того самого бенчмарка ARC AGI и учредитель соревнования ARC Prize. Из Google, он кстати, совсем недавно ушел и планирует открывать собственную компанию. Самое интересное из интервью:
🟦 Умение хорошо отвечать на сложные вопросы само по себе не гарантирует AGI, потому что бывает двух видов:
а) запоминание и применение паттернов, например, обучение алгоритму умножения чисел и его использование (это ближе к тому что умеют классические LLMки);
б) адаптация к новизне, то есть умение рекомпозировать и объединять известные когнитивные блоки для решения новых задач (ближе к o1).
Только если добиться от моделей полноценного ризонинга типа б) можно прийти к AGI (база)
🟦 Бенчмарк ARC AGI – как раз такой инструмент, который может помочь нам отличить а) от б). И по такому принципу должны строиться все современные бенчмарки, потому что, еще раз, просто умение отвечать на сложные вопросы ничего не доказывает, мы должны проверять умение рассуждать.
🟦 Но и с ARC AGI есть свои проблемы: в частности, он все еще недостаточно разнообразный. Кроме того, существуют известные методы, позволяющие восстанавливать содержимое приватного теста через отправку кучи сабмитов, и ARC AGI уязвим. В будущем Шолее планирует это исправить.
🟦 То, каких результатов добивается o1 делает ее абсолютно уникльной моделью, совершившей прорыв в генерализации. "Это уже далеко за рамками классического лубокого обучения" – говорит Шолле.
🟦 По его догадкам, o1 выполняет поиск по дереву в пространстве возможных Chain of Thought. Как устроен этот поиск, до конца не понятно, это может быть Монте-Карло или даже градиентный спуск.
Посмотреть полностью можно здесь (то что нужно в воскресенье)
Meta проиграла суд по делу о нарушении авторских прав в процессе обучения ИИ
Это был один из первых исков, который был подан на корпорацию за обучение моделек на данных, защищенных автоским правом (да, даже считая тысяча и один иск на OpenAI). Его подавали еще в начале 2023 писатели Ричард Кадри и Кристофер Голден, а также комик Сара Сильверман.
Сначала Meta вину отрицали, и говорили, что обучали модели на безобидном датасете Books3 (там 196 000 книг). Однако в ходе разбирательства оказалось... что собирали эти данные в компании с помощью LibGen. Кто не в курсе – это самая известная пиратская либа для скачивания книг, созданная, кстати, в России.
😁
Тем временем творчество русскоязычного твиттера достигло стен Маастрихтского университета, Нидерланды
Читать полностью…Аналитик данных — одна из перспективных и высокооплачиваемых профессий в IT-сфере. Медианная зарплата специалиста составляет 100 000 рублей. А спрос на аналитиков непрерывно растёт, ведь компании накапливают всё больше информации, которую нужно структурировать, обрабатывать и анализировать для взвешенных бизнес-решений.
Освоить базовые инструменты для быстрого старта на позиции junior-аналитика поможет курс «Аналитик данных».
За 6 месяцев обучения вы:
Изучите SQL, Python, Power BI для работы с большими данными.
Научитесь применять статистические методы и проверять гипотезы.
Создадите 4 полноценных проекта для портфолио.
Выполните более 20 комплексных практических заданий.
Весь учебный процесс построен на практике под руководством опытных наставников из ведущих IT-компаний. Уже в процессе обучения вы разберёте тестовые задания от Сбера, Яндекса, Т-Банка и начнёте искать работу.
Начните свой путь в сферу анализа данных — регистрируйтесь на курс. От нас — актуальные знания, навыки и поддержка на всех этапах вашего обучения
Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5yNAhje
Пользователи Cursor AI начали массово замечать, что ассистент без предупреждения удаляет файлы из проекта
Судя по обсуждениям на сайте ассистента, такое уже случалось, но это были единичные случаи. Последние дни же на это пожаловалась масса людей. Некоторые даже заявляют, что так и не смогли восстановить удаленные файлы, потому что их нет ни в корзине, не в .deleted папках. Куда их девает курсор, непонятно. Есть также сообщения о том, что ассистент может просто удалить половину кода, чтобы пофиксить баг 🧠
Мемологи в Твиттере реагируют незамедлительно
Какой вопрос – такой ответ. С вас 200 долларов, кстати
Читать полностью…Новость дня: Франсуа Шолле запускает собственную AI-компанию!
Напоминаем, что недавно Шолле уволился из Google DeepMind, где был ведущим исследователем (пост). За долгие годы в Google он стал создателем Keras, главным автором бенчмарка ARC AGI, приложил руку к куче важных проектов и написал кучу известных учебников.
Шолле с самого начала говорил о том, что уволился, чтобы создать собственную лабораторию, и вот сегодня наконец объявил о том, что совместно с Ники Кнупом (тоже из гугла) открывает Ndea (не путать с Nvidia).
Их цель – найти новую парадигму ИИ, которая сможет обучаться так же эффективно, как человек. Подробности можно посмотреть на сайте.
"Имея эту технологию в руках мы планируем заняться каждой научной проблемой которую она может решить и значительно ускорить научный прогресс".Читать полностью…
Пост для тех, кому хочется отвлечься от разговоров про LLM-гонку: вышло крутое интервью про старую добрую продуктовую аналитику
Гость – продакт оунер AppMetrica (это инструмент для аналитики приложений от Яндекса, пожалуй самый популярный в России). Вот несколько интересных тезисов про тренды в области:
🟦 Самое важное для бизнеса сегодня – лучше понимать поведение пользователей и вовремя реагировать на изменение метрик. Поэтому увеличивается роль проактивной аналитики. Это значит, что формат, когда люди сами анализируют данные в поисках проблем, устарел: теперь сигналы о значимых изменениях должна подавать сама аналитическая система. Например, в AppMetrica это предусмотрено в новом инструменте "Инсайты".
🟦 Еще одним трендом игровой аналитики станет поиск баланса между доходом от рекламы и внутренними покупками. Если раньше сложные игры зарабатывали на "внутриигровых" покупках, а более простые – на их комбинации с рекламой, то сейчас эти паттерны размываются.
🟦 Ну и, конечно, все стремятся к единому окну для анализа данных из разных систем аналитики, и это – одно ключевых направлений развития AppMetrica. Например, сегодня там уже можно увидеть интеграции со сторонними трекингами и рекламными сервисами.
Полностью почитать можно здесь
Почему o1 иногда думает на китайском?
После выхода o1 некоторые пользователи стали замечать любопытное явление: во время размышлений модель может рандомно переключиться на... китайский язык (пример). Ответ она затем дает на языке пользователя, но ситуацию это не проясняет.
o1, кстати, не одинственный ризонер, который так делает. QwQ вот тоже переключается во время рассуждений на китайский(пост). Но с QwQ все понятно, моделька родом из Китая и основной язык данных китайский. А o1 то чего?
OpenAI такое поведение никак не комментировали, но у других экспертов и ресерчеров есть идеи. Например, CEO Hugging Face пишет (и это, конечно, первое, о чем можно подумать), что в трейне просто было очень-очень много китайской даты, потому что многие компании, и возможно OpenAI в том числе, используют китайские сервисы разметки. Так что это вполне правдоподобный вариант.
Но это не объясняет, почему только китайский. Ведь в данных точно много разметки на хинди, или на тайском, или на испанском. Но модель никогда, вообще никогда на эти языки не переключается. Почему?
Некоторые считают, что это мог быть намеренный эксперимент OpenAI, ведь токены в китайском языке гораздо информативнее, чем в других, а значит, рассуждения на китайском могут быть короче и дешевле. А если думать о том, что модель действительно выполняет поиск в пространстве решений, то объяснить происходящее можно так: рассуждения на определенном языке в определенных доменах могут чаще приводить к правильным ответам (например, из-за того же дисбаланса в данных), чем рассуждения на других языках, потому модель такие ветки и выбирает.
В любом, пока такое поведение – загадка. Надеемся, OpenAI все-таки даст свои комментарии
НИУ ВШЭ выкатили рейтинг лучших вузов по качеству приема абитуриентов. Оценивали средний балл ЕГЭ у бакалавров и специалистов, поступивших в 2024 году.
В топ-10 по качеству общего набора оказались не только всем знакомые МФТИ и МГИМО, но и неожиданно – Центральный университет (вуз, созданный при поддержке 50 крупнейших компаний страны для подготовки профессиональных кадров для бизнеса). Он обогнал МГУ имени М.В. Ломоносова и получил восьмое место со средним баллом ЕГЭ 84,7. Результат платного набора составил 84,4, что позволило Центральному университету замкнуть тройку лидеров. Его опередили только МФТИ и Университет Иннополис.
В Центральном университете отметили, что у абитуриентов есть много возможностей получения грантов, покрывающих до 100% стоимости обучения. Студентам вуз предоставляет оплачиваемые стажировки в топовых российский компаниях.
P.S. Неплохие условия для старта карьеры, в наше время такого не было.
Приглашаем вас на открытый вебинар: «Как увеличить число обнаружений YOLO?» OTUS.RU
⏰Дата: 20 января в 20:00 мск
Спикер: Дмитрий Колесников
📚На вебинаре вы узнаете на практике:
+Необходимые нюансы с библиотекой по работе с YOLO моделями
+Как увеличивать чисто детекций и инстанс сегментаций с использованием патчевых подходов инференса
+Что нужно для запуска на видеопотоке нейронной сети в базовом и патчевом режиме
+Теорию патчевых методов обработки
🚀В результате вебинара вы научитесь:
-Работать с нейронной сетю на изображениях и видео в базовом и патчевом подходе
-Автопатчингу и сможете его применить для увеличения числа детекций
*а также познакомитесь с библиотекой patched_yolo_infer
Участники вебинара получат скидку🎁 на курс «Компьютерное зрение»
👉Регистрируйтесь по ссылке: OTUS.RU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
Кстати, эпилог к новой статье Google заслуживает отдельного внимания. Звучит как «The true art of memory is the art of attention!», то есть «Искусство запоминания это искусство внимания».
Это цитата Сэмюэля Джонсона (да, того самого, чей портрет стал мемом). Он был английским критиком и лексикографом, и сказал это (точнее, написал) в 1787.
Сегодня это высказывание можно делать лозунгом всего ML
Вот это внезапно: OpenAI дропнули целый экономический план для укрепления лидерства США в сфере ИИ – OpenAI’s Economic Blueprint
В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).
Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий
Хорош, Сэм. Интересное, когда уже увидим его в конгрессе?
Все: ИИ – это дорого!
Цукерберг: планирует до конца года заменить модельками инженеров с шестизначными зарплатами
Ладно, на самом деле он не говорил, что планирует заменять. Сказал только "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код". Читайте между строк.
На секундочку, по данным сайтов трекинга зарплат, сейчас миддлы в Meta получают сотни тысяч долларов. Представьте, сколько таких работает у Марка 💀
GAN умер; да здравствует GAN!
Да, эта статья заслуживает внимания за одно лишь название (в оригинале на английском The GAN is dead; long live the GAN!). Однако вчера она еще и стала лидером в рейтинге Paper of the day на HF. Разбираемся 👇
Итак, GAN был одной из первых генеративных архитектур. Чем же он плох? Самое главное, нестабильностью: чтобы заставить лосс сойтись, обычно нужно продать дьяволу душу. Есть миллион статей, описывающих кучу трюков для таких танцев с бубном, но это все еще попытки компенсировать фундаментальные недостатки архитектуры.
Здесь же авторы предлагают вообще переосмыслить подход и представляют архитектуру R3GAN. В R3GAN нет эмпирических трюков, как например в StyleGAN2, но зато есть новая функция потерь Relativistic Pairing GAN. Это продолжение идеи о лоссе Relativistic GAN, который был предложен еще давно, но здесь авторы добавили две хитрые регуляризации, и, что самое главное не имперически, а теоретически доказали локальную сходимость. В итоге получаем стабильность + универсальность для разных распределений даты.
В архитектуре тоже кое-что изменилось. Авторы полностью отказались от рудиментов, которые оставались в ганах аж с 2015 (ака нормализация, впрыскивание шума и тд) и добавили современных подходов: заменили стандартные свертки на групповые, добавили больше остаточных блоков в стиле ResNet, увеличили ширину боттлнеков и переделали ресемплинг с помощью билинейной интерполяции (раньше было просто транспонирование сверток).
В итоге R3GAN очень заметно превзошла StyleGAN2 на нескольких датасетах по FID, и даже показывает какие-то конкурентоспособные результаты по сравнению с диффузионными моделями, при этом оставаясь более эффективной с точки зрения вычислительных затрат.
Есть даже демо, потыкать и погенерить можно здесь
DeepSeek: 100 additional authors not shown
Google: подержи мое пиво