11507
Коротко про классные штуки в CV, NLP и AI 🤷♂️ By Anton Razzhigaev
Помните Grokking? Я сделал colab ноутбук с его воспроизведением. Там нужно всего полчаса, чтобы достичь генерализации после оверфита.
Читать полностью…
VAR: Image Generation via Next-Scale Prediction (by Bytedance)
Вы наверняка слышали про авторегрессионный подход к генерации изображений (imageGPT, Dalle-1). Но у этих методов было очень большое ограничение — картиночные токены приходилось "выпрямлять" в 1D последовательность, которая становилась слишком длинной. Поэтому они работали плохо и медленно, уступив место диффузиям.
Авторы VAR предложили мозговзрывательный способ генерировать изображения при помощи GPT без необходимости делать это неприятное "выпрямление" — вместо авторегрессии по пикселям\токенам они делают "next-scale prediction", то есть предсказывают сразу всю матрицу VQVAE токенов за один forward pass. Теперь один шаг авторегрессии — это шаг увеличения разрешения (см. картинку). К моему удивлению, для этого потребовалось совсем немного модификаций оригинальной GPT-2 архитектуры (текстовой).
Такой подход работает просто молниеносно, а законы масштабирования сильно лучше, чем у диффузий. По метрикам VAR бьёт всех на class-conditional датасетах (генерации по тексту пока нет, но над этим уже работают). А тем временем весь код и веса уже в открытом доступе.
P.S. Думаю, что это один из самых перспективных методов генерации изображений (и видео?) на данный момент.
Статья, GitHub, Huggingface
Mistral-7B-v0.2
Появились веса для обновлённой версии базовой модели Mistral-7B. Вроде как убрали Sliding-Window-Attention (SWA) и увеличили контекст до 32к токенов. Других деталей нет, но думаю это что-то вкусное.
P.S. HF репозиторий не официальный, но голые веса можно найти в недрах сайта Mistral
Huggingface, raw weights
🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"
Как всегда бывает на презентациях NVIDIA, слово "быстро" - это вчерашний день.
↪️ B200 GPU обещает до 20 петафлопс производительности в FP4 и 208 миллиардов транзисторов. Ваша GTX 1080 Ti нервно курит в сторонке.
↪️ В одной B200 будет 192GB памяти с пропускной способностью 8 ТБ/с. Идеально для LLM моделей, которые жрут память как не в себя и требуют большую пропускную способность.
↪️ GB200 "суперчип" объединяет 2 таких B200 GPU с одним Grace CPU (на ARM архитектуре). Nvidia хвастается, что это в 30 раз производительнее для инференса в LLM в FP4 по сравнению с H100.
↪️ Ключевая фишка - второе поколение трансформерного движка, который удваивает вычислительную мощность, пропускную способность и размер модели. Но хз, какая потеря точности будет после конвертации в FP4.
↪️ Nvidia утверждает, что GB200 снижает стоимость и энергопотребление в 25 раз по сравнению с H100 (опять же, в FP4).
↪️ Теперь будет поддерживаться и новый формат - FP6, золотая середина по скорости и точности между FP4 и FP8. Но бенчмарков не показали.
↪️ FP64 на уровне 45 терафлопс на GPU (против 60 у H100). Для нейронок double precision не релевантен, поэтому они особо и не парятся ускорять тут.
↪️ Тренировка GPT-MoE с 1.8 триллиона параметров требовала 90 дней на 8,000 GH100 и 15МВт энергии. Теперь достаточно 2,000 GB200 и 4МВт. То есть во время тренировки 1x GB200 примерно в 4 раза быстрее чем 1x H100.
↪️ На инференсе GPT-3 с 175 млрд параметров, GB200 "всего" в 7 раз быстрее H100. Ну ладно, не все сразу.
Но не радуйтесь раньше времени - цены будут ядреными! Если H100 стоит около $40k, то GB200 будет минимум в 4-5 раз дороже.
Да и не достать их будет простым смертным. Первыми их получат Amazon, Google, Microsoft и Oracle. Известно, что Амазон уже планирует кластер на 20,000 GB200.
А потребительские версии Blackwell ожидаются не раньше 2025 года.
@ai_newz
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.
На всех достаточно важных бенчмарках Opus показывают существенный прирост относительно GPT-4.
Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.
— Добавили новую модальность, модель принимает на вход картинки (а значит и видеоряд — как последовательность кадров)
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно. Для сравнения GPT-4-turbo стоит $10/$30
— Также обещают, что самая мощная модель имеет «more advanced agentic capabilities», что бы это ни значило :)
— Вдобавок, к модели подключили интерпретатор кода и возможность добавлять свои собственные инструменты
— Самый большой прирост метрик — на задачах, связанных с математикой. Даже без примеров в промпте модель показывает себя лучше, чем Gemini Ultra / GPT-4. Круто, если не переобучение, особенно в контексте того, что модели — НАПОМНЮ, ЭТО МНОГИЕ УПУСКАЮТ — будут использоваться для АВТОМАТИЗАЦИИ научных исследований.
Модели доступны по API сегодня всем, никакого листа ожидания больше нет. Для подписчиков Pro на сайте уже должна быть доступна модель Opus, а Sonet достанется бесплатным пользователям. Заходите: claude.ai
Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо 😐 Почему? Потому что релиз Арракиса (кодовое название проекта в OpenAI) отложили до выпуска Дюны 2 😀
Gemma: открытые LLM от Google
Представлены две модели размером 2B и 7B с коммерческими лицензиями. В техрепорте пишут, что это младшие братья Gemini
similar architectures, data, and training recipes
Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!
У гугла с неймингом продуктов и моделей большие пролемы. Давайте разбираться что за 1.5.
То что сейчас крутится у них в проде, и что я недавно тестил, Gemini Ultra (Advanced), - это Gemini 1.0. А тут анонсировали, что уже сделали новую версию - Gemini 1.5.
Что нового?
- Эта модель уже основана на Mixture of Experts (MoE).
- может работать с контекстами в длиной 1M токенов, что на порядок больше чем у конкурентов.
- Причем, токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
В 1M токенов поместится примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
Подробности есть в тех-репорте (58 стр). Либо в блог блог-посте.
@ai_newz
Depth Anything (by TikTok)
Новая сота в monocular depth estimation, код и веса уже в открытом доступе! Никаких супер инноваций, просто огромный датасет с псевдо-разметкой.
Статья, Github, huggingface
Точечное редактирование знаний внутри LLM (by Alibaba)
Тут вышел крутейший обзор всех методов редактирования памяти языковых моделей! Авторы собрали всё внутри единого фреймворка, и теперь можно в пару строчек кода подправить мозги вашей LLM 🌚
Статья, GitHub
Я выиграл Yandex ML Prize! (ex. премия Сегаловича)
За научные исследования в области графов знаний, языковых и мультимодальных моделей
NoPE: лучший позишн энкодинг — это тот, которого нет
Правда ли, что позиционное кодирование критически необходимо трансформерам? Оказывается, это справедливо только для энкодеров, а вот декодеры (GPT, LLaMA и тд) могут прекрасно работать и без него!
Похоже, что каузальные маски внимания (которые не позволяют заглядывать в правый контекст) сами по себе являются отличным источником информации о позиции токенов. И более того, трансформер БЕЗ позиционного кодирования лучше обобщается на размер контекста, выходящий за длину примеров из обучения, даже по сравнению с такими мудрёными методами, как Rotary или ALiBi.
P.S. Eсли вас на собеседовании спросят зачем нужнен позишн энкодинг в GPT — можете говорить, что не особо он и нужен 💁♂️
Статья, GitHub
Альтман написал, что они временно перестали принимать новые платные подписки в ChatGPT.
Вдумайтесь в это, компания добровольно отказывается от денег, потому что у нее временно кончились вычислительные ресурсы 😵
Нечасто такое увидишь в ИТ-секторе
VR-NeRF: виртуальная реальность на шаг ближе (by Meta)
100 гигапикселей HDR фотографий не так то просто запихнуть в NeRF, но у исследователей из Meta это получилось. Более того, итоговое VR пространство в реальном времени рендерится на Quest Pro VR в разрешении 2K, 36 fps.
В их статье описаны технические сложности с которыми пришлось столкнуться в процессе, решения по оптимизации, борьбе с aliasing и расширением динамического диапазона.
Статья, блог, датасет
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз
Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.
Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).
Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.
Статья, GitHub
The Reversal Curse of LLM
Жаль, но похоже все языковые модели, независимо от размера, лажают на обобщениях фактов: A⠀is⠀B⠀→⠀B⠀is⠀A.
Авторы собрали несколько датасетов с такими логическими следствиями и проверили самые крутые модели (включая LlaMa и GPT-3). Оказалось, что обучаясь на факте "John is a son of Ann", модели не учат "Ann has a son John". А соответствующие логиты даже на капельку больше не становятся. Эта проблема есть и у GPT-4 (см. картинку).
Статья, GitHub
Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA)
Всё это время мы генерировали картинки диффузией неправильно — оказывается, classifier-free guidance вредит диффузионному процессу в его начале и конце. А если включать guidance только на середине — то генерация станет не только разнообразнее, но и качественнее: для модели EDM2-XXL это уменьшает FID с 1.81 to 1.40!
Самое главное — эта модификация совместима со всеми диффузионными моделями.
Статья
Как устроено пространство, в котором думают языковые модели?
Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.
Статья, хабр
Quiet-STaR: думательные токены вместо Chain-of-Thought
Очень интересная идея, как обобщить CoT-промптинг, приближая его к подобию мыслительного процесса человека (говорить не всё, что думаешь).
Для этого авторы предложили позволить LLM иногда «думать», — старт и конец такой мысли определяются обучаемыми RL спецтокенами, а вот сама мысль чаще всего состоит из какой-то белиберды, уменьшающей перплексию дальнейшего текста.
В отличие от CoT, тут нет требования писать внятно, поэтому то, что генерится внутри мысли далеко не всегда получается интерпретировать. Тем не менее, это сильно бустит метрики и практически не замедляет инференс, т.к. генерация идёт параллельно.
Понятное дело, что это не работает без дообучения, но я попросил чатгпт притвориться, что она использует эти мыслительные токены, и спросил её помогло ли это ответить на мой вопрос. Она сказала что помогло 😁
Статья
Галлюцинации LLM можно определять по внутренней размерности активаций (by CISCO)
На мой взгляд один из самых красивых и простых способов выявлять враньё языковых моделей. Внутренняя размерность активаций — это что-то вроде сложности манифолда на котором лежат промежуточные эмбеддинги (кину в комменты пример).
И вот оказывается, когда LLM выдумывает что-то несуществующее, то размерность эмбеддингов со средних слоёв значительно подрастает (см. гистограммы). Таким образом, по всплескам размерности можно определить, где именно модель галлюцинирует, а где говорит правду.
Статья
Do Large Language Models Latently Perform Multi-Hop Reasoning? (by Google)
Авторы обнаружили, что если вопрос сформулирован неявно, то LLM уже во время его чтения "пытаются" подставить промежуточный шаг рассуждений в латентном пространстве. Например, для эмбеддингов последних токенов этого вопроса
Сколько людей живут в крупнейшем городе Европы?
SORA: генерация видео от OpenAI
Я не был настолько взбудоражен со времён выхода GPT-2! Им удалось опять втайне ото всех совершить чудо!
Пишут, что это гибрид диффузии и GPT, то есть они вернулись к авторегрессионной генерации (как первый DALL-E)
We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT
SliceGPT: сжимаем LLM, уменьшая размерность эмбеддингов (by Microsoft)
Языковые модели обладают избыточной, не используемой ёмкостью — что-то похожее мы уже видели в статье про мёртвые нейроны. А тут авторы предлагают убрать всё лишнее ортогональными преобразованиями с последующим отбрасыванием малоактивных строк и столбцов из матриц весов.
Выглядит это так, будто бы размерность эмбеддингов итоговой модели стала на 10-30% меньше, а перплексия и метрики почти не ухудшаются, особенно у крупных моделей (Llama-70B и OPT-66B). При этом в коде инференса ничего менять не надо.
P.S. Забавно, но модели вроде Phi-2 сжимаются гораздо менее охотно, возможно они эффективнее используют свою ёмкость.
Статья, GitHub (soon)
🔥Завершено обучение TinyLlama
Это крошечная (1.1B) версия Llama-2, которой за 4 месяца скормили 3 триллиона токенов (SlimPajama + StarCoder).
Авторам огромный респект, т.к. они опубликовали все промежуточные чекпоинты, chat-версию и даже очень шустрый код для претрейна!
Статья, GitHub, Huggingface
VideoPoet: языковая модель для генерации и редактирования видео БЕЗ диффузий (by Google)
Да, это возможно! Рано выкинули Dall·E-1 на помойку истории, авторегрессионная генерация всё ещё на коне! Гугл представил модель, которая умеет создавать картинки, видео и аудио + редактировать всё это по тексту.
VideoPoet — это префиксная языковая модель (8B) с общим словарём для всех модальностей, при этом видео-ролики кодируются всего лишь в 1280 токенов. А промпт энкодится при помощи T5-XL и добавляется через линейную проекцию в префикс (просто безумие!). Дополнительно тут есть модуль super-resolution, ведь изначально видео генерируется в разрешении 128x128.
Статья блог
Гугл представил Gemini — семейство мультимодальных моделей
Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷♂️
Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.
P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.
Статья, блог
🔥Stable Video Diffusion
Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.
Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.
Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.
По представленным бенчмаркам, SDV обходит Gen-2 и Pika.
Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!
Статья с деталями.
@ai_newz
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
Language Models Represent Space and Time (by MIT)
В эмбеддингах языковых моделей (на средних слоях) обнаружились линейные фичи пространственно-временных координат.
И более того, они содержат внутри себя приблизительную карту мира, которую можно восстановить линейным преобразованием. То же самое работает для имён и событий — в их активациях присутствуют линейные фичи времени.
Это ещё одно свидетельство того, что языковые модели не просто запоминают обучающую выборку, а строят внутри себя физическую картину мира.
P.S. у Бориса расписано чуть подробнее
Статья
AIJ Contest — Strong Intelligence
В этом году я помогаю организовать соревнование мультимодальных чатботов. Там нужно подготовить языковую модель, которая умеет понимать картинки, аудио и отвечать на сложные вопросы в формате диалога (на английском языке).
Звучит тяжело, но на самом деле такую штуку можно и за 1 день обучить (см. FROMAGe), к тому же мы даём участникам карточки A100 по 80 гигов и выложили простенький бейзлайн на базе ImageBind + LLaMa2-7b. Призовой фонд 3М₽.
GitHub, платформа