abstractdl | Unsorted

Telegram-канал abstractdl - AbstractDL

17143

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️ By Anton Razzhigaev chat: https://t.me/abstractdl_chat

Subscribe to a channel

AbstractDL

Do Large Language Models Latently Perform Multi-Hop Reasoning? (by Google)

Авторы обнаружили, что если вопрос сформулирован неявно, то LLM уже во время его чтения "пытаются" подставить промежуточный шаг рассуждений в латентном пространстве. Например, для эмбеддингов последних токенов этого вопроса

Сколько людей живут в крупнейшем городе Европы?

растут логиты, соответствующие слову "Стамбул".

Выходит, что на промежуточных слоях происходит multi-hop reasoning. Пока авторы нашли подтверждение этому максимум до 2 шагов рассуждений, причём качество первого шага растёт по мере увеличения модели, а вот второй шаг размазывается по всем слоям и почему-то не сильно зависит от размеров LLM.

Статья

Читать полностью…

AbstractDL

SORA: генерация видео от OpenAI

Я не был настолько взбудоражен со времён выхода GPT-2! Им удалось опять втайне ото всех совершить чудо!

Пишут, что это гибрид диффузии и GPT, то есть они вернулись к авторегрессионной генерации (как первый DALL-E)

We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT

Благодаря этому модель "видит" все сгенерированные кадры и демонстрирует невероятную консистентность! Даже если объект временно ушёл за пределы видео, то он может вернуться обратно без искажений. Ещё известно, что они используют синтетические кэпшны как в DALL-E 3

Блог

Читать полностью…

AbstractDL

SliceGPT: сжимаем LLM, уменьшая размерность эмбеддингов (by Microsoft)

Языковые модели обладают избыточной, не используемой ёмкостью — что-то похожее мы уже видели в статье про мёртвые нейроны. А тут авторы предлагают убрать всё лишнее ортогональными преобразованиями с последующим отбрасыванием малоактивных строк и столбцов из матриц весов.

Выглядит это так, будто бы размерность эмбеддингов итоговой модели стала на 10-30% меньше, а перплексия и метрики почти не ухудшаются, особенно у крупных моделей (Llama-70B и OPT-66B). При этом в коде инференса ничего менять не надо.

P.S. Забавно, но модели вроде Phi-2 сжимаются гораздо менее охотно, возможно они эффективнее используют свою ёмкость.

Статья, GitHub (soon)

Читать полностью…

AbstractDL

🔥Завершено обучение TinyLlama

Это крошечная (1.1B) версия Llama-2, которой за 4 месяца скормили 3 триллиона токенов (SlimPajama + StarCoder).

Авторам огромный респект, т.к. они опубликовали все промежуточные чекпоинты, chat-версию и даже очень шустрый код для претрейна!

Статья, GitHub, Huggingface

Читать полностью…

AbstractDL

VideoPoet: языковая модель для генерации и редактирования видео БЕЗ диффузий (by Google)

Да, это возможно! Рано выкинули Dall·E-1 на помойку истории, авторегрессионная генерация всё ещё на коне! Гугл представил модель, которая умеет создавать картинки, видео и аудио + редактировать всё это по тексту.

VideoPoet — это префиксная языковая модель (8B) с общим словарём для всех модальностей, при этом видео-ролики кодируются всего лишь в 1280 токенов. А промпт энкодится при помощи T5-XL и добавляется через линейную проекцию в префикс (просто безумие!). Дополнительно тут есть модуль super-resolution, ведь изначально видео генерируется в разрешении 128x128.

Статья блог

Читать полностью…

AbstractDL

Гугл представил Gemini — семейство мультимодальных моделей

Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷‍♂️

Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.

P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.

Статья, блог

Читать полностью…

AbstractDL

🔥Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz

Читать полностью…

AbstractDL

The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models

Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.

Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.

Статья

Читать полностью…

AbstractDL

Обновление GPT-4

Читать полностью…

AbstractDL

Language Models Represent Space and Time (by MIT)

В эмбеддингах языковых моделей (на средних слоях) обнаружились линейные фичи пространственно-временных координат.

И более того, они содержат внутри себя приблизительную карту мира, которую можно восстановить линейным преобразованием. То же самое работает для имён и событий — в их активациях присутствуют линейные фичи времени.

Это ещё одно свидетельство того, что языковые модели не просто запоминают обучающую выборку, а строят внутри себя физическую картину мира.

P.S. у Бориса расписано чуть подробнее

Статья

Читать полностью…

AbstractDL

AIJ Contest — Strong Intelligence

В этом году я помогаю организовать соревнование мультимодальных чатботов. Там нужно подготовить языковую модель, которая умеет понимать картинки, аудио и отвечать на сложные вопросы в формате диалога (на английском языке).

Звучит тяжело, но на самом деле такую штуку можно и за 1 день обучить (см. FROMAGe), к тому же мы даём участникам карточки A100 по 80 гигов и выложили простенький бейзлайн на базе ImageBind + LLaMa2-7b. Призовой фонд 3М₽.

GitHub, платформа

Читать полностью…

AbstractDL

InstaFlow: диффузия за 1 шаг

Главная проблема диффузий — это их скорость. Было много попыток сократить количество шагов сэмплирования, но дойти до скорости ГАНов до сих пор не получалось.

Авторы этой работы, вдохновившись идеями Optimal Transport, догадались, что основное препятствие при ускорении генерации — это нелинейные траектории апдейтов (см. картинку). Но если потюнить модель на задаче их "выпрямления", то потом она легко дистиллируется в одношаговую диффузию!

При этом качество проседает совсем незначительно (FID для Stable Diffusion: 10.7 → 11.8)

Статья, GitHub

Читать полностью…

AbstractDL

Qwen-VL: вероятно лучшая мультимодальная языковая модель (by Alibaba)

Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!

Правда архитектурно ничего нового тут нет:

ViT-G + однослойный Q-former + LLM
Изображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.

По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.

Статья, GitHub

Читать полностью…

AbstractDL

Универсальные адверсариал атаки на LLM (by Carnegie Mellon)

Авторы предложили рабочий способ атаки закрытых языковых моделей — у них получилось заставить их выдать рецепты бомб и алгоритм уничтожения человечества с одной и той же текстовой инъекцией в промпт. Оказалось, что уязвимости у открытых моделей (LLaMa, Vicuna) и закрытых (ChatGPT, Bard) совпадают, предположительно, из-за пересечения обучающих данных. То есть, атакуя в режиме whitebox опенсорсные модели, можно получить универсальные инъекции для blackbox систем!

Идея атаки довольно простая — нужно взять открытую модель (Vicuna) и применить Greedy Coordinate Gradient алгоритм (умный перебор) для поиска инъекции в промпт, которая заставляет модель начинать свой ответ со слов "Sure, here is how to". И вуаля! Данная атака работает в т.ч. для ChatGPT, Claude, Bard etc.

P.S. Примеры из статьи уже заблокировали в OpenAI, но никто не мешает сгенерировать новые 💁‍♂️

Статья, GitHub

Читать полностью…

AbstractDL

LLaMa-2: лучшая опенсорсная языковая модель (by Meta)

Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.

Из интересных наблюдений — RL не просто портит калибровку вероятностей (что первыми заметили openAI), а на самом деле корректирует температуру, балансируя между фактологической точностью и креативностью, в зависимости от промпта.

Статья, GitHub, HuggingFace

Читать полностью…

AbstractDL

Gemma: открытые LLM от Google

Представлены две модели размером 2B и 7B с коммерческими лицензиями. В техрепорте пишут, что это младшие братья Gemini

similar architectures, data, and training recipes

Забавно, что авторы используют огромный byte-level токенизатор в 256к токенов, при этом называя его маленьким сабсетом полного токенизатора Gemini (сколько там токенов тогда?). Кстати это одна из немногих моделей с weight sharing между матрицей эмбеддингов и LM головой. Учились эти две модели на датасетах размером 2Т и 6Т токенов. В остальном сильно похоже на Llama2.

Статья, huggingface

Читать полностью…

AbstractDL

Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!

У гугла с неймингом продуктов и моделей большие пролемы. Давайте разбираться что за 1.5.

То что сейчас крутится у них в проде, и что я недавно тестил, Gemini Ultra (Advanced), - это Gemini 1.0. А тут анонсировали, что уже сделали новую версию - Gemini 1.5.

Что нового?
- Эта модель уже основана на Mixture of Experts (MoE).
- может работать с контекстами в длиной 1M токенов, что на порядок больше чем у конкурентов.
- Причем, токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.

В 1M токенов поместится примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.

Подробности есть в тех-репорте (58 стр). Либо в блог блог-посте.

@ai_newz

Читать полностью…

AbstractDL

Depth Anything (by TikTok)

Новая сота в monocular depth estimation, код и веса уже в открытом доступе! Никаких супер инноваций, просто огромный датасет с псевдо-разметкой.

Статья, Github, huggingface

Читать полностью…

AbstractDL

Точечное редактирование знаний внутри LLM (by Alibaba)

Тут вышел крутейший обзор всех методов редактирования памяти языковых моделей! Авторы собрали всё внутри единого фреймворка, и теперь можно в пару строчек кода подправить мозги вашей LLM 🌚

Статья, GitHub

Читать полностью…

AbstractDL

Я выиграл Yandex ML Prize! (ex. премия Сегаловича)

За научные исследования в области графов знаний, языковых и мультимодальных моделей

Читать полностью…

AbstractDL

NoPE: лучший позишн энкодинг — это тот, которого нет

Правда ли, что позиционное кодирование критически необходимо трансформерам? Оказывается, это справедливо только для энкодеров, а вот декодеры (GPT, LLaMA и тд) могут прекрасно работать и без него!

Похоже, что каузальные маски внимания (которые не позволяют заглядывать в правый контекст) сами по себе являются отличным источником информации о позиции токенов. И более того, трансформер БЕЗ позиционного кодирования лучше обобщается на размер контекста, выходящий за длину примеров из обучения, даже по сравнению с такими мудрёными методами, как Rotary или ALiBi.

P.S. Eсли вас на собеседовании спросят зачем нужнен позишн энкодинг в GPT — можете говорить, что не особо он и нужен 💁‍♂️

Статья, GitHub

Читать полностью…

AbstractDL

Альтман написал, что они временно перестали принимать новые платные подписки в ChatGPT.

Вдумайтесь в это, компания добровольно отказывается от денег, потому что у нее временно кончились вычислительные ресурсы 😵

Нечасто такое увидишь в ИТ-секторе

Читать полностью…

AbstractDL

VR-NeRF: виртуальная реальность на шаг ближе (by Meta)

100 гигапикселей HDR фотографий не так то просто запихнуть в NeRF, но у исследователей из Meta это получилось. Более того, итоговое VR пространство в реальном времени рендерится на Quest Pro VR в разрешении 2K, 36 fps.

В их статье описаны технические сложности с которыми пришлось столкнуться в процессе, решения по оптимизации, борьбе с aliasing и расширением динамического диапазона.

Статья, блог, датасет

Читать полностью…

AbstractDL

Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub

Читать полностью…

AbstractDL

The Reversal Curse of LLM

Жаль, но похоже все языковые модели, независимо от размера, лажают на обобщениях фактов: A⠀is⠀B⠀→⠀B⠀is⠀A.

Авторы собрали несколько датасетов с такими логическими следствиями и проверили самые крутые модели (включая LlaMa и GPT-3). Оказалось, что обучаясь на факте "John is a son of Ann", модели не учат "Ann has a son John". А соответствующие логиты даже на капельку больше не становятся. Эта проблема есть и у GPT-4 (см. картинку).

Статья, GitHub

Читать полностью…

AbstractDL

Longformer-tiny для русского языка

Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️

Хабр, Huggingface

Читать полностью…

AbstractDL

MathGLM: GPT умеет быть калькулятором

Один из самых спорных вопросов про GPT — насколько сильны её вычислительные способности. Или это всего лишь "стохастический попугай", который запомнил много всего и воспроизводит это в нужный момент?

У авторов MathGLM получилось обучить скромную 2B модель складывать, умножать, делить и потенциировать 9-значные (!) числа практически со стопроцентной точностью. При этом они внимательно следили, чтобы модель не видела ничего из теста заранее. Ещё авторы отдельно выделяют важность токенизатора (для чисел у них он char-level).

Лично я думаю, что трансформеры действительно могут выполнять точные вычисления, они ограничены лишь количеством своих слоёв и длиной контекста в chain-of-thought.

Статья

Читать полностью…

AbstractDL

CausalLM is not optimal for in-context learning (by Google)

Довольно претенциозная статья про недостатки causal attention и, следовательно, превосходство PaLM над GPT.

Авторам удалось экспериментально и теоретически показать, что префиксные языковые модели (T5, PaLM, UL-2) лучше понимают few-shot демонстрации и даже могут находить оптимальное (по MSE) решение задач регрессии, в отличие от каузальных языковых моделей (GPT, LLaMa). Похоже, что треугольное маскирование внимания (causal attention) сильно ограничивает сложность операций с внутренними представлениями.

Статья

Читать полностью…

AbstractDL

🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face

Читать полностью…

AbstractDL

🔥FlashAttention-2: опять в два раза быстрее

Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!

Статья, GitHub

Читать полностью…
Subscribe to a channel