Telegram-канал abstractdl - AbstractDL: Unsorted - каталог телеграмм

abstractdl | Unsorted

Subscribe to a channel

Telegram-канал abstractdl - AbstractDL

17143

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️ By Anton Razzhigaev chat: https://t.me/abstractdl_chat

Subscribe to a channel

AbstractDL

27 February 2024 09:04

Do Large Language Models Latently Perform Multi-Hop Reasoning? (by Google)

Авторы обнаружили, что если вопрос сформулирован неявно, то LLM уже во время его чтения "пытаются" подставить промежуточный шаг рассуждений в латентном пространстве. Например, для эмбеддингов последних токенов этого вопроса

Сколько людей живут в крупнейшем городе Европы?

растут логиты, соответствующие слову "Стамбул".

Выходит, что на промежуточных слоях происходит multi-hop reasoning. Пока авторы нашли подтверждение этому максимум до 2 шагов рассуждений, причём качество первого шага растёт по мере увеличения модели, а вот второй шаг размазывается по всем слоям и почему-то не сильно зависит от размеров LLM.

Статья

Читать полностью…

AbstractDL

15 February 2024 20:26

SORA: генерация видео от OpenAI

Я не был настолько взбудоражен со времён выхода GPT-2! Им удалось опять втайне ото всех совершить чудо!

Пишут, что это гибрид диффузии и GPT, то есть они вернулись к авторегрессионной генерации (как первый DALL-E)

We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT

Благодаря этому модель "видит" все сгенерированные кадры и демонстрирует невероятную консистентность! Даже если объект временно ушёл за пределы видео, то он может вернуться обратно без искажений. Ещё известно, что они используют синтетические кэпшны как в DALL-E 3

Блог

Читать полностью…

AbstractDL

29 January 2024 12:01

SliceGPT: сжимаем LLM, уменьшая размерность эмбеддингов (by Microsoft)

Языковые модели обладают избыточной, не используемой ёмкостью — что-то похожее мы уже видели в статье про мёртвые нейроны. А тут авторы предлагают убрать всё лишнее ортогональными преобразованиями с последующим отбрасыванием малоактивных строк и столбцов из матриц весов.

Выглядит это так, будто бы размерность эмбеддингов итоговой модели стала на 10-30% меньше, а перплексия и метрики почти не ухудшаются, особенно у крупных моделей (Llama-70B и OPT-66B). При этом в коде инференса ничего менять не надо.

P.S. Забавно, но модели вроде Phi-2 сжимаются гораздо менее охотно, возможно они эффективнее используют свою ёмкость.

Статья, GitHub (soon)

Читать полностью…

AbstractDL

06 January 2024 02:58

🔥Завершено обучение TinyLlama

Это крошечная (1.1B) версия Llama-2, которой за 4 месяца скормили 3 триллиона токенов (SlimPajama + StarCoder).

Авторам огромный респект, т.к. они опубликовали все промежуточные чекпоинты, chat-версию и даже очень шустрый код для претрейна!

Статья, GitHub, Huggingface

Читать полностью…

AbstractDL

23 December 2023 11:57

VideoPoet: языковая модель для генерации и редактирования видео БЕЗ диффузий (by Google)

Да, это возможно! Рано выкинули Dall·E-1 на помойку истории, авторегрессионная генерация всё ещё на коне! Гугл представил модель, которая умеет создавать картинки, видео и аудио + редактировать всё это по тексту.

VideoPoet — это префиксная языковая модель (8B) с общим словарём для всех модальностей, при этом видео-ролики кодируются всего лишь в 1280 токенов. А промпт энкодится при помощи T5-XL и добавляется через линейную проекцию в префикс (просто безумие!). Дополнительно тут есть модуль super-resolution, ведь изначально видео генерируется в разрешении 128x128.

Статья блог

Читать полностью…

AbstractDL

06 December 2023 16:52

Гугл представил Gemini — семейство мультимодальных моделей

Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷‍♂️

Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.

P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.

Статья, блог

Читать полностью…

AbstractDL

22 November 2023 07:34

🔥Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz

Читать полностью…

AbstractDL

13 November 2023 15:16

The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models

Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.

Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.

Статья

Читать полностью…

AbstractDL

06 November 2023 19:42

Обновление GPT-4

Читать полностью…

AbstractDL

11 October 2023 19:49

Language Models Represent Space and Time (by MIT)

В эмбеддингах языковых моделей (на средних слоях) обнаружились линейные фичи пространственно-временных координат.

И более того, они содержат внутри себя приблизительную карту мира, которую можно восстановить линейным преобразованием. То же самое работает для имён и событий — в их активациях присутствуют линейные фичи времени.

Это ещё одно свидетельство того, что языковые модели не просто запоминают обучающую выборку, а строят внутри себя физическую картину мира.

P.S. у Бориса расписано чуть подробнее

Статья

Читать полностью…

AbstractDL

26 September 2023 13:33

AIJ Contest — Strong Intelligence

В этом году я помогаю организовать соревнование мультимодальных чатботов. Там нужно подготовить языковую модель, которая умеет понимать картинки, аудио и отвечать на сложные вопросы в формате диалога (на английском языке).

Звучит тяжело, но на самом деле такую штуку можно и за 1 день обучить (см. FROMAGe), к тому же мы даём участникам карточки A100 по 80 гигов и выложили простенький бейзлайн на базе ImageBind + LLaMa2-7b. Призовой фонд 3М₽.

GitHub, платформа

Читать полностью…

AbstractDL

13 September 2023 16:41

InstaFlow: диффузия за 1 шаг

Главная проблема диффузий — это их скорость. Было много попыток сократить количество шагов сэмплирования, но дойти до скорости ГАНов до сих пор не получалось.

Авторы этой работы, вдохновившись идеями Optimal Transport, догадались, что основное препятствие при ускорении генерации — это нелинейные траектории апдейтов (см. картинку). Но если потюнить модель на задаче их "выпрямления", то потом она легко дистиллируется в одношаговую диффузию!

При этом качество проседает совсем незначительно (FID для Stable Diffusion: 10.7 → 11.8)

Статья, GitHub

Читать полностью…

AbstractDL

29 August 2023 21:04

Qwen-VL: вероятно лучшая мультимодальная языковая модель (by Alibaba)

Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!

Правда архитектурно ничего нового тут нет:

ViT-G + однослойный Q-former + LLM

Изображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.

По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.

Статья, GitHub

Читать полностью…

AbstractDL

31 July 2023 16:01

Универсальные адверсариал атаки на LLM (by Carnegie Mellon)

Авторы предложили рабочий способ атаки закрытых языковых моделей — у них получилось заставить их выдать рецепты бомб и алгоритм уничтожения человечества с одной и той же текстовой инъекцией в промпт. Оказалось, что уязвимости у открытых моделей (LLaMa, Vicuna) и закрытых (ChatGPT, Bard) совпадают, предположительно, из-за пересечения обучающих данных. То есть, атакуя в режиме whitebox опенсорсные модели, можно получить универсальные инъекции для blackbox систем!

Идея атаки довольно простая — нужно взять открытую модель (Vicuna) и применить Greedy Coordinate Gradient алгоритм (умный перебор) для поиска инъекции в промпт, которая заставляет модель начинать свой ответ со слов "Sure, here is how to". И вуаля! Данная атака работает в т.ч. для ChatGPT, Claude, Bard etc.

P.S. Примеры из статьи уже заблокировали в OpenAI, но никто не мешает сгенерировать новые 💁‍♂️

Статья, GitHub

Читать полностью…

AbstractDL

18 July 2023 20:04

LLaMa-2: лучшая опенсорсная языковая модель (by Meta)

Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.

Из интересных наблюдений — RL не просто портит калибровку вероятностей (что первыми заметили openAI), а на самом деле корректирует температуру, балансируя между фактологической точностью и креативностью, в зависимости от промпта.

Статья, GitHub, HuggingFace

Читать полностью…

AbstractDL

21 February 2024 16:05

Gemma: открытые LLM от Google

Представлены две модели размером 2B и 7B с коммерческими лицензиями. В техрепорте пишут, что это младшие братья Gemini

similar architectures, data, and training recipes

Забавно, что авторы используют огромный byte-level токенизатор в 256к токенов, при этом называя его маленьким сабсетом полного токенизатора Gemini (сколько там токенов тогда?). Кстати это одна из немногих моделей с weight sharing между матрицей эмбеддингов и LM головой. Учились эти две модели на датасетах размером 2Т и 6Т токенов. В остальном сильно похоже на Llama2.

Статья, huggingface

Читать полностью…

AbstractDL

15 February 2024 19:18

Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!

У гугла с неймингом продуктов и моделей большие пролемы. Давайте разбираться что за 1.5.

То что сейчас крутится у них в проде, и что я недавно тестил, Gemini Ultra (Advanced), - это Gemini 1.0. А тут анонсировали, что уже сделали новую версию - Gemini 1.5.

Что нового?
- Эта модель уже основана на Mixture of Experts (MoE).
- может работать с контекстами в длиной 1M токенов, что на порядок больше чем у конкурентов.
- Причем, токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.

В 1M токенов поместится примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.

Подробности есть в тех-репорте (58 стр). Либо в блог блог-посте.

@ai_newz

Читать полностью…

AbstractDL

22 January 2024 15:52

Depth Anything (by TikTok)

Новая сота в monocular depth estimation, код и веса уже в открытом доступе! Никаких супер инноваций, просто огромный датасет с псевдо-разметкой.

Статья, Github, huggingface

Читать полностью…

AbstractDL

05 January 2024 06:35

Точечное редактирование знаний внутри LLM (by Alibaba)

Тут вышел крутейший обзор всех методов редактирования памяти языковых моделей! Авторы собрали всё внутри единого фреймворка, и теперь можно в пару строчек кода подправить мозги вашей LLM 🌚

Статья, GitHub

Читать полностью…

AbstractDL

15 December 2023 15:47

Я выиграл Yandex ML Prize! (ex. премия Сегаловича)

За научные исследования в области графов знаний, языковых и мультимодальных моделей

Читать полностью…

AbstractDL

27 November 2023 16:42

NoPE: лучший позишн энкодинг — это тот, которого нет

Правда ли, что позиционное кодирование критически необходимо трансформерам? Оказывается, это справедливо только для энкодеров, а вот декодеры (GPT, LLaMA и тд) могут прекрасно работать и без него!

Похоже, что каузальные маски внимания (которые не позволяют заглядывать в правый контекст) сами по себе являются отличным источником информации о позиции токенов. И более того, трансформер БЕЗ позиционного кодирования лучше обобщается на размер контекста, выходящий за длину примеров из обучения, даже по сравнению с такими мудрёными методами, как Rotary или ALiBi.

P.S. Eсли вас на собеседовании спросят зачем нужнен позишн энкодинг в GPT — можете говорить, что не особо он и нужен 💁‍♂️

Статья, GitHub

Читать полностью…

AbstractDL

15 November 2023 06:06

Альтман написал, что они временно перестали принимать новые платные подписки в ChatGPT.

Вдумайтесь в это, компания добровольно отказывается от денег, потому что у нее временно кончились вычислительные ресурсы 😵

Нечасто такое увидишь в ИТ-секторе

Читать полностью…

AbstractDL

07 November 2023 09:30

VR-NeRF: виртуальная реальность на шаг ближе (by Meta)

100 гигапикселей HDR фотографий не так то просто запихнуть в NeRF, но у исследователей из Meta это получилось. Более того, итоговое VR пространство в реальном времени рендерится на Quest Pro VR в разрешении 2K, 36 fps.

В их статье описаны технические сложности с которыми пришлось столкнуться в процессе, решения по оптимизации, борьбе с aliasing и расширением динамического диапазона.

Статья, блог, датасет

Читать полностью…

AbstractDL

02 November 2023 11:42

Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub

Читать полностью…

AbstractDL

26 September 2023 18:45

The Reversal Curse of LLM

Жаль, но похоже все языковые модели, независимо от размера, лажают на обобщениях фактов: A⠀is⠀B⠀→⠀B⠀is⠀A.

Авторы собрали несколько датасетов с такими логическими следствиями и проверили самые крутые модели (включая LlaMa и GPT-3). Оказалось, что обучаясь на факте "John is a son of Ann", модели не учат "Ann has a son John". А соответствующие логиты даже на капельку больше не становятся. Эта проблема есть и у GPT-4 (см. картинку).

Статья, GitHub

Читать полностью…

AbstractDL

14 September 2023 16:42

Longformer-tiny для русского языка

Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️

Хабр, Huggingface

Читать полностью…

AbstractDL

08 September 2023 16:16

MathGLM: GPT умеет быть калькулятором

Один из самых спорных вопросов про GPT — насколько сильны её вычислительные способности. Или это всего лишь "стохастический попугай", который запомнил много всего и воспроизводит это в нужный момент?

У авторов MathGLM получилось обучить скромную 2B модель складывать, умножать, делить и потенциировать 9-значные (!) числа практически со стопроцентной точностью. При этом они внимательно следили, чтобы модель не видела ничего из теста заранее. Ещё авторы отдельно выделяют важность токенизатора (для чисел у них он char-level).

Лично я думаю, что трансформеры действительно могут выполнять точные вычисления, они ограничены лишь количеством своих слоёв и длиной контекста в chain-of-thought.

Статья

Читать полностью…

AbstractDL

15 August 2023 13:38

CausalLM is not optimal for in-context learning (by Google)

Довольно претенциозная статья про недостатки causal attention и, следовательно, превосходство PaLM над GPT.

Авторам удалось экспериментально и теоретически показать, что префиксные языковые модели (T5, PaLM, UL-2) лучше понимают few-shot демонстрации и даже могут находить оптимальное (по MSE) решение задач регрессии, в отличие от каузальных языковых моделей (GPT, LLaMa). Похоже, что треугольное маскирование внимания (causal attention) сильно ограничивает сложность операций с внутренними представлениями.

Статья

Читать полностью…

AbstractDL

20 July 2023 12:16

🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face

Читать полностью…

AbstractDL

18 July 2023 08:27

🔥FlashAttention-2: опять в два раза быстрее

Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!

Статья, GitHub

Читать полностью…

Subscribe to a channel