abstractdl | Unsorted

Telegram-канал abstractdl - AbstractDL

17143

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️ By Anton Razzhigaev chat: https://t.me/abstractdl_chat

Subscribe to a channel

AbstractDL

Вышла Llama 3.2 — с акцентом на мультимодальность (vision). Также появились версии на 1B и 3B параметров.

Читать полностью…

AbstractDL

https://huggingface.co/glif/how2draw

крайне любопытная lora how2draw

Ценность опенсурса в возможности FT. На апи и подписках зарабатывают и окупают модели еденицы, а ценность которую можно утащить из опенсурса велика - хороший пример это SD комьюнити которое стало автономно от моделей и создало столько инфраструктуры что можно конкурировать с MJ(особенно если знаешь что нужно)

Читать полностью…

AbstractDL

o1 — новая модель от OpenAI, которая думает перед ответом

Вроде бы это совсем новая модель, дообученная при помощи RL лучше выполнять какое-то подобие Chain-of-thought. При этом процесс размышлений по дефолту скрывается от пользователя.

На мой взгляд новизна подхода сомнительная, но возможно OpenAI сделали это намного качественнее, чем остальные. Лично я больше люблю подход с абстрактными мыслями через "думательные" токены, про которые писал тут.

Мне повезло получить ранний доступ, и я протестил задачу, которую GPT-4o решала плохо. Как видите, o1 справилась намного лучше.

P.S. И обратите внимание, что это не совсем "Chain-of-thought", это скорее проговаривание вслух.

Техрепорт

Читать полностью…

AbstractDL

Классный хабр от tech_priestess про внутреннюю размерность фигур и пространств эмбеддингов. TwoNN подход сейчас часто используется для анализа языковых моделей (в т.ч. в одной из моих работ — The Shape of Learning)

Читать полностью…

AbstractDL

Кстати, вот ещё хорошие новости для всех, кто интересуется темой mechanistic interpretability. Появились записи докладов с ICML-ного воркшопа, специально посвященного этой теме!
Вот они, слева направо:
https://slideslive.com/icml-2024/workshop-on-mechanistic-interpretability
Я лично собираюсь глянуть доклад по статьям Dissecting query-key interaction in vision transformers (это Spotlights 1), Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP (Spotlights 2) и The Geometry of Categorical and Hierarchical Concepts in Large Language Models (Oral). А вы?

P.S.Очень удобно, что тут можно прокликивать слайды с правой стороны каждого видоса, и красный кружок на видосе будет показывать таймкод, который соответствует данному моменту пррзентации. ☕️

#объяснения_статей

Читать полностью…

AbstractDL

To Code, or Not To Code? Насколько важны данные с кодом в претрейне LLM? (by Cohere)

Да, код нужен, и очень сильно. На самом деле уже довольно давно был консенсус на этот счёт, но подробно влияние кода не изучали.

Теперь можно ставить точку в этом вопросе — в Cohere проделали очень подробный ablation study: данные с кодом улучшают не только кодинг и ризонинг, но и даже world knowledge! То есть после их добавления в претрейн модели лучше запоминают текстовые знания.

Статья

Читать полностью…

AbstractDL

Llama 3.1 — 8B, 70B и 405B версии

Старшая модель бьёт даже GPT-4 и Claude-3.5 на ряде бенчмарков. Но самое крутое — вместе с этим релизом Meta выкладывает СУПЕР подробный техрепорт на 74 страницы (самый детальный из всех которые я когда-либо видел). Там описано всё: от сбора и состава датасетов до мультимодальных адаптеров. Это значительно ускорит развитие языковых моделей!

Блог, техрепорт, Huggingface

Читать полностью…

AbstractDL

Claude показали новый релиз своей "самой умной" модели Claude 3.5 Sonnet. Это первый релиз в линейке 3.5, но любопытно: раньше Sonnet был слабее Opus. Новый Sonet лучше не только Opus, но и (по собственным тестам) GPT4o. Кроме того, в Sonnet появились визуальные запросы (например по разбору изображений и видео).

Я в такие тесты не верю, буду проверять сам.

https://www.anthropic.com/news/claude-3-5-sonnet

Читать полностью…

AbstractDL

Your Transformer is Secretly Linear

Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось!

Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.

Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.

P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.

Статья, GitHub

Читать полностью…

AbstractDL

Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность

Читать полностью…

AbstractDL

Llama-3

Есть версии на 8B и 70B параметров. По сравнению с прошлой ламой тут теперь побольше словарь — 128k токенов вместо 32k (думаю отсюда и +1B параметров). А также добавили grouped query attention (GQA), чтобы это работало быстрее.

Во время обучения модели скормили 15Т токенов, это офигеть как много (по шиншилле можно и 200B версию на таком сете обучать).

Блог, веса

Читать полностью…

AbstractDL

Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA)

Всё это время мы генерировали картинки диффузией неправильно — оказывается, classifier-free guidance вредит диффузионному процессу в его начале и конце. А если включать guidance только на середине — то генерация станет не только разнообразнее, но и качественнее: для модели EDM2-XXL это уменьшает FID с 1.81 to 1.40!

Самое главное — эта модификация совместима со всеми диффузионными моделями.

Статья

Читать полностью…

AbstractDL

Как устроено пространство, в котором думают языковые модели?

Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.

Статья, хабр

Читать полностью…

AbstractDL

Quiet-STaR: думательные токены вместо Chain-of-Thought

Очень интересная идея, как обобщить CoT-промптинг, приближая его к подобию мыслительного процесса человека (говорить не всё, что думаешь).

Для этого авторы предложили позволить LLM иногда «думать», — старт и конец такой мысли определяются обучаемыми RL спецтокенами, а вот сама мысль чаще всего состоит из какой-то белиберды, уменьшающей перплексию дальнейшего текста.

В отличие от CoT, тут нет требования писать внятно, поэтому то, что генерится внутри мысли далеко не всегда получается интерпретировать. Тем не менее, это сильно бустит метрики и практически не замедляет инференс, т.к. генерация идёт параллельно.

Понятное дело, что это не работает без дообучения, но я попросил чатгпт притвориться, что она использует эти мыслительные токены, и спросил её помогло ли это ответить на мой вопрос. Она сказала что помогло 😁

Статья

Читать полностью…

AbstractDL

Галлюцинации LLM можно определять по внутренней размерности активаций (by CISCO)

На мой взгляд один из самых красивых и простых способов выявлять враньё языковых моделей. Внутренняя размерность активаций — это что-то вроде сложности манифолда на котором лежат промежуточные эмбеддинги (кину в комменты пример).

И вот оказывается, когда LLM выдумывает что-то несуществующее, то размерность эмбеддингов со средних слоёв значительно подрастает (см. гистограммы). Таким образом, по всплескам размерности можно определить, где именно модель галлюцинирует, а где говорит правду.

Статья

Читать полностью…

AbstractDL

Апдейт моделей Gemini 1.5 Pro & Flash

Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.

Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.

Читать полностью…

AbstractDL

АХАХА что больше 9.11 или 9.8? o1 сначала ответила неправильно, но потом осозналa ошибку и передумалa 😁

Wait a minute—that contradicts our initial answer!

Читать полностью…

AbstractDL

Attention Heads of LLM — A survey

Трансформеры это всё ещё чёрный ящик или уже нет? За последние несколько лет мы сильно приблизились к пониманию функций отдельных компонент языковых моделей, лучше понимаем, как они приходят к тому или иному выводу, и главное — как можно влиять на процес их "размышений", редактировать отдельные факты в памяти и многое другое.

В этой статье собрали в кучку всё, что известно о функциях голов внимания в LLM с очень красивыми схемами и таблицами. Вот только небольшая часть:
- Associative Memories Head
- Truthfulness Head
- Semantic Induction Head
- Global Retrieval Head
- Subword Merge Head

Поэтому, если хотите погрузиться в интерпретируемость трансформеров — очень рекомендую полистать этот обзор.

Статья

Читать полностью…

AbstractDL

🔺 Transformer Explainer

Классная интерактивная визуализация про то, как работает трансформер.

Можно покрутить температуру и посмотреть как меняются вероятности распределения следующего токена. Можно вбить свой текст. Можно просто почитать статью под диаграммой.

Напомню также про классическую статью Illustrated Transformer

👉 Визуализация | GitHub | Видео

Читать полностью…

AbstractDL

CoRe: лучший способ "клонирования" внешности или концепта при помощи диффузии

Существует 3 больших направления для клонирования внешности:
1. Обучение отдельного текстового эмбеддинга (Textual Inversion)
2. Дообучение UNet (DreamBooth)
3. IP-adapters

В этой работе (не впервые) попробовали скрестить Textual Inversion и DreamBooth, но на этот раз сделали это по-умному. Оказывается, что вот этот выученный "псевдотекстовый" эмбеддинг спецтокена концепта очень странный — у него большая норма, а ещё он перетягивает всё внимание на себя (см. картинку), искажая аутпуты на соседних токенах (в энкодере). Такая особенность выученных эмбеддингов ломает не только качество генерации, но и понимание сложных промптов.

Чтобы решить эту проблему, авторы предлагают хитрую регуляризацию — косинусное "стягивание" эмбеддингов на выходе текстового энкодера между обычным промптом без спецтокена концепта и таким же промптом со спецтокеном. Дополнительно они через MSE лосс минимизируют искажение attention-масок на слоях UNet (между двумя вариантами промптов). А чтобы победить неконтролируемый рост нормы эмбеддинга концепта, они его рескейлят на каждом шаге оптимизации. Само обучение делят на две части — сначала учат эмбеддинги, а потом уже размораживают UNet.

Судя по примерам и метрикам, это намного превосходит всё, что было раньше! Код обещают скоро выложить, но идея настолько простая, что её можно и самому быстренько имплементировать.

Статья

Читать полностью…

AbstractDL

MINT: крупнейший мультимодальный датасет на 1T токенов (by Salesforce)

Это хорошо очищенный датасет, в котором текст и изображения расположены в естественном порядке. Данные представлены не в виде отдельных пар "текст-картинка", а так, как мы обычно их встречаем в реальной жизни — текст и изображения идут вперемешку, дополняя друг друга. Датасет включает в себя HTML-страницы, PDF-файлы и статьи с ArXiv, а также содержит 3.4B изображений.

Статья, датасет

Читать полностью…

AbstractDL

Confidence Neurons: у каждой LLM есть нейрон, который регулирует «температуру» генерации

Авторы этой работы нашли несколько конкретных нейронов, которые вообще ничего не делают, кроме как меняют энтропию распределения логитов. При этом на предсказание следующего токена они не оказывают никакого влияния, т.к. работают исключительно в null space финальной LM головы.

Грубо говоря, активируя эти нейроны, языковая модель «регулирует» температуру своих предсказаний через LayerNorm. А если эти нейроны специально отключить, то LLM будет всегда на 100% уверена в своих ответах.

Статья

Читать полностью…

AbstractDL

Goldfish Loss: заставим LLM запоминать смысл, а не текст

Языковые модели часто вызубривают обучающие примеры, а это очень неприятно, особенно когда в датасете есть приватные данные, диалоги реальных пользователей или контент с копирайтом. Да и вообще, хочется, чтобы LLM запомнила именно смысл обучающих данных, а не заучивала их наизусть.

Оказалось, что одним из самых эффективных способов борьбы с таким поведением — это простой дропаут лосса, то есть маскирование ошибки для случайного сабсета токенов в тексте (~25%). Таким образом модель не научится дословно воспроизводить то, что видит. Даже после 10 эпох дообучения на Гарри Поттере "плагиат" в генерациях модели остаётся на уровне нуля. А главное, что такая регуляризация не ухудшает финальные метрики, в том числе на претрейне.

Статья, GitHub

Читать полностью…

AbstractDL

Мой маленький тест на AGI. Раньше с такими шифрами хорошо справлялись только модели по типу PIXEL.

Читать полностью…

AbstractDL

StoryDiffusion: генерация консистентных наборов изображений без дообучения

Если вам нужно сгенерировать последовательную историю из фотографий, чтобы везде чётко прослеживалась единая локация, а главные персонажи не меняли одежду и причёску от фото к фото, то StoryDiffusion — именно то, что вам нужно.

Идея гениальна в своей простоте — ничего даже учить не нужно, только заменить блок self-attention на версию, которая "смотрит" на соседние фотографии в батче. Оказалось, этого более чем достаточно, чтобы генерации стали согласованными между собой.

StoryDiffusion идеально подходит для создания комиксов и даже видео (нужно только интерполировать сгенерированные ключевые кадры, что авторы и делают). Код уже в открытом доступе! Должно работать почти с любыми обученными диффузионными моделями.

Статья, GitHub, HuggingFace

Читать полностью…

AbstractDL

Помните Grokking? Я сделал colab ноутбук с его воспроизведением. Там нужно всего полчаса, чтобы достичь генерализации после оверфита.

Читать полностью…

AbstractDL

VAR: Image Generation via Next-Scale Prediction (by Bytedance)

Вы наверняка слышали про авторегрессионный подход к генерации изображений (imageGPT, Dalle-1). Но у этих методов было очень большое ограничение — картиночные токены приходилось "выпрямлять" в 1D последовательность, которая становилась слишком длинной. Поэтому они работали плохо и медленно, уступив место диффузиям.

Авторы VAR предложили мозговзрывательный способ генерировать изображения при помощи GPT без необходимости делать это неприятное "выпрямление" —  вместо авторегрессии по пикселям\токенам они делают "next-scale prediction", то есть предсказывают сразу всю матрицу VQVAE токенов за один forward pass. Теперь один шаг авторегрессии — это шаг увеличения разрешения (см. картинку). К моему удивлению, для этого потребовалось совсем немного модификаций оригинальной GPT-2 архитектуры (текстовой).

Такой подход работает просто молниеносно, а законы масштабирования сильно лучше, чем у диффузий. По метрикам VAR бьёт всех на class-conditional датасетах (генерации по тексту пока нет, но над этим уже работают). А тем временем весь код и веса уже в открытом доступе.

P.S. Думаю, что это один из самых перспективных методов генерации изображений (и видео?) на данный момент.

Статья, GitHub, Huggingface

Читать полностью…

AbstractDL

Mistral-7B-v0.2

Появились веса для обновлённой версии базовой модели Mistral-7B. Вроде как убрали Sliding-Window-Attention (SWA) и увеличили контекст до 32к токенов. Других деталей нет, но думаю это что-то вкусное.

P.S. HF репозиторий не официальный, но голые веса можно найти в недрах сайта Mistral

Huggingface, raw weights

Читать полностью…

AbstractDL

🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"

Как всегда бывает на презентациях NVIDIA, слово "быстро" - это вчерашний день.

↪️ B200 GPU обещает до 20 петафлопс производительности в FP4 и 208 миллиардов транзисторов. Ваша GTX 1080 Ti нервно курит в сторонке.

↪️ В одной B200 будет 192GB памяти с пропускной способностью 8 ТБ/с. Идеально для LLM моделей, которые жрут память как не в себя и требуют большую пропускную способность.

↪️ GB200 "суперчип" объединяет 2 таких B200 GPU с одним Grace CPU (на ARM архитектуре). Nvidia хвастается, что это в 30 раз производительнее для инференса в LLM в FP4 по сравнению с H100.

↪️ Ключевая фишка - второе поколение трансформерного движка, который удваивает вычислительную мощность, пропускную способность и размер модели. Но хз, какая потеря точности будет после конвертации в FP4.

↪️ Nvidia утверждает, что GB200 снижает стоимость и энергопотребление в 25 раз по сравнению с H100 (опять же, в FP4).

↪️ Теперь будет поддерживаться и новый формат - FP6, золотая середина по скорости и точности между FP4 и FP8. Но бенчмарков не показали.

↪️ FP64 на уровне 45 терафлопс на GPU (против 60 у H100). Для нейронок double precision не релевантен, поэтому они особо и не парятся ускорять тут.

↪️ Тренировка GPT-MoE с 1.8 триллиона параметров требовала 90 дней на 8,000 GH100 и 15МВт энергии. Теперь достаточно 2,000 GB200 и 4МВт. То есть во время тренировки 1x GB200 примерно в 4 раза быстрее чем 1x H100.

↪️ На инференсе GPT-3 с 175 млрд параметров, GB200 "всего" в 7 раз быстрее H100. Ну ладно, не все сразу.

Но не радуйтесь раньше времени - цены будут ядреными! Если H100 стоит около $40k, то GB200 будет минимум в 4-5 раз дороже.

Да и не достать их будет простым смертным. Первыми их получат Amazon, Google, Microsoft и Oracle. Известно, что Амазон уже планирует кластер на 20,000 GB200.

А потребительские версии Blackwell ожидаются не раньше 2025 года.

@ai_newz

Читать полностью…

AbstractDL

Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.

На всех достаточно важных бенчмарках Opus показывают существенный прирост относительно GPT-4.

Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.

— Добавили новую модальность, модель принимает на вход картинки (а значит и видеоряд — как последовательность кадров)
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно. Для сравнения GPT-4-turbo стоит $10/$30
— Также обещают, что самая мощная модель имеет «more advanced agentic capabilities», что бы это ни значило :)
— Вдобавок, к модели подключили интерпретатор кода и возможность добавлять свои собственные инструменты
— Самый большой прирост метрик — на задачах, связанных с математикой. Даже без примеров в промпте модель показывает себя лучше, чем Gemini Ultra / GPT-4. Круто, если не переобучение, особенно в контексте того, что модели — НАПОМНЮ, ЭТО МНОГИЕ УПУСКАЮТ — будут использоваться для АВТОМАТИЗАЦИИ научных исследований.

Модели доступны по API сегодня всем, никакого листа ожидания больше нет. Для подписчиков Pro на сайте уже должна быть доступна модель Opus, а Sonet достанется бесплатным пользователям. Заходите: claude.ai

Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо 😐 Почему? Потому что релиз Арракиса (кодовое название проекта в OpenAI) отложили до выпуска Дюны 2 😀

Читать полностью…
Subscribe to a channel