nadlskom | Unsorted

Telegram-канал nadlskom - что-то на DL-ском

3648

Авторка активно хочет зашарить все на свете и делится в этом канале. NLP ⊂ AI → NLP/CV/speech ⊂ AI Связаться со мной @nadlsk Тг буст канала: https://t.me/nadlskom?boost Чат айтишниц: https://t.me/+n-WIEfhc3ZFhOGIy Реклама очень дорого.

Subscribe to a channel

что-то на DL-ском

Основано на боли 😢

Читать полностью…

что-то на DL-ском

Наверняка все читали в какой-нибудь базе по типу scaling laws о том, что слишком маленькой моделе нельзя скармливать слишком много токенов при обучении, так как качество начнет падать. Эта задача оказывается называется «softmax bottleneck». Впервые проблема поднимается в статье 2018 года.

В LM есть финальный слой, который преобразует внутренние представления текста в распределение вероятностей для следующего слова. Этот слой представляет собой матрицу весов, которая умножается на вектор внутренних представлений.

Оказалось, что по мере обучения распределение сингулярных значений этой матрицы весов (своего рода масштабы, характеризующие матрицу) начинает выравниваться. То есть все сингулярные значения становятся примерно одинаковыми.

Но затем, для небольших моделей, это распределение резко меняется - появляется одно очень большое сингулярное значение, а остальные становятся маленькими. И это совпадает с тем моментом, когда качество модели перестает улучшаться.

Авторы работы предположили, что это связано с фундаментальным ограничением размерности языковых данных. Они попытались оценить, какой максимальный "ранг" (связанный с числом больших сингулярных значений) может иметь эта финальная матрица весов.

Для этого они поставили обучение с ограниченным рангом на фиксированных внутренних представлениях от больших предобученных моделей.

💐Оказалось, что качество сильно падает, если ранг слишком мал (<1000). Вот и новый вектор исследования для индустрии. Может «убийцей трансформера» сможет стать именно архитектура, которая преодолевает ограниченность внутренней размерности?🤔

📖Статья Why do small language models underperform? Studying LM Saturation via the Softmax Bottleneck

Читать полностью…

что-то на DL-ском

Как же последний год-2 Google доедает за всеми новинками в сфере AI🥴

Читать полностью…

что-то на DL-ском

Судя по количеству создателей, имеет место scaling law не только по размеру модели и обьему данных на обучении, но и числу рисерчеров при обучении LLMок.

Читать полностью…

что-то на DL-ском

Разгребала свои заметки и нашла составленный список всех статей PEFT по хронологии их выхода (до лета 2023 года. Там нет уже всяких вариаций LoRa, которые выходили на хайпе). Верю, что такое нужно не только мне. Поэтому просто закину сюда

💛The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks (LT-SFT) 9 марта 2018 года ссылка

💛Parameter-Efficient Transfer Learning for NLP (Adapters) 2 февраля 2019 года ссылка

💛Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (Intrinsic-SAID) 22 февраля 2020 года ссылка

💛Parameter-Efficient Transfer Learning with Diff Pruning 14 декабря 2020 года ссылка

💛Cross-Attention is All You Need:
Adapting Pretrained Transformers for Machine Translation 18 апреля 2021 года ссылка | обзор

💛The Power of Scale for Parameter-Efficient Prompt Tuning 18 апреля 2021 года ссылка

💛Prefix-Tuning: Optimizing Continuous Prompts for Generation 1 июня 2021 года ссылка | обзор

💛💛Compacter: Efficient Low-Rank Hypercomplex Adapter Layers 8 июня 2021 года ссылка | обзор

💛LoRA: Low-Rank Adaptation of Large Language Models 17 июня 2021 года ссылка | обзор

💛BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models 18 июня 2021 года ссылка

💛Learn-to-Share: A Hardware-friendly Transfer Learning Framework Exploiting Computation and Parameter Sharing (LETS) 30 июня 2021 года ссылка

💛Towards a Unified View of Parameter-Efficient Transfer Learning (MAM Adapter; parallel adapters) 8 октября 2021 года ссылка

💛💛UNIPELT: A Unified Framework for Parameter-Efficient Language Model Tuning 14 октября 2021 года ссылка | обзор

💛SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer 15 октября 2021 года ссылка | обзор

💛Exploring Universal Intrinsic Task Subspace via Prompt Tuning 15 октября 2021 года ссылка

💛Training Neural Networks with Fixed Sparse Masks (Fish-Mask) 18 ноября 2021 года ссылка

💛FAR: Fourier Aerial Video Recognition 21 марта 2022 года ссылка

💛Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning (IA^3) 11 мая 2022 года ссылка

💛AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning 24 мая 2022 года ссылка | обзор

💛LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning 13 июня 2022 года ссылка

💛Attention Fusion: a light yet efficient late fusion mechanism for task adaptation in NLU июль 2022 года ссылка

💛LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models 3 октября 2022 года ссылка | обзор

💛💛SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency of Adapters 9 октября 2022 года ссылка

💛💛KronA: Parameter Efficient Tuning with Kronecker Adapter 20 декабря 2022 года ссылка

💛💛💛Parameter-Efficient Fine-Tuning Design Spaces (S4) 4 июня 2023 года ссылка

Группы:

💛Selective (выбор конкретных частей модели для обучения)
💛Additive (добавляемые параметры для обучения)
💛Reparametrization-based (Изменение параметров модели для получения новых выборок из распределения)

#PEFT

Читать полностью…

что-то на DL-ском

1x16 AQLM квантизации 🦙-3 на хабе!

1️⃣ Meta-Llama-3-8B-AQLM-2Bit-1x16
2️⃣ Meta-Llama-3-8B-Instruct-AQLM-2Bit-1x16
3️⃣ Meta-Llama-3-70B-AQLM-2Bit-1x16
4️⃣ Meta-Llama-3-70B-Instruct-AQLM-2Bit-1x16

Дело заняло несколько дольше времени ⏳, чем предполагалось. Новую линейку LLMок от Меты оказалось сложнее квантовать по сравнению с предшественниками с приемлемой просадкой в качестве, а выкладывать шлак, под красивой этикеткой не позволял кодекс чести самурая. Пришлось улучшить процедуру файнтьюна - больше токенов, больше компьюта.

Но в итоге добили до приемлемого качества. Пользуйтесь, делитесь впечатлениями)

8B версия великовата (~4Gb) из-за больших эмбедов и lm_head (так как словарь большой). В будущем планируем попробовать посжимать и эмбеды / языковую голову.

Читать полностью…

что-то на DL-ском

Делимся промтом от Daria Gerc
для Stable Diffusion 3
в @chromic666_bot

man riding a white horse in dark room, in the style of ethereal, ghostly figures, found footage, demonic photograph, figures in motion, illuminated visions, apparitions

Этот промт можно сильно менять, добавлять разные токены motion blur, cctv image, менять объекты и добавлять цвета
Будет совершенно разный по настроению результат, Stable выдает результат за пару секунд

man riding a black horse in castle, in the style of ethereal, ghostly figures, found footage, demonic photograph, white and black colors, figures in motion, illuminated visions, apparitions, cctv image

#chromic
🌚

Читать полностью…

что-то на DL-ском

Очень жестко ощущается движение в сторону рекуренстности внимания в трансформере. Уже которая статья крутится вокруг этой темы🤔

Читать полностью…

что-то на DL-ском

Открытый репозиторий из которого можно легко завести немного апгрейднутые алгоритмы RAG

2 метода. Очень простое улучшение, при этом нужное, что можно увидеть по метрикам качества (мерили с помощью retrieval и matching accuracy)

Мотивация для ресерча новых подходов: (так работает RAG) постоянно извлекая информацию поиском и подкладывая ее в контекст модели для генерации ответа, мы получаем во-первых увеличенное время работы модели, а во-вторых иногда и не желаемое качество 🔍

ARAG: мы будем не постоянно извлекать поиском информацию из текста, а только когда наша заранее продуманная метрика будет больше некоторого трешхолда. То есть мы можем обучать генерировать спец токены, когда необходим поиск, или тупо спрашивать саму модель. Вероятность выше? Погнали искать

TA-ARE: тут когда дело доходит до тяжелых для модели случаев (новые данные, которые никогда не видела модель или длинный контекст в данных для поиска) нам необходим подход, который может учитывать также время при генерации. Тут все просто. Если присутствуют в тексте какие-то даты, мы просто вычитаем разницу во днях, чтобы модель понимала за какой промежуток от нее хотят вообще инфу

🖥 Еще раз репозиторий
📖 Статья на почитать

Читать полностью…

что-то на DL-ском

#grokaem_nlp

Mixture of Depths (MoD)
paper

Уже в парочке каналов написали про новую статью, го и мы пройдемся.

🪀basic idea behind - нечего считать attention на всех слоях на всех токенах, если можно не считать🪀MoD - это как MOE, только используем не mutliple experts, а одного, которого можем скипнуть (skip connection)!

🪀pipeline:
На каждом слое self-attention выбираем k токенов для обновления. Эмбеддинги только этих токенов будут участвовать в подсчете и обновляться, так как это self-attention, внимание для обновления других эмбеддингов будет также только от этих k.

Этот подход относится к conditional computation - использовать compute только когда надо. Иначе можно делать early exiting или использовать адаптеры, чтобы находить skip блоки.

🪀Что нужно от нас:
- выставить capacity - количество токенов для topk
- делать causal lm - выбор topk это non casual операция, почему? Потому что используются все токены. Одно из решений для router - штуки, которая и выбирает токены - базово заменить softmax на sigmoid. А именно - мы добавляем либо auxiliary задачу, либо auxiliary loss, который будет пытаться выучиться сам на нужную подзадачу. Для нас эта задача - понять, что токен должен быть в top k без мам пап и других токенов, то есть через сигмойду. Хорошее объяснение по таймкоду.

🪀Важные штуки:
- граф подсчета не динамический, то есть мы заранее выставили k - worst case scenario
- в gradient path подключаются веса router, как раз те, по которым мы выбрали k токенов (p. 7)
- лучше сработал вариант вставки MOD каждые два слоя с доступом только к 12.5% токенов, то есть пред слой видел все

🪀Глоссарий:
- FLOP
- floating point operations per second. FLOP будет уменьшаться квадратично, если T - исходное кол-о, attention FLOP T'2, возьмем половину токенов для обновления T/2, attention будет (T/2)'2 или 0.25 FLOP intense
- Iso-FLOP - количество компьюта для подсчета в FLOP, чтобы натренировать модель

Круто, когда isoFLOP остается таким же, но мы при этом увеличиваем кол-о параметров. Это как раз наш кейс.

🪀Что с этим всем можно делать дальше?
Ну тут понеслась душа в рай, и long term memory tokens можем сделать, и какие-то только как keys использовать, и вместо identity function придумать разные под каждый кейс.

——
Ну и мы тут не просто так собрались, представим, что вы на собесе и сказали, что недавно прочитали эту статью и вам в ответку прилетает вопрос: почему не используют top p? Ваши действия в комментариях.

Читать полностью…

что-то на DL-ском

Нашла очень приятную презентацию, которая может служить шпаргалкой к созданию мультиязычной😛 большой языковой модели из претрена в основном на одном языке

Материал не новый, но тут собрано все. В деталях и с примерами.

💛Как расширить токенайзер модели
💛Как дообучить так, чтобы модель перестала тупить на редких языках
💛Как лучше инициализировать эмбединговый слой
💛А какие данные взять
💛Ну и кончено большое количество примеров в конце

Читать полностью…

что-то на DL-ском

💥 Embedding quantization!

Новый метод квантования эмбедингов, который позволяет ускорить работу в 45 раз при сохранении точности 96%.

🔥 Binary quantization: требует в 32 раза меньше памяти и работает до 45 раз быстрее поиск, сохраняя производительность ~96%
✨ int8 quantization: в 4 раза меньше памяти и до 4 раз быстрее поис.
💰 Для 250 миллионов эмбедингов двоичному MxBai требуется 29 ГБ памяти против 953 ГБ для float32.

https://huggingface.co/blog/embedding-quantization

@ai_machinelearning_big_data

Читать полностью…

что-то на DL-ском

#ПолезныеСсылочки

На учебе посоветовали канал по математике, с интуитивно понятной подачей материала. Такой восторг. Особенно залипла на курс линейной алгебры (если выбирать между ней и мат анализом, всегда бы выбирала именно эту область, не знаю почему)). Очень просто для восприятия, совсем не люблю заумные формулировки и нудные объяснения

В общем, делюсь 3blue1brown?si=dsezPvhSG-rJ62U7">ссылкой на канал

Видосы выглядят, как именно то, что можно посмотреть под еду с пользой для дела

Читать полностью…

что-то на DL-ском

ЙОУ, скучали? Я сильно. Во-первых, всех причастных, поздравляю с праздником. Для меня этот праздник имеет теплую атмосферу и ассоциацию с весенним настроением 🥰

Теперь о главном🤓

SPAR: Personalized Content-Based Recommendation via Long Engagement Attention

Рекомендашки заполонили мою жизнь уже почти полгода как, а особенно интересно учитывать целостно контент из всех модальностей сразу. И вот пока меня не было в сети тг, вышла офигенная статья, как раз по теме, которой я занимаюсь. Поговорим о том, как в 24 году построить рекомендашку, которая учитывает текст

Базово: есть разные подходы😬

💛Основной: давайте возьмем айдишники товаров и построим сиквенсы новых рекомендаций на основе истории.
💛Также мы можем применять 2 башни моделей (dssm), чтобы точнее использовать характеристики еще и персональные. Одна голова товаров, а другая пользователей.
💛Окей, но что делать, чтобы учитывать еще и текст? Все просто, давайте получать эмбединги и внедрять в обработку как и раньше. Тут на ум приходят уже все многочисленные подходы в названии которых содержится “BERT”

Так вот, в чем отличие именно нового подхода?

Смотрим картинку в приложении и распутываем в голове последовательности всех блоков

😎текстовый контент может выходить за 5к токенов. Поэтому, как уже и принято в подобных архитектурах, мы кодируем разные части историй взаимодействий отдельно, а потом объединяем. В этой статье авторы еще и придумали считать sparse attention, так как обычно в рекомендательных системах особо остро стоит потребность в быстрой обработке, тут мы хотя бы можем сократить сложность вычислений.
😎решаем проблему холодного старта с помощью формирования портрета с помощью LLM (эх, жаль, что такие гениальные идеи приходят одновременно многим людям, круто что авторы уже реализовали это в своем подходе первыми)
😎кодируем каждый сеанс пользователя отдельно, чтобы обучить codebook внимания и составлять общую историю на late fusion. За это респект. Опять же высоким RPS подход передает привет
😎на выходе используем NCE loss

Какие минусы увидела, пока читала статью (субъективно мое мнение):

😭 прошаревшись в том, что для рекомендательных систем необходима высокая скорость вычисления, я не нашла в статье ни одного упоминания скорости помимо оптимизаций внимания, что меня пока расстраивает
😭 я не нашла хоть какой-нибудь репозиторий с кодом
😭 меня смутило, что качество замерили на каких-то абсолютно старых безлайнах. Камон, почему бы хотя бы не сравниться со всем известным BERT4Rec, если ваш подход такой классный

Статья

Читать полностью…

что-то на DL-ском

Дисклеймер, я впервые за год читала статью больше часа, чтобы понять, о чем идет речь. Ну а на самом деле все это потому что речь пойдет о базовой сетке в протеомике. Я не знаю, на сколько много у меня в канале биоинформатиков, но мне супер интересна тема биотеха последнее время, поэтому я все равно расскажу то, о чем мне интересно 🙂

AlphaFold2. zjkarina/Uuzd0JDqXmq">Что это и с чем его едят?

Сетка посвящена не этим вашим развлекательным целям, а реально важжжным вещам, ну по сути построению представлению белка в 3-х мерном пространстве, имея сиквенс аминокислот.

Продолжение читайте zjkarina/Uuzd0JDqXmq">на teletype. Если все понравилось обязательно ставьте реакции к посту. 50 реакций и пишу обзор на AlphaMissense 😄

Читать полностью…

что-то на DL-ском

Содержательная статья на Хабр, в которой проводится экскурс по базовым подходам к рекомендательным системам. Жмак читать 🫵

Читать полностью…

что-то на DL-ском

#новости

🤨 Google выкатили новинки

На выставке I/O в этом году Google было чем поделиться: от новых функций ИИ до обновлений Android.

Из главного:

🔸 Представили Veo — «ответ Google на Sora». Модель выдает видео 1080p.
🔸 Показали новую text-to-image модель Imagen 3.
🔸 Анонсировали мультимодальную версию Gemini Nano для распознавания изображений, звуков и речи. Ее встроят в следующую версию Chrome.
🔸 Выкатили улучшенную Gemini 1.5 Pro.
🔸 Представили Gemini 1.5 Flash — новую мультимодальную модель, которая легче, чем Gemini Pro.
🔸 Представили Google Project Astra — мультимодальный ИИ-ассистент, который, как надеются в компании, станет виртуальным помощником «на все случаи жизни».
🔸 Анонсировали ИИ-поиск и возврат товаров с помощью ИИ.

Многие проанонсированные новинки пока недоступны для пользователей.

📹 Главное из презентации (17 минут)
📹 Вся презентация (1 ч 52 мин)

#stpnv #AI #Google

Читать полностью…

что-то на DL-ском

Не прошло и полнедели с выхода GPT-4o, как Meta выпустили сегодня мультимодальную сетку, которая представляет из себя трансформер обученный на нескольких модальностях, что очень повторяет парадигму ухода в что-то общее для голоса, текста и картинок. Понятно, что ресерч производился гораздо раньше, но как ни крути, на фоне OpenAI данный релиз выглядит уже не так круто. (Ну хотя бы раскрыли тех подробности)

Chameleon - семейство мультимодальных моделей, способных генерировать и рассуждать со смешанными последовательностями произвольно чередующегося текста и картинок.

Ключевая идея Chameleon - единая архитектура, обученная с нуля на смешанных данных из всех модальностей (изображения, текст, код) методом early fusion. Как текст, так и изображения представлены в виде дискретных токенов, к которым применяется одна и та же архитектура трансформера без необходимости в отдельных энкодерах/декодерах для каждой модальности.

Для стабильного обучения такой унифицированной модели авторы вводят новые архитектурные модификации трансформера, такие как query-key normalization (QK-Norm) и пересмотренное размещение слоев нормализации

Подробности по гиперпараметрам и бенчам сотрите во вложениях👀

📖Статья

Читать полностью…

что-то на DL-ском

Курс по квантизации для тех, кто хочет быть в теме

Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.

Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.

Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.

Ссылочка на курс

@ai_newz

Читать полностью…

что-то на DL-ском

🧬 AlphaFold 3 predicts the structure and interactions of all of life’s molecules

Google DeepMind представили Alpha Fold3, новую модель искусственного интеллекта, которая предсказывает структуру и взаимодействия молекул.

Благодаря точному прогнозированию структуры белков, ДНК, РНК и многого другого, а также того, как они взаимодействуют, наше понимание биологического мира может выйти на новый уровень, а в практическом применение поможет разработке новых лекарств.

Эта революционная модель, может предсказывать структуру и взаимодействия всех молекул жизни с беспрецедентной точностью.

На основе входного списка молекул Alpha Fold3 генерирует их общую трехмерную структуру, показывая, как они сочетаются друг с другом. Программа моделирует крупные биомолекулы, такие как белки, ДНК и РНК, а также небольшие молекулы, также известные как лиганды.

Кроме того, Alpha Fold3 может моделировать химические модификации этих молекул, которые контролируют здоровое функционирование клеток, нарушение которых может привести к различным заболеваниям.

Теперь для учёные со всего мира могут работать с AlphaFold 3 совершенно бесплатно.

Blog: https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
Nature: https://www.nature.com/articles/s41586-024-07487-w

@ai_machinelearning_big_data

Читать полностью…

что-то на DL-ском

Студенты калифорнийского универа выпустили на днях статью о том, как ускорить генерацию трансформера в 6 раз на счет остановки использования всего лишь padding токена 🙂

Тема на самом деле очень хорошо знакома, еще год назад появился лайфхак “packing” для обучения диалоговых моделей, когда просто eos токеном разделяется каждая реплика и так обучается генерация. Но при этом маска внимания и позиционное кодирование остаются неизменным.

– Чем это грозит?
– Элементарно, модель продолжает видеть все предыдущие реплики за eos токенами. То есть генерация специфичного вида недоступна таким образом.

В способе prepacking (я не поняла почему pre появилось при добавлении внимания и позиционного кодирования))) появляется:

💛Маска внимания, которая настроена так, чтобы видеть только обрабатываемое предложение
💛Позиционное кодирование, которое в коде по сути пересобирается вручную
💛А также, расстановка предложений в батче по длине эффективным образом

Никакого rocket science в коде нет, но они выпустили репозиторий, который быстро вам соберет все при запуске модели

🖥Реп
📖Статья

Читать полностью…

что-то на DL-ском

Llama-3

Есть версии на 8B и 70B параметров. По сравнению с прошлой ламой тут теперь побольше словарь — 128k токенов вместо 32k (думаю отсюда и +1B параметров). А также добавили grouped query attention (GQA), чтобы это работало быстрее.

Во время обучения модели скормили 15Т токенов, это офигеть как много (по шиншилле можно и 200B версию на таком сете обучать).

Блог, веса

Читать полностью…

что-то на DL-ском

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
[Статья][Очередная статья от гугла без кода]

В попытках найти эффективную альтернативу стандартному механизму внимания в трансфромере человечество перевело не одни джунгли в Амазонии, выбросило тучу CO2. За последние годы было предложено множество интересных механизмов эффективеого attention, state-space модели, и переосмыслены рекуррентные модели, но все подходы так или иначе уступали в выразительности первородному трансформеру.

И группа из Google предложила очередную модификацию внимания, способную работать с длинным контекстом с асимптотической линейной сложностью по вычислениям и компактной памятью, не зависящей от длины.

Метод

За основу берут еще старый добрый Transformer-XL, который считает внимание в пределах некоторого сегмента фиксированного размера. Однако, ограниченность такого подхода в том, что k, v кэши считаются только для последнего сегмента, потому нет возможности учитывать контекст с прошлых окон, и суммарный контекст ограничен размером сегмента на глубину сети.

В данной работе предложили привнести рекуррентность в Transformer-XL и поддерживают два состояния памяти:

1️⃣ M - размера IR d_key ×d_value в числителе
2️⃣ z - размера IR dkey в знаменателе

И некая комбинация, составленная из этих сущностей и Query в текущем сегменте выступает в качестве одного из членов в итоговой формуле attention, которая будет определена чуть ниже.

Состояние M обновляется после каждого сегмента через некоторую формулу с внешним произведением key, valuе в текущем сегменте. А z - через сумму от ключей, к которым применили функцию активации (ELU + 1), в данном сегменте (т.е z - является по существу скользящей суммой).

Итоговый контекст получается как взвешенная сумма локального attention в данном окне и полученного выше контекста. Относительный вес каждого слагаемого получается из обучаемого скаляра (отдельного для каждой головы внимания).

Эксперименты

Метод валидируют на бенчмарках по языковому моделированию с длинным контекстом (PG-19, arXiv-math). passkey retrieval и суммаризации книг (500k контекста).

В первом эксперименте берут трансформер с 12 слоями и hidden_dim =1024.
По перплексии метод заметно опережает конкурентные подходы (Transformer-XL, Memorizing Transformers), при этом имея значительно меньшее потребление памяти.

Infini-Transformer c контекстом вплоть до 1M токенов.

На BookSum Infini-Transformer так же бьет BART и Primera, и обе с опцией (+ Unlimiformer), будто бы существенно, но не радикально.

Выводы

Идея объединить локальное контекстное окно с рекуррентной памятью не выглядит принципиально новой 👨‍🦳. Экспериментальная валидация в статье недостаточна, не хватает очевидного сравнения с теми же state-space моделями. Как мне кажется, предложенный подход вряд ли сможет успешно решать с хорошей точность задачи, требующие селективности и способности запоминать несколько фактов одновременно из далекого прошлого, разнесенных по времени с произвольными интервалами между ними.

Читать полностью…

что-то на DL-ском

Выложили 1x16 квантованную версию меньшей из Command-R.

Не без просадки в качестве, но зато замерили на чуть более пацанских 😎 бенчмарках.

❓ Почему чекпоинт весит целых 12.7Gb, хотя больший по числу параметров Микстраль 8x7B занимает 12.6Gb? Все дело в жирной матрице эмбеддингов, она же lm голова.

https://huggingface.co/ISTA-DASLab/c4ai-command-r-v01-AQLM-2Bit-1x16

Читать полностью…

что-то на DL-ском

Два новых метода для смены стиля изображения или объекта в нём.

B-LoRA:
Позволяет выделить стиль и содержание арта в разные сущности и смешивать их с другими изображениями для точной передачи стиля целевому объекту.
Сайт // Гитхаб // Демо

InstantStyle:
Похожий метод. Данные об изображении переводятся в текст через CLIP и кладутся в два блока: один со стилем (цвет, материал, атмосфера), другой с пространственными характеристиками (структура, композиция). При генерации к этим блокам подмешивается новое изображение.
Сайт // Гитхаб // Демо

Читать полностью…

что-то на DL-ском

💉Is biotech a new IT?🧫

Я интересовалась биотехом с 9 класса. Именно тогда я наткнулась на сюжет в новостях о разработке биотехнологического препарата. Стала больше читать и узнала о существовании такой компании как BIOCAD. Затем все больше погружалась в тему, начала потихоньку читать про ДНК, антитела и грезить о том, что вот я стану специалистом в области молекулярной биологии и пойду работать в биотех-компанию.

Потом случилось мое первое знакомство с биотехом. Спойлер: с Биокадом. На ноябрьской химической смене в Сириусе. Я до сих пор благодарна Кириллу (привет, если ты это читаешь) за то, что на дне распределения придал мне решимости подать заявку именно на проект Биокада. С тех пор я знала что-то о молбиоле не только в теории, но и на практике.

Ни для кого не секрет, что в динамично развивающемся направлении учебный процесс не очень рационально строить только на учебниках — все слишком быстро меняется. Такими сферами сейчас являются биотех и IT. Я хочу поделиться с вами всеми материалами, которые мне дали 70% знаний о генной инженерии и молекулярной биологии, которые я имею. Итак, держите:

🧬ROAD MAP для развития в биотехе🧬

Здесь есть:
🔴бесплатные курсы по генной инженерии, молбиолу и биоинформатике в порядке с комментариями по прохождению
🔴список интернет-сообществ, которые помогут быть «в теме» и войти в комьюнити
🔴учебники
🔴раздел с информацией по методам анализа биомолекул (очень важно для тех, кто пойдет в фарму)

Когда-то я делала это на заказ для человека, который попросил меня дать материалы для погружения в биотех. Теперь я делюсь этим с вами🤍

Пересылайте тем, кому это потенциально может быть интересно. Я очень надеюсь, что кому-то это принесет пользу. Даже банально при подготовке к экзаменам.

В общем, лайк, шер и все прочее⭐️

Читать полностью…

что-то на DL-ском

Привет, сегодня статья про рекомендательные трансформеры в проде!

Затронем вопросы large vocabulary bottleneck, negative sampling и logQ correction.

https://telegra.ph/Strah-i-nenavist-v-rekomendaciyah-kak-zatashchit-ALBERT4Rec-v-prod-na-1080TI-03-17

Читать полностью…

что-то на DL-ском

Базированная модель, часть 1
или почему RWKV/Mamba/RetNet не работали, но заработают.

Есть такая группа в Стэнфорде, HazyResearch. Это они сделали первые SSM (state space models) моделии их современные версии (H3, Hyena). Ну и всякие мелочи вроде FlashAttention.

На этот раз ребята начали с того, что обучили трансформеры / H3 / Hyena / RWKV не очень больших одинаковых размеров на 10B токенах из The Pile. Трансформеры выиграли! 🤔

Возникает два вопроса: "кто виноват?" и "что делать?". На первый вопрос отвечает Zoology, на второй вопрос отвечает Based.

Кто виноват?
Zoology: Measuring and Improving Recall in Efficient Language Models, статья, пост 1, пост 2.

А виноваты оказались... повторяющиеся N-граммы 🤨
То есть словосочетания, которые уже встречались в контексте. Ну, не все, только достаточно редкие, потому что частотные N-граммы любая модель хорошо запоминает. Пример такого редкого словосочетания: фамилия и имя какого-то человека, которые несколько раз встречаются в одном документе, и никогда больше не встречаются в обучающем корпусе.

Предсказание последнего токена такой повторяющейся N-граммы и вызывает трудности у моделей без внимания. В статье такие токены называют associatve recall hits, AR hits, и по ним отдельно считают перплексию. Для Гиены и RWKV разница перплексии на этих токенах полностью покрывает разницу в общей перплексии.

Самое забавное, что мы уже такое видели несколькими постами ранее, тут. Хронологически "Repeat After Me" вышла двумя месяцами позже, но эту статью они явно не читали, иначе бы их статья скорее всего не вышла бы 😂

Теперь можно сформулировать, какая задача мешает не-трансформерам захватить мир. Задача называется multi-query associative recall (MQAR), и заключается она в поиске нескольких "иголок". Упрощенно она выглядит так:

Вход:
A 4 B 3 C 6 F 1 E 2

Запрос:
A ? C ? F ? E ? B ?

Ожидаемый выход:
4 6 1 2 3

В предыдущих работах показывали, что "одноиголочная" версия задачи вполне решается всеми моделями, но вот в случае языкового моделирования этого недостаточно. В реальных текстах повторяющиеся N-граммы встречаются часто, и обычно больше одной за раз: вот например только что "повторяющиеся N-граммы" повторились. И ещё раз 🤣

В задаче нет ничего сложного, просто модели нужно вычислять, куда возвращаться-то, а для этого всё нужно "запомнить". И у внимания с этим проблем нет, оно это делает за квадратичное время и за независящую от длины входа внутреннюю размерность модели. А вот перечисленным выше не-трансформерам нужно растить внутреннюю размерность линейно от длины входа, но зато время лучше квадратичного.

Есть и намёки, как это исправить! Нужно всего лишь добавить капельку внимания, то есть делать гибриды 😂
Однако ж нам не нужна полная маска внимания, и мы можем либо точечно влиять на AR hits ("programmatic selection" метод в статье), либо на основе входов предсказывать, для каких k токенов нужно включить внимание. Втыкают 3 слоя внимания на 6% параметров, и этого достаточно, чтобы добить бОльшую часть перплексии.

И наконец, 30 страниц доказательств! 😱
Что вообще доказывают:
- Обзывают все используемые в статье не-трансформерные модели вентильными свёртками (gated convolutions).
- Вводят архитектурный блок BaseConv: y = linear(x) ⊙ conv(h, x), где x - вход, y - выход, ⊙ - покомпонентное произведение, h - обучаемый фильтр.
- Доказывают эквивалентность между Гиеной и BaseConv в смысле симуляции за константное количество слоёв.
- Доказывают, что BaseConv может симулировать арифметические схемы, то есть вычислять многочлены.
- Доказывают эквивалентность между RetNet и BaseConv, в которой BaseConv нужно в log(d) раз больше слоёв.
- Выводят теоретическую оценку сложности для BaseConv на нашей задаче, MQAR, через построение алгоритма с параллельным бинпоиском и оценку его сложности.

К сожалению, я не слишком хорош в математике, чтобы всё это нормально осознать.

Вывод
RWKV не работает, совсем без внимания никак, гибриды победят, синтетические бенчмарки рулят.

Второй пост будет, и будет про непосредственно Based.

Читать полностью…

что-то на DL-ском

Приложения к посту нижу⬇️⬇️⬇️

Читать полностью…

что-то на DL-ском

Недавно коллеги из соседнего чата выпустили Vikhr-7b-instruct_0.2 - хорошую, на мой взгляд, русскоязычную instruct модель.

Я сделал квантизацию этой модели, забрать можно на Hugging Face .

@toshoseti

Читать полностью…
Subscribe to a channel