nadlskom | Unsorted

Telegram-канал nadlskom - что-то на DL-ском

3648

Авторка активно хочет зашарить все на свете и делится в этом канале. NLP ⊂ AI → NLP/CV/speech ⊂ AI Связаться со мной @nadlsk Тг буст канала: https://t.me/nadlskom?boost Чат айтишниц: https://t.me/+n-WIEfhc3ZFhOGIy Реклама очень дорого.

Subscribe to a channel

что-то на DL-ском

Это же новый тренд, Qwen-ов инициализировать ?
OlympicCoder 7B 32B

Читать полностью…

что-то на DL-ском

Честно говоря, довольно достойно

🤗1.5 B DeepScaleR-1.5B-Preview
🤗Датасет

Интересно, мы сейчас проходим все-таки сигмоидальный рост или экспоненциальный

Читать полностью…

что-то на DL-ском

Что делает победа опен сурса

что дальше? Даже что-то в открытый доступ дадут, как в старые добрые??

Кажется, что пока у них не выйдет что-то, что сильнее соты в открытых моделях, OpenAI готовы будут перекрывать недостаток своего влияния открытыми технологиями снова🤔

Коммент

Читать полностью…

что-то на DL-ском

🇵🇱 Хеллоу, админка на рабочую неделю в Варшаве и очень хочет нетворкаться после работы. Го соберемся на пиво, кто тут обитает: чат

Читать полностью…

что-то на DL-ском

Mechanistic Interpretability

I have prepared a list of papers on Mechanistical Interpretability. If you have good links on this topic, please share them in the comments.

* 2021: A Mathematical Framework for Transformer Circuits
* 2022.06.27: Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases
* 2022.09.14: Toy Models of Superposition
* 2022.09.24: In-context Learning and Induction Heads
* 2023.04.28: Towards Automated Circuit Discovery for Mechanistic Interpretability
* 2023.01.12: Progress measures for grokking via mechanistic interpretability
* 2023.05.24: Interpretability Dreams
* 2023.09: Sparse Autoencoders Find Highly Interpretable Model Directions
* 2023.10.25: Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism
* 2024.01.15: Sparse Autoencoders Work on Attention Layer Outputs
...

Читать полностью…

что-то на DL-ском

Буквально пару месяцев назад у меня были рассуждения на счет того, почему на encoder-only не применяют современные техники обучения llm-ок, и вот это свершилось!!

ModernBert:

- у него есть RoPE эмбеды, благодаря которой можно заливать в него контекст 8192
- flash attention 2
- пролили через него 2 триллиона токенов

Надеюсь, что на этом не остановятся и попробуют проучить на большем количестве токенов, подобно тенденции в скейлинге llm

🤗Их блогпост

Читать полностью…

что-то на DL-ском

Очень не дурно,

♻️Тыкать тут DeepSeek-V3-Base

Читать полностью…

что-то на DL-ском

Code

pip install markitdown

Читать полностью…

что-то на DL-ском

Статьи сегодня не радуют, везде как всегда мы заменили эту хрень на другую хрень и получили +2 %, поэтому у меня сегодня #воскрестныйStrongGirlsVibe

Читать полностью…

что-то на DL-ском

BLT (byte latent transformer). То есть как работать с байтами напрямую без токенизации

💛по сути вместо токенов теперь используют патчи последовательностей, основанных на энтропии предсказаний
💛понятно, что эффективнее по FLOPs, тк происходит динамическое распределение ресурсов между патчами в зависимости от сложности
💛работает по механизму: кодирование энкодером байты в патчи 🩰обработка патчей трансформером 🩰декодирование патчей в байты
💛я вижу в этом подходе много плюсов:
👀эффективность по FLOPs
👀возможность zero-shot-ом включать новые языки или специфичные данные. Условно намного легче, чем сейчас потренировать модель на координаты, статистики, рекомендацию и тд
👀легкое добавление мультимодальности на вход и на выход
💛но я не говорю, что тренировка такого трансформера становится супер простой. Нам теперь приходиться думать о энропийном сегментировании и динамическом патчинге
💛ну и кстати скалируемость поисследовали с масштабируемостью от 400M до 8B

🖥Как бы код есть, но понятно, что использовать его как есть довольно больно будет, я жду внедрения на hf от опенсурса, тогда можно говорить о тесте такого трансформера в продуктах
📖Paper

Читать полностью…

что-то на DL-ском

Crawl4Al – веб-краулер,
оптимизированный для сбора данных и подготовки их для использования в обучении LLM

Читать полностью…

что-то на DL-ском

Hugging Face выпустили курс по alignment LLM. Уже есть секции про:

🩰instruction tuning
🩰alignment
🩰PEFT
🩰валидацию

Ждем выпуска vision LM, синт датасетов и инференса

Го тыкать

Читать полностью…

что-то на DL-ском

🥰Немного самых красивых итогов тестирования сеток вечером. Прогресс явно движется куда-то в сторону создания GenAI контента без модификаций сверху ради достижения идеального результата

Читать полностью…

что-то на DL-ском

BOUNDLESS SOCRATIC LEARNING WITH LANGUAGE GAMES

Пространство прочитанных статей, идущих к AGI, на квадратный метр за последние сутки зашкаливает в моей статистики поиска таких тематик

Смысл следующий:

Система генерирует данные → анализирует их (Вместо внешнего учителя система использует встроенного критика, чтобы оценивать свои результаты. Офк, если критик плохой, то и результат плохой. По сути критик просто задает себе же вопросы «а это правда?») → генерирует новые на основе предыдущего шага

Чтобы объяснить нормально, кажется, достаточно привести пример:

Система пытается доказать математическую гипотезу:

🩰У неё есть проверяющий доказательства (тут можно юзать Lean) и база теорем
🩰Она генерирует доказательства, добавляет новые леммы, строит цепочки, пока не докажет сложную гипотезу

🩰Идея проста: рекурсивно расширять знания, проверяя себя на каждом шаге

Помимо изначального качества модели (чтобы критик работал), есть еще пару ограничений:

🩰Без разнообразия данных система провалится в деградацию
🩰Ну и на это опять же нужны какие-то нереальные ресурсы, которые есть у крупных игроков
🩰А еще, в статье нет замеров НИКАКИХ. Так что я буду считать это не статьей, а заметками ресерчера🙂

📖Размышления
🖥Кода вроде нема, as always в deepmind

Читать полностью…

что-то на DL-ском

🎆 Небольшая лекция об Alignment и как мы его готовим

Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.

Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы

Задавайте вопросы в комментариях, если что-то непонятно, будем обсуждать.

Читать полностью…

что-то на DL-ском

21 век – это когда даже у моделей теперь есть ОКР

Читать полностью…

что-то на DL-ском

Ищу Джуна MLE

😺опыт 5 лет
😺минимум 5 статьей на конфах A*
😺должен знать все основы, чтобы пройти мой тех собес. Там по мелочи, от всех компонент трансформера и как масштабировать модель до новых подходов в диффузионных моделях
😺Work life balance будет зависеть от вашей способности работать быстро и делать 3 задачи в день
😺Платить будем вам нашими коинами компании. Зп по договоренности, конечно, но вы же должны понимать, что Джун наглеть с вилкой не должен

Читать полностью…

что-то на DL-ском

От RStaR до DeepSeek и обратно. Или краткий обзор, а че это ваще было!?

Итак, deepseek наделало много шума. Но давайте бегло пройдемся в стиле "а чей-то вообще было?". Для начала, если взглянуть в архитектуру, то можно увидеть наследие llama, присыпанное МоЕ слоями. Это "чудо генной МоЕ инженерии" далее учили интересным образом. Первое это, разумеется pretrain. Однако после, мы видим, что для zero поколения не используют SFT стадию, а сразу переходят к RL.

Все знакомые задаются вопросом:
- "Почему без sft?".
При этом на просторах паутины всплывает статья. В ней описываются эксперимент, как влияет на генерализацию и др. способности после претрейна этапы sft и rl обучения моделей.
Если кратко, выводы такие, что sft работает лучше на запоминание паттернов, а rl лучше способствует ризонингу и генерализации на "новых задачах". Поясню. Т.е. sft надо включать тогда, когда хочется сделать domain adoptation и все. Ну а если вам хочется работать лучше на "неожиданных" out of fold примерах, лучше юзать rl.
Но, на взгляд Дяди, никто не запрещает микстить оба подхода. Еще замечу, что интуитивно мне понятно почему rl способствует большей "свободе" в ориентации по задачам. Сама постановка обучения с подкреплением - это работа с большей вариативностью исходов, которые обеспечивает среда, она может порождать больше примеров, чем рукописная выборка, а значит на этапе тюна мы увидим больше вариантов развития событий. Модель засчет награды научится эти варианты обрабатывать, улучшится ризонинг, планинг и тп.
Почитать выжимку также можно у коллеги тут.

Про no model rl. Еще один плюс подхода заключается в том, что в zero сетапе нет внешней модели, в качестве среды для grpo у нас выступают правила и компилятор. Тк задачи имеют точный итоговый ответ, то с ним можно сравниться по заданным критериям, а если это код использовать селф -дебаг и компилятор. Привет, к примеру RStaR. А еще это даёт возможность уйти от взлома reward модели, например, через oov примеры (модель награды не видела всех исходов).

Однако, для дальнейших стадий обучения авторы прибегнут и к внешней модели награды и к RLAIF подходу, и, конечно, будут делать sft, перемежая его с rl grpo. А все из-за "проблемы" с мультиязыком и как решить эти переходы во время рассуждений модели. В том числе, для этого, как пишут авторы, были добавлены стадии сфт и тп. Но у нас сложность интерпретации падает не только из-за мультияза, но и еще из-за LongCoT цепочек, как артефакта rl. Кстати, длинные рассуждения это артефакт взаимодействия rl обучения и thinking токенов - тут это формат, где мы указываем откуда начинать и где закончить блок рассуждений. И этот формат также проверяется в no model reward. Дядя бы и туда проверку на стабильность языка добавил, мол доля токенов целевого языка бы мерилась к нецелевой и добавлялась в награду.

Переход от zero к hero (zero deepseek r1 vs deepseek r1). Итого мы получаем, что на первом этапе модель учится в сетапе: pretrain+thinking area/tokens + rl. Так получается zero R1. После используется sft+rl+rlaif дообучение. Здесь нужно пояснение. Процесс обучения второй стадии начинается с холодного старта. DeepSeek v3 тюнят на рафинированном датасете, который просеян через Zero-R1 — отобранный high quality примеры. Так подтягивают читаемость. Далее проходит этап RL для улучшения ризонинга. Потом снова, используя модель со второго этапа и отбирают лучшие варианты из обучающей выборки (состоит в основном из рассуждений) + используют некую reward модель, о которой упоминается вскольз (но тоже на базе DeepSeek.v3), такой вот rejection sampling. Наконец, делают последний rl тюн на rule based награде и сете из разнообразных задач, тут же включают RLAIF подход для выравнивания. Такой длинный пайп, снова роднит нас, на мой взгляд с RStaR подходом обучения. Там тоже были схожие стадии просеивания и самоулучшения.

Далее 👇👇👇👇👇

Читать полностью…

что-то на DL-ском

Как сделать большие языковые модели по-настоящему умными?

Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.

➡️ Регистрируйся на Reading Club: 29 января.

Эксперт: Михаил Бурцев

⭐️ PhD в Computer science
⭐️ Landau AI Fellow, LIMS.
⭐️ Был приглашённым исследователем в Кембридже.
⭐️ Под его руководством была разработана, отмеченная наградами, открытая платформа для создания диалоговых AI-систем DeepPavlov.
⭐️ Автор множества публикаций в ведущих научных журналах.

📄 Статья: Learning Elementary Cellular Automata with Transformers

Когда: 29 января в 18:30 [+3 МСК]

🔗 ЗАРЕГИСТРИРОВАТЬСЯ

Приходи. Будет интересно!

#ReadingClub #AITalentHub #ITMO #NapoleonIT

Читать полностью…

что-то на DL-ском

Visualize and understand GPU memory in PyTorch

🤗Link

Читать полностью…

что-то на DL-ском

Всех папищеков канала с наступающим 2025 годом🎄. Хочу пожелать, чтобы вы под елочкой нашли самые заветные подарки и провели год в достижении желаемых целей. Пусть модели сходятся, ресурсы и хирш будут большими, а лоссы – маленькими🥳

Подводя некоторые итоги года в этом канале: я радуюсь, что мне не надо постить на сколько вырос канал в этом году и могу выложить сюда по настроению что угодно, потому что научилась вести канал просто для души и от души)). Но главный итог, про который я узнала – это то, что мой вайб разделяют все больше людей💅

Поэтому закидываю вам разделить со мной классную нг серию mj генераций и идти готовиться отмечать праздник🥳

Читать полностью…

что-то на DL-ском

📱Залипла на чей-то список ссылок по практически любой теме современного DL лол

🔍Можно тут ознакомиться

Началось все с директории по LLM reasoning

Читать полностью…

что-то на DL-ском

На днях наткнулся на канал в Youtube некоего szymonozog7862">Simon Oz.

Парень доступно, с красивыми визуализациями в стиле 3Blue1Brown рассказывает про всякие темы из теории информации и особенности программирования на CUDA.

В частности, особого внимания заслуживает видос про то, как написать эффективный kernel для softmax, который быстрее реализаций в торче и на тритоне. Он пошагово анализирует узкие места, нюансы железа и алгоритма, и постепенно добивается улучшения производительности:

1️⃣ Эффективный алгоритм редукции для нахождения максимума
2️⃣ Оптимизации доступов к памяти (coalescing)
3️⃣ Перенос части операций из shared memory в регистры GPU (которые еще быстрее)
4️⃣ Векторизация операций через float4
5️⃣ Однократная подгрузка данных для подсчета максимума и экспоненты вместо двухкратной

Красивое...

Читать полностью…

что-то на DL-ском

Воркшоп по сореве NeuralIPS начался, можно смотреть на мои 10 минут русского акцента:
https://neurips.cc/virtual/2024/competition/84802

Читать полностью…

что-то на DL-ском

🎓 Стипендиальная программа Impact Academy для технических исследователей безопасности ИИ

Ищем амбициозных и талантливых людей в области ML рисёрча для участия в стипендиальной программе Impact Academy по безопасности ИИ. Это шанс проводить исследования и работать с лидерами индустрии — и получить от них приглашения в топовые AI safety лабы и проекты (например, Center for Human-Compatible Artificial Intelligence, FAR AI и Mila AI Institute)

💼 Что вас ждет?

• Оффлайн программа (3-6 месяцев с марта) в Сингапуре, Англии или США.
• Исследования и коучинг в сфере AI safety.
• Стипендия ~$5000/мес.
• Перспектива работы в ведущих AI-проектах.

👤 Кого мы ищем?

• Отличный английский и опыт в ML/DL (публикации, и проекты).
• Программирование на уровне ведущей техкомпании с опытом более года.
• Достижения: национальные / международные олимпиады или учеба на топовых ML кафедрах / ~ШАД.
• Интерес к снижению рисков от продвинутых AI-систем.

Срок подачи: ранний для до 15 декабря, далее до 31 декабря (с меньшими шансами)

Если заинтересовались или знаете подходящего кандидата, напишите @vakondyrev, который ответит на вопросы, и если вы хорошо подходите — порекомендует вас Impact Academy. Можно также податься сразу напрямую без рекомендации тут — aisafetyfellowship.org. За рекомендацию подходящего кандидата также предусмотрено вознаграждение

Читать полностью…

что-то на DL-ском

Под этот smol курс, появилась отдельно коллекция smolLM. Но у меня в закладках лежал синтетический датасет для обучения – 🌟 smolTalk

We created new synthetic datasets that improve instruction following while covering diverse tasks including text editing, rewriting, summarization, and reasoning. Through a series of data ablations at 1.7B scale, we enhanced our SFT mix by incorporating public datasets to strengthen specific capabilities such as mathematics, coding, system prompt following and long-context understanding


Возможно, в этом курсе, в главе про синту, он будет фигурировать🤷‍♂️

Читать полностью…

что-то на DL-ском

Если коротко, то по ссылке найдете полезный блогпост о:

❤️Том как влияет токенизация чисел в LLM на арифметические задачи (мне показалось это близким из-за того, что правильная токенизация чисел влияет вообще на любую задачу, где присутвуют не только текстовые данные. Рексис и предсказание численных данных на трансформерах передали привет)
❤️Как они сравнивали влияние токенизации и нашли способ добиться прироста при импорте моделей с hf за счет пару строк кода

Дам небольшие спойлеры по выводам:

🩰Для задач, связанных с арифметикой, рекомендуется использовать обратную токенизацию чисел ("справа налево"). Подробнее можно почитать про такой вид токенизации в статье от февраля этого года
🩰Для других задач, где важно учитывать числовую целостность, лучше использовать целочисленную токенизацию (число как единый токен)

Всем хорошего выходного дня🩰

Читать полностью…

что-то на DL-ском

#воскрестныйStrongGirlsVibe

Читать полностью…

что-то на DL-ском

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

⚠️ (attention, тут my opinion) Все хотят создать AGI, поэтому продолжают долбиться в принятие решений с помощью моделей. Очередная статья, которая пытается решить такую задачу. Я заранее обозначу свое 🧠ценное мнение🧠 и усомнюсь в масштабировании этого подхода на проде или около. Но как идея, в которую можно капнуть пойдет🍻

Test-Time Training (TTT) - это метод,
позволяющий модели временно обучаться во время тестирования, чтобы адаптироваться к новым задачам.
В статье авторы применили ТТТ к задачам абстрактного мышления из набора
Abstraction and Reasoning Corpus (ARC)


Pipeline:

🩰Pretrain синтой: leave-one-out (исключаем пример из выборки). Он применяется как для предобучения, так и для генерации доп примеров ко время обучения на адаптерах для генерации доп задач; преобразовываем цвет/делаем отражение/поворот
🩰Данные представляются в виде текста (не массив уже, а перечисление цифр с /n)
🩰Используем на инференсе либо in-context learning, чтобы продемонстрировать способности современных LLM, так сказать🧠. Если не получилось идет в до обучение на адаптерах (LoRA) для конкретной задачи
🩰На инференсе генерируем несколько вариантов и голосуем за наилучший (тупо по частотности).

🤔А на мой взгляд, раз уж мы совсем не думаем как долго это будет работать, можно было бы и какую-нибудь степень уверенности тогда выводить, гы

🩰Chain-of-thoughts в обучение улучшило резы на сложных примерах. В статье они называют это программным синтезом, когда модель генерирует ход решения по шагам

📖Статья
🖥Код

My honest reaction: ☺️

Читать полностью…

что-то на DL-ском

🥺После дискуссии в комментариях, считаю своим долгом написать обзор на

Your Transformer is Secretly Linear

И доказать!!! Как сильно отличается подход в текущей статье от сегодняшнего предыдущего обзора

❤️Авторы обнаружили (ща отмечу исходный обзор автора, чтобы вы пошли почитали туда. Потому что моя то главная цель только что-то там доказать в интернете), что преобразования между слоями LLM-ок почти линейно по метрике Прокруста
🩰🩰Такая фигня, которая помогает измерить сходство наборов, например векторов, после выравнивания

❤️В ходе анализа появилось наблюдение, что на претрене линейность уменьшалась, а на дообучении возрастала, ввиду гибкости трансформеров при адаптации

❤️Обнаружения в первом и втором пункте привели к исследованиям в сторону регуляризации на основе косинусного сходства, чтобы снизить линейность и удаления наиболее линейных слоев

Итак, теперь вернемся к тому, что статья вообще про другое!!!

❤️В предыдущей статье внимание акцентировалось на том, что attention в 50% случае избыточен, а тут на том, что мы можем избавиться от слишком линейных слоев
❤️Метрики разные, очев, да?
❤️Тут исследовались методы регуляризации на претрене, в то время, как у предыдущей статьи авторы дропали слои уже на посттреин
❤️А еще в этой статье слои не только удаляются, но еще и заменяются линейными аппроксимациями, что минимизирует потерю производительности после удаления

😬 Все, думайте

😐Пользуясь случаем подведу к тому, что в предыдущей статье главный поинт для меня был в том, что attention можно дропать частично, в то время, как предыдущие исследования показывают его важность. Тем не менее, в комментах к предыдущему посту накидали 4 довольно похожие статьи на ту же идею с attention. Приходите читать, ссылки в чате

📖Папир
🖥Код

Читать полностью…
Subscribe to a channel