j_links | Unsorted

Telegram-канал j_links - Just links

6481

That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh

Subscribe to a channel

Just links

Field Deployment of Multi-Agent Reinforcement Learning Based Variable Speed Limit Controllers https://arxiv.org/abs/2407.08021

Читать полностью…

Just links

Про расширения RoPE
Первая часть: ссылка

Для начала коротко напомню, что вообще делает RoPE: берётся эмбеддинг и каждая пара фичей вращается на определённый угол. Для разных пар — разный угол. Для первого токена происходит один поворот, для второго — два поворота, и так далее. Вращаем и query, и key.

Кроме того, нас прежде всего интересует расширения контекст без дотюнивания.
Раздобыть данные на понимание длинного контекста и компьют на тюн не так уж просто.


Extending Context Window of Large Language Models via Positional Interpolation
Статья: ссылка

Казалось бы, ну и в чём проблема тогда? Пусть мы обучили модель на 4096 позициях. Тогда давайте просто вращать фичи 4097 раз, 4098 раза и так далее. Это называется экстраполяция 📊, и экспериментально подвтерждено, что она не работает с популярными базовыми моделями. Причём подтверждено ещё много где. При этом со стороны теории это несколько загадочно: RoPE не обучается и кодирует относитетельную позицию, так какого чёрта? То есть ожидается, что после экстраполяции модель будет себя вести так, как будто у неё скользящее окно в 4к токенов. А на самом деле её полностью разносит, логиты внимания для некоторых расстояний >4к улетают в небеса. 🤯
Почему? Об этом чуть ниже.

Пока же сосредоточимся на втором семействе методов — интерполяции. Базовая идея такая: представим, что для токена на 4096 позиции мы делаем в 2 раза меньше оборотов, 2048. И так для каждой позиции, вместо одного оборота делаем половину. После этого мы можем кодировать 8192 токенов вместо 4096. Но есть нюанс: модель-то не видела в обучении полуоборотов, соседние токены становятся практически неразличимы 💀
Поэтому авторы статьи полируют это всё тюном на расширенном контексте, что делает этот подход не особо практичным.


Scaling Laws of RoPE-based Extrapolation
Статья: ссылка

Суть статьи — обоснование провала экстраполяции. А виновата оказалсь база, θ = 10000 😐
Дело в том, что с такой базой не все фичи делают полный оборот за 4к. И в итоге для первых фичей модель видит полный оборот (и видит немонотонность функций), а для других фичей видит куски только до 2π, π или π/2. И как раз из-за наличия неполных кусков экстраполяция не работает как надо.

Авторы дотюнивают модель с разными базами, но в пределах оригинальной длины контекста, 4к. Если сделать базу радикально меньше, например 500, то все фичи совершают по несколько оборотов, и всё ок, экстраполяция будет работать с приемлемым качеством скользящего окна. С увеличением размера контекста становится хуже, но без переломов. Если сделать базу радикально больше, например 1000000, то точка перелома отодвигается на более широкий контекст, но всё ещё существует.

Хоть такой метод и выпадает из нашей изначальной постановки задачи, потому что снова надо тюнить, но тюнить-то надо на маленьком контексте 😊, поэтому проблем со сбором данных тут нет. Работает всё неплохо, особенно с маленькой базой.


NTK-Aware scaling
Пост: ссылка

Меняем интерполяцию с дообучением из первой статьи на масштабирование базы θ без дообучения. Описано в посте на Реддите, хронологически до статьи выше. По идее это всё ещё интерполяция (особенно если задать коэффициент масштабирования с запасом), только мы растягиваем для разных частот по-разному.


Dynamic NTK scaling
Пост: ссылка

Добавляем изменение коэффициента масштабирования в зависимости от текущей длины последовательности. То есть если текущая длины меньше оригинальной — не делаем ничего. А дальше растим коэффициент линейно.


YaRN: Efficient Context Window Extension of Large Language Models
Статья: ссылка

Добавляются две новых штуки: NTK-by-parts и температура в софтмаксе внимания. NTK-by-parts мотивирован фактом выше о том, что какие-то фичи и частоты и так нормально экстраполируются, так что их можно не трогать. Для тех фичей, которые не экстраполируются, мы интерполируем. А температуру меняем, чтобы выравнять распредление скоров внимания (она меньше 1). Да и экспериментально так получается перплексия пониже 🧠

И вот YaRN уже работает как без тюна, так и с тюном.

Читать полностью…

Just links

https://images.flrty.li/
Итак, вот собственно ссылка на сравнение из предыдущего поста.
Совет, листайте снизу, там самое интересное.

Диванные комментарии:

Тут замечена Stable Diffusion Ultra! И она неплохо себя показывает, особенно рядом с инвалидной SD3 Medium. Более того, она (пока) замечена в генерации селебов:

Там есть картинки Эммы Уотсон и там где DALL·E 3 или Ideogram нос воротят, SD Ultra генерит узнаваемую Эмму.
Но! Очень часто варианты SD ULTRA отсутствуют, особенно во второй части с веселым контентом, это означает сильную цензуру. Печаль.

Мне по прежнему очень нравится Kolors (это ее еще на английском промптили, по китайски она лучше понимает), а также Stable Cascade (недооцененная модель). Pixart Sigma выдает очень интересные картинки. Им всем не хватает финального Face или Frame Enhancer. Но картинки очень свежие.
Хуньянь со своим DiT пониманием промпта очень круто трактует промпт, но сама генерация недотренирована.
AuraFlow, о которой писал в пятницу - сырая и не годная.
DALL·E 3 постоянно рисует кукольных скуластых женщин с острыми носами, и хорош только вдалеке от людей.
Ideogram - самый сбалансированный что ли. От этого немного скучный. Плюс цензурированный как монах.
Midjourney рвет всех. На статичных промптах-картинках без контролнетов рвет всех, как тузик старую сухую клизьму.
Прикольно, что там есть чекпойнты SDXL - они иногда бьют всех именно на тех узких жанрах, под который тренировались. Точнее в некоторых ситуациях, скажем так. Полезно иметь в виду.

В общем, позалипайте.
Во-первых, - это красиво.
Во-вторых, - познавательно в одном месте увидеть новые архитектуры, про которые пишут в разных местах.
И только тут - в одном.
https://images.flrty.li/

@cgevent

Читать полностью…

Just links

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/

Читать полностью…

Just links

https://fixupx.com/zhengyiluo/status/1810380826984722898

Читать полностью…

Just links

ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context https://arxiv.org/abs/2407.06866

Читать полностью…

Just links

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy https://arxiv.org/abs/2407.07333

Читать полностью…

Just links

OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training https://www.primeintellect.ai/blog/opendiloco

Читать полностью…

Just links

Cheshire qudits from fractional quantum spin Hall states in twisted MoTe2 https://arxiv.org/abs/2407.03401

Читать полностью…

Just links

2024 update (https://scholar.google.com/citations?view_op=top_venues):
2. CVPR h5=440, h5-median=689
7. NeurIPS 337/614
10. ICLR 304/584
13. ICCV 291/484 (ECCV/ICCV are bi-annual)
17. ICML 268/424
35. AAAI 220/341
36. ACL 215/362
46. ECCV 206/306
49. T-PAMI 196/348
51. EMNLP 193/310
...
IEEE Transactions on Image Processing 150/202
IEEE Transactions on Neural Networks and Learning Systems 149/215
IJCAI 136/192
NAACL 132/228
JMLR 117/202
CVPR Workshops 115/178
WACV 109/162
International Conference on Artificial Intelligence and Statistics 100/162
IJCV 97/173
ICCV Workshops 80/135
BMVC 65/109
IJCNN 64/95
ACCV 39/64
CoNLL 39/60

Читать полностью…

Just links

torch.compile, the missing manual https://docs.google.com/document/d/1y5CRfMLdwEoF1nTk9q8qEu1mgMUuUtvhklPKJ2emLU8

Читать полностью…

Just links

PWM: Policy Learning with Large World Models https://arxiv.org/abs/2407.02466

Читать полностью…

Just links

Learning to Assist Humans without Inferring Rewards https://openreview.net/forum?id=pN8bDIqpBM

Читать полностью…

Just links

Finite-temperature properties of string-net models https://arxiv.org/abs/2406.19713

Читать полностью…

Just links

BusyBeaver(5) is now known to be 47,176,870

via Shtetl-Optimized (author: Scott)

Читать полностью…

Just links

More people who bother to add something to links /channel/addlist/C_RSYpbW5mIyMjVi

Читать полностью…

Just links

Прямо сейчас идет контест LLM4HWDesign, с целью компиляции сообществом качественного Verilog (язык описания цифровых схем, можно проектировать некоторый хардвар) датасета для LLMок для дизайна аппаратного обеспечения. Спонсирует не самая дорогая компания в мире (NVidia, прямо сейчас на 3 месте).
Длится до октября.

https://nvlabs.github.io/LLM4HWDesign/

В качестве бейзлайна берут датасет: https://huggingface.co/datasets/GaTech-EIC/MG-Verilog

Контест состоит из двух фаз. На первой изучают методы сбора и генерации ллмками Verilog кода, на второй будет фильтрация, описание, лейблинг данных ллмками.

Ждем LLMок проектировщиков хардвара.
НВидия прям во всех направлениях ИИ пытается двигаться, регулярно и ллмки делает и RL и еще всякий ресерч. хочет продавать больше видях

Ну а призы за первое и второе место дают 4080 (+ $2k, $1k денег), за третье 4070 + $500. Чо, ни одной 4090? Это грустное.

Читать полностью…

Just links

https://fixupx.com/learnprompting/status/1812567999737442628

Читать полностью…

Just links

ActionVOS: Actions as Prompts for Video Object Segmentation https://arxiv.org/abs/2407.07402

Читать полностью…

Just links

On Leakage of Code Generation Evaluation Datasets https://arxiv.org/abs/2407.07565

Читать полностью…

Just links

A way to cross the Andreev bridge https://www.nature.com/articles/s41567-024-02575-0

Читать полностью…

Just links

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps https://arxiv.org/abs/2407.07071

Читать полностью…

Just links

The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better https://arxiv.org/abs/2406.05184

Читать полностью…

Just links

опубликовали топ-1 решение AIMO

https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/discussion/519303

Читать полностью…

Just links

Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning https://arxiv.org/abs/2407.00699

Читать полностью…

Just links

On scalable oversight with weak LLMs judging strong LLMs https://arxiv.org/abs/2407.04622

Читать полностью…

Just links

Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models https://arxiv.org/abs/2407.00456

Читать полностью…

Just links

Learning Formal Mathematics From Intrinsic Motivation https://arxiv.org/abs/2407.00695

Читать полностью…

Just links

On-Policy RL with Transformers Results in Masterful Navigators https://poliformer.allen.ai/

Читать полностью…

Just links

Чтож, у txt2img моделей проблемными были руки, а у txt2video проблемно получается легкая атлетика

Сделал вам олимпийских игр из латентного пространства Gen3 ☕️

Читать полностью…
Subscribe to a channel