That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Field Deployment of Multi-Agent Reinforcement Learning Based Variable Speed Limit Controllers https://arxiv.org/abs/2407.08021
Читать полностью…Про расширения RoPE
Первая часть: ссылка
Для начала коротко напомню, что вообще делает RoPE: берётся эмбеддинг и каждая пара фичей вращается на определённый угол. Для разных пар — разный угол. Для первого токена происходит один поворот, для второго — два поворота, и так далее. Вращаем и query, и key.
Кроме того, нас прежде всего интересует расширения контекст без дотюнивания.
Раздобыть данные на понимание длинного контекста и компьют на тюн не так уж просто.
Extending Context Window of Large Language Models via Positional Interpolation
Статья: ссылка
Казалось бы, ну и в чём проблема тогда? Пусть мы обучили модель на 4096 позициях. Тогда давайте просто вращать фичи 4097 раз, 4098 раза и так далее. Это называется экстраполяция 📊, и экспериментально подвтерждено, что она не работает с популярными базовыми моделями. Причём подтверждено ещё много где. При этом со стороны теории это несколько загадочно: RoPE не обучается и кодирует относитетельную позицию, так какого чёрта? То есть ожидается, что после экстраполяции модель будет себя вести так, как будто у неё скользящее окно в 4к токенов. А на самом деле её полностью разносит, логиты внимания для некоторых расстояний >4к улетают в небеса. 🤯
Почему? Об этом чуть ниже.
Пока же сосредоточимся на втором семействе методов — интерполяции. Базовая идея такая: представим, что для токена на 4096 позиции мы делаем в 2 раза меньше оборотов, 2048. И так для каждой позиции, вместо одного оборота делаем половину. После этого мы можем кодировать 8192 токенов вместо 4096. Но есть нюанс: модель-то не видела в обучении полуоборотов, соседние токены становятся практически неразличимы 💀
Поэтому авторы статьи полируют это всё тюном на расширенном контексте, что делает этот подход не особо практичным.
Scaling Laws of RoPE-based Extrapolation
Статья: ссылка
Суть статьи — обоснование провала экстраполяции. А виновата оказалсь база, θ = 10000 😐
Дело в том, что с такой базой не все фичи делают полный оборот за 4к. И в итоге для первых фичей модель видит полный оборот (и видит немонотонность функций), а для других фичей видит куски только до 2π, π или π/2. И как раз из-за наличия неполных кусков экстраполяция не работает как надо.
Авторы дотюнивают модель с разными базами, но в пределах оригинальной длины контекста, 4к. Если сделать базу радикально меньше, например 500, то все фичи совершают по несколько оборотов, и всё ок, экстраполяция будет работать с приемлемым качеством скользящего окна. С увеличением размера контекста становится хуже, но без переломов. Если сделать базу радикально больше, например 1000000, то точка перелома отодвигается на более широкий контекст, но всё ещё существует.
Хоть такой метод и выпадает из нашей изначальной постановки задачи, потому что снова надо тюнить, но тюнить-то надо на маленьком контексте 😊, поэтому проблем со сбором данных тут нет. Работает всё неплохо, особенно с маленькой базой.
NTK-Aware scaling
Пост: ссылка
Меняем интерполяцию с дообучением из первой статьи на масштабирование базы θ без дообучения. Описано в посте на Реддите, хронологически до статьи выше. По идее это всё ещё интерполяция (особенно если задать коэффициент масштабирования с запасом), только мы растягиваем для разных частот по-разному.
Dynamic NTK scaling
Пост: ссылка
Добавляем изменение коэффициента масштабирования в зависимости от текущей длины последовательности. То есть если текущая длины меньше оригинальной — не делаем ничего. А дальше растим коэффициент линейно.
YaRN: Efficient Context Window Extension of Large Language Models
Статья: ссылка
Добавляются две новых штуки: NTK-by-parts и температура в софтмаксе внимания. NTK-by-parts мотивирован фактом выше о том, что какие-то фичи и частоты и так нормально экстраполируются, так что их можно не трогать. Для тех фичей, которые не экстраполируются, мы интерполируем. А температуру меняем, чтобы выравнять распредление скоров внимания (она меньше 1). Да и экспериментально так получается перплексия пониже 🧠
И вот YaRN уже работает как без тюна, так и с тюном.
https://images.flrty.li/
Итак, вот собственно ссылка на сравнение из предыдущего поста.
Совет, листайте снизу, там самое интересное.
Диванные комментарии:
Тут замечена Stable Diffusion Ultra! И она неплохо себя показывает, особенно рядом с инвалидной SD3 Medium. Более того, она (пока) замечена в генерации селебов:
Там есть картинки Эммы Уотсон и там где DALL·E 3 или Ideogram нос воротят, SD Ultra генерит узнаваемую Эмму.
Но! Очень часто варианты SD ULTRA отсутствуют, особенно во второй части с веселым контентом, это означает сильную цензуру. Печаль.
Мне по прежнему очень нравится Kolors (это ее еще на английском промптили, по китайски она лучше понимает), а также Stable Cascade (недооцененная модель). Pixart Sigma выдает очень интересные картинки. Им всем не хватает финального Face или Frame Enhancer. Но картинки очень свежие.
Хуньянь со своим DiT пониманием промпта очень круто трактует промпт, но сама генерация недотренирована.
AuraFlow, о которой писал в пятницу - сырая и не годная.
DALL·E 3 постоянно рисует кукольных скуластых женщин с острыми носами, и хорош только вдалеке от людей.
Ideogram - самый сбалансированный что ли. От этого немного скучный. Плюс цензурированный как монах.
Midjourney рвет всех. На статичных промптах-картинках без контролнетов рвет всех, как тузик старую сухую клизьму.
Прикольно, что там есть чекпойнты SDXL - они иногда бьют всех именно на тех узких жанрах, под который тренировались. Точнее в некоторых ситуациях, скажем так. Полезно иметь в виду.
В общем, позалипайте.
Во-первых, - это красиво.
Во-вторых, - познавательно в одном месте увидеть новые архитектуры, про которые пишут в разных местах.
И только тут - в одном.
https://images.flrty.li/
@cgevent
Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/
Читать полностью…https://fixupx.com/zhengyiluo/status/1810380826984722898
Читать полностью…ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context https://arxiv.org/abs/2407.06866
Читать полностью…Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy https://arxiv.org/abs/2407.07333
Читать полностью…OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training https://www.primeintellect.ai/blog/opendiloco
Читать полностью…Cheshire qudits from fractional quantum spin Hall states in twisted MoTe2 https://arxiv.org/abs/2407.03401
Читать полностью…2024 update (https://scholar.google.com/citations?view_op=top_venues):
2. CVPR h5=440, h5-median=689
7. NeurIPS 337/614
10. ICLR 304/584
13. ICCV 291/484 (ECCV/ICCV are bi-annual)
17. ICML 268/424
35. AAAI 220/341
36. ACL 215/362
46. ECCV 206/306
49. T-PAMI 196/348
51. EMNLP 193/310
...
IEEE Transactions on Image Processing 150/202
IEEE Transactions on Neural Networks and Learning Systems 149/215
IJCAI 136/192
NAACL 132/228
JMLR 117/202
CVPR Workshops 115/178
WACV 109/162
International Conference on Artificial Intelligence and Statistics 100/162
IJCV 97/173
ICCV Workshops 80/135
BMVC 65/109
IJCNN 64/95
ACCV 39/64
CoNLL 39/60
torch.compile, the missing manual https://docs.google.com/document/d/1y5CRfMLdwEoF1nTk9q8qEu1mgMUuUtvhklPKJ2emLU8
Читать полностью…PWM: Policy Learning with Large World Models https://arxiv.org/abs/2407.02466
Читать полностью…Learning to Assist Humans without Inferring Rewards https://openreview.net/forum?id=pN8bDIqpBM
Читать полностью…Finite-temperature properties of string-net models https://arxiv.org/abs/2406.19713
Читать полностью…BusyBeaver(5) is now known to be 47,176,870
via Shtetl-Optimized (author: Scott)
More people who bother to add something to links /channel/addlist/C_RSYpbW5mIyMjVi
Читать полностью…Прямо сейчас идет контест LLM4HWDesign, с целью компиляции сообществом качественного Verilog (язык описания цифровых схем, можно проектировать некоторый хардвар) датасета для LLMок для дизайна аппаратного обеспечения. Спонсирует не самая дорогая компания в мире (NVidia, прямо сейчас на 3 месте).
Длится до октября.
https://nvlabs.github.io/LLM4HWDesign/
В качестве бейзлайна берут датасет: https://huggingface.co/datasets/GaTech-EIC/MG-Verilog
Контест состоит из двух фаз. На первой изучают методы сбора и генерации ллмками Verilog кода, на второй будет фильтрация, описание, лейблинг данных ллмками.
Ждем LLMок проектировщиков хардвара.
НВидия прям во всех направлениях ИИ пытается двигаться, регулярно и ллмки делает и RL и еще всякий ресерч. хочет продавать больше видях
Ну а призы за первое и второе место дают 4080 (+ $2k, $1k денег), за третье 4070 + $500. Чо, ни одной 4090? Это грустное.
https://fixupx.com/learnprompting/status/1812567999737442628
Читать полностью…ActionVOS: Actions as Prompts for Video Object Segmentation https://arxiv.org/abs/2407.07402
Читать полностью…On Leakage of Code Generation Evaluation Datasets https://arxiv.org/abs/2407.07565
Читать полностью…A way to cross the Andreev bridge https://www.nature.com/articles/s41567-024-02575-0
Читать полностью…Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps https://arxiv.org/abs/2407.07071
Читать полностью…The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better https://arxiv.org/abs/2406.05184
Читать полностью…опубликовали топ-1 решение AIMO
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/discussion/519303
Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning https://arxiv.org/abs/2407.00699
Читать полностью…On scalable oversight with weak LLMs judging strong LLMs https://arxiv.org/abs/2407.04622
Читать полностью…Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models https://arxiv.org/abs/2407.00456
Читать полностью…Learning Formal Mathematics From Intrinsic Motivation https://arxiv.org/abs/2407.00695
Читать полностью…On-Policy RL with Transformers Results in Masterful Navigators https://poliformer.allen.ai/
Читать полностью…Чтож, у txt2img моделей проблемными были руки, а у txt2video проблемно получается легкая атлетика
Сделал вам олимпийских игр из латентного пространства Gen3 ☕️