That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
No Black Holes from Light https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.133.041401
Читать полностью…Ммм, кайфологи из DeepMind рассказывают про AlphaGeometry2 + AlphaProof
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
AlphaProof работает на RLе
Около миллиона неформальных математических задач переводятся на формальный математический язык (LEAN) с помощью нейросетки-формализатора. Затем сеть-решатель ищет доказательства или опровержения проблем, постепенно обучаясь с помощью AlphaZero решать более сложные проблемы.
AlphaGeometry 2 на гемини:
Это нейро-символическая гибридная система, в которой языковая модель была основана на Gemini и обучена с нуля на гораздо большем количестве синтетических данных, чем ее предшественница. Это помогло модели решить гораздо более сложные задачи геометрии, включая задачи о движении объектов и уравнениях углов, отношений или расстояний.
ViLLa: Video Reasoning Segmentation with Large Language Model https://arxiv.org/abs/2407.14500
Читать полностью…Counting Bytes Faster Than You'd Think Possible
https://blog.mattstuchlik.com/2024/07/21/fastest-memory-read.html
Isospin Pomeranchuk effect and finite temperature resistivity minimum in rhombohedral graphene https://arxiv.org/abs/2407.13763
Читать полностью…Intel vs. Samsung vs. TSMC (Score: 150+ in 16 hours)
Link: https://readhacker.news/s/6bAeb
Comments: https://readhacker.news/c/6bAeb
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies https://arxiv.org/abs/2407.13623
Читать полностью…https://youtube.com/watch?si=Hq4DpYuh6IRA-Mgw&v=1MjvCM1d81M
Читать полностью…PutnamBench: A Multilingual Competition-Mathematics Benchmark for Formal Theorem-Proving https://trishullab.github.io/PutnamBench/
Читать полностью…The Importance of Online Data: Understanding Preference Fine-tuning via Coverage https://arxiv.org/abs/2406.01462
Читать полностью…More people who bother to add something to links /channel/addlist/C_RSYpbW5mIyMjVi
Читать полностью…Прямо сейчас идет контест LLM4HWDesign, с целью компиляции сообществом качественного Verilog (язык описания цифровых схем, можно проектировать некоторый хардвар) датасета для LLMок для дизайна аппаратного обеспечения. Спонсирует не самая дорогая компания в мире (NVidia, прямо сейчас на 3 месте).
Длится до октября.
https://nvlabs.github.io/LLM4HWDesign/
В качестве бейзлайна берут датасет: https://huggingface.co/datasets/GaTech-EIC/MG-Verilog
Контест состоит из двух фаз. На первой изучают методы сбора и генерации ллмками Verilog кода, на второй будет фильтрация, описание, лейблинг данных ллмками.
Ждем LLMок проектировщиков хардвара.
НВидия прям во всех направлениях ИИ пытается двигаться, регулярно и ллмки делает и RL и еще всякий ресерч. хочет продавать больше видях
Ну а призы за первое и второе место дают 4080 (+ $2k, $1k денег), за третье 4070 + $500. Чо, ни одной 4090? Это грустное.
https://fixupx.com/learnprompting/status/1812567999737442628
Читать полностью…ActionVOS: Actions as Prompts for Video Object Segmentation https://arxiv.org/abs/2407.07402
Читать полностью…https://fixupx.com/karpathy/status/1816637781659254908
Читать полностью…https://fixupx.com/kellerjordan0/status/1816183555715915878
Читать полностью…Good Writing https://www.cs.cmu.edu/~pausch/Randy/Randy/raibert.htm
Читать полностью…SegPoint: Segment Any Point Cloud via Large Language Model https://arxiv.org/abs/2407.13761
Читать полностью…Baba Is AI: Break the Rules to Beat the Benchmark https://arxiv.org/abs/2407.13729
Читать полностью…https://www.asml.com/en/news/stories/2024/5-things-high-na-euv
Читать полностью…VISA: Reasoning Video Object Segmentation via Large Language Models https://arxiv.org/abs/2407.11325
Читать полностью…A polynomial-time classical algorithm for noisy quantum circuits https://arxiv.org/abs/2407.12768
Читать полностью…NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? https://arxiv.org/abs/2407.11963
Читать полностью…Field Deployment of Multi-Agent Reinforcement Learning Based Variable Speed Limit Controllers https://arxiv.org/abs/2407.08021
Читать полностью…Про расширения RoPE
Первая часть: ссылка
Для начала коротко напомню, что вообще делает RoPE: берётся эмбеддинг и каждая пара фичей вращается на определённый угол. Для разных пар — разный угол. Для первого токена происходит один поворот, для второго — два поворота, и так далее. Вращаем и query, и key.
Кроме того, нас прежде всего интересует расширения контекст без дотюнивания.
Раздобыть данные на понимание длинного контекста и компьют на тюн не так уж просто.
Extending Context Window of Large Language Models via Positional Interpolation
Статья: ссылка
Казалось бы, ну и в чём проблема тогда? Пусть мы обучили модель на 4096 позициях. Тогда давайте просто вращать фичи 4097 раз, 4098 раза и так далее. Это называется экстраполяция 📊, и экспериментально подвтерждено, что она не работает с популярными базовыми моделями. Причём подтверждено ещё много где. При этом со стороны теории это несколько загадочно: RoPE не обучается и кодирует относитетельную позицию, так какого чёрта? То есть ожидается, что после экстраполяции модель будет себя вести так, как будто у неё скользящее окно в 4к токенов. А на самом деле её полностью разносит, логиты внимания для некоторых расстояний >4к улетают в небеса. 🤯
Почему? Об этом чуть ниже.
Пока же сосредоточимся на втором семействе методов — интерполяции. Базовая идея такая: представим, что для токена на 4096 позиции мы делаем в 2 раза меньше оборотов, 2048. И так для каждой позиции, вместо одного оборота делаем половину. После этого мы можем кодировать 8192 токенов вместо 4096. Но есть нюанс: модель-то не видела в обучении полуоборотов, соседние токены становятся практически неразличимы 💀
Поэтому авторы статьи полируют это всё тюном на расширенном контексте, что делает этот подход не особо практичным.
Scaling Laws of RoPE-based Extrapolation
Статья: ссылка
Суть статьи — обоснование провала экстраполяции. А виновата оказалсь база, θ = 10000 😐
Дело в том, что с такой базой не все фичи делают полный оборот за 4к. И в итоге для первых фичей модель видит полный оборот (и видит немонотонность функций), а для других фичей видит куски только до 2π, π или π/2. И как раз из-за наличия неполных кусков экстраполяция не работает как надо.
Авторы дотюнивают модель с разными базами, но в пределах оригинальной длины контекста, 4к. Если сделать базу радикально меньше, например 500, то все фичи совершают по несколько оборотов, и всё ок, экстраполяция будет работать с приемлемым качеством скользящего окна. С увеличением размера контекста становится хуже, но без переломов. Если сделать базу радикально больше, например 1000000, то точка перелома отодвигается на более широкий контекст, но всё ещё существует.
Хоть такой метод и выпадает из нашей изначальной постановки задачи, потому что снова надо тюнить, но тюнить-то надо на маленьком контексте 😊, поэтому проблем со сбором данных тут нет. Работает всё неплохо, особенно с маленькой базой.
NTK-Aware scaling
Пост: ссылка
Меняем интерполяцию с дообучением из первой статьи на масштабирование базы θ без дообучения. Описано в посте на Реддите, хронологически до статьи выше. По идее это всё ещё интерполяция (особенно если задать коэффициент масштабирования с запасом), только мы растягиваем для разных частот по-разному.
Dynamic NTK scaling
Пост: ссылка
Добавляем изменение коэффициента масштабирования в зависимости от текущей длины последовательности. То есть если текущая длины меньше оригинальной — не делаем ничего. А дальше растим коэффициент линейно.
YaRN: Efficient Context Window Extension of Large Language Models
Статья: ссылка
Добавляются две новых штуки: NTK-by-parts и температура в софтмаксе внимания. NTK-by-parts мотивирован фактом выше о том, что какие-то фичи и частоты и так нормально экстраполируются, так что их можно не трогать. Для тех фичей, которые не экстраполируются, мы интерполируем. А температуру меняем, чтобы выравнять распредление скоров внимания (она меньше 1). Да и экспериментально так получается перплексия пониже 🧠
И вот YaRN уже работает как без тюна, так и с тюном.
https://images.flrty.li/
Итак, вот собственно ссылка на сравнение из предыдущего поста.
Совет, листайте снизу, там самое интересное.
Диванные комментарии:
Тут замечена Stable Diffusion Ultra! И она неплохо себя показывает, особенно рядом с инвалидной SD3 Medium. Более того, она (пока) замечена в генерации селебов:
Там есть картинки Эммы Уотсон и там где DALL·E 3 или Ideogram нос воротят, SD Ultra генерит узнаваемую Эмму.
Но! Очень часто варианты SD ULTRA отсутствуют, особенно во второй части с веселым контентом, это означает сильную цензуру. Печаль.
Мне по прежнему очень нравится Kolors (это ее еще на английском промптили, по китайски она лучше понимает), а также Stable Cascade (недооцененная модель). Pixart Sigma выдает очень интересные картинки. Им всем не хватает финального Face или Frame Enhancer. Но картинки очень свежие.
Хуньянь со своим DiT пониманием промпта очень круто трактует промпт, но сама генерация недотренирована.
AuraFlow, о которой писал в пятницу - сырая и не годная.
DALL·E 3 постоянно рисует кукольных скуластых женщин с острыми носами, и хорош только вдалеке от людей.
Ideogram - самый сбалансированный что ли. От этого немного скучный. Плюс цензурированный как монах.
Midjourney рвет всех. На статичных промптах-картинках без контролнетов рвет всех, как тузик старую сухую клизьму.
Прикольно, что там есть чекпойнты SDXL - они иногда бьют всех именно на тех узких жанрах, под который тренировались. Точнее в некоторых ситуациях, скажем так. Полезно иметь в виду.
В общем, позалипайте.
Во-первых, - это красиво.
Во-вторых, - познавательно в одном месте увидеть новые архитектуры, про которые пишут в разных местах.
И только тут - в одном.
https://images.flrty.li/
@cgevent
Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/
Читать полностью…https://fixupx.com/zhengyiluo/status/1810380826984722898
Читать полностью…