j_links | Unsorted

Telegram-канал j_links - Just links

6269

That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh

Subscribe to a channel

Just links

No Black Holes from Light https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.133.041401

Читать полностью…

Just links

Ммм, кайфологи из DeepMind рассказывают про AlphaGeometry2 + AlphaProof

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

AlphaProof работает на RLе

Около миллиона неформальных математических задач переводятся на формальный математический язык (LEAN) с помощью нейросетки-формализатора. Затем сеть-решатель ищет доказательства или опровержения проблем, постепенно обучаясь с помощью AlphaZero решать более сложные проблемы.


AlphaGeometry 2 на гемини:

Это нейро-символическая гибридная система, в которой языковая модель была основана на Gemini и обучена с нуля на гораздо большем количестве синтетических данных, чем ее предшественница. Это помогло модели решить гораздо более сложные задачи геометрии, включая задачи о движении объектов и уравнениях углов, отношений или расстояний.

Пишут что AG2 может решить 83% геометрических задач с IMO за последние 25 лет.

Обе системы накинули на 6 задач IMO 2024:

AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, определив ответ и доказав его. В числе этих задач была и самая сложная, которую на IMO в этом году решили всего пять участников. AlphaGeometry 2 доказала задачку по геометрии, в то время как две комбинаторные задачки остались нерешенными.

PS: за RL спасибо

Читать полностью…

Just links

ViLLa: Video Reasoning Segmentation with Large Language Model https://arxiv.org/abs/2407.14500

Читать полностью…

Just links

Counting Bytes Faster Than You'd Think Possible
https://blog.mattstuchlik.com/2024/07/21/fastest-memory-read.html

Читать полностью…

Just links

Isospin Pomeranchuk effect and finite temperature resistivity minimum in rhombohedral graphene https://arxiv.org/abs/2407.13763

Читать полностью…

Just links

Intel vs. Samsung vs. TSMC (Score: 150+ in 16 hours)

Link: https://readhacker.news/s/6bAeb
Comments: https://readhacker.news/c/6bAeb

Читать полностью…

Just links

https://ift.tt/JKurm0q

Читать полностью…

Just links

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies https://arxiv.org/abs/2407.13623

Читать полностью…

Just links

https://youtube.com/watch?si=Hq4DpYuh6IRA-Mgw&v=1MjvCM1d81M

Читать полностью…

Just links

PutnamBench: A Multilingual Competition-Mathematics Benchmark for Formal Theorem-Proving https://trishullab.github.io/PutnamBench/

Читать полностью…

Just links

The Importance of Online Data: Understanding Preference Fine-tuning via Coverage https://arxiv.org/abs/2406.01462

Читать полностью…

Just links

More people who bother to add something to links /channel/addlist/C_RSYpbW5mIyMjVi

Читать полностью…

Just links

Прямо сейчас идет контест LLM4HWDesign, с целью компиляции сообществом качественного Verilog (язык описания цифровых схем, можно проектировать некоторый хардвар) датасета для LLMок для дизайна аппаратного обеспечения. Спонсирует не самая дорогая компания в мире (NVidia, прямо сейчас на 3 месте).
Длится до октября.

https://nvlabs.github.io/LLM4HWDesign/

В качестве бейзлайна берут датасет: https://huggingface.co/datasets/GaTech-EIC/MG-Verilog

Контест состоит из двух фаз. На первой изучают методы сбора и генерации ллмками Verilog кода, на второй будет фильтрация, описание, лейблинг данных ллмками.

Ждем LLMок проектировщиков хардвара.
НВидия прям во всех направлениях ИИ пытается двигаться, регулярно и ллмки делает и RL и еще всякий ресерч. хочет продавать больше видях

Ну а призы за первое и второе место дают 4080 (+ $2k, $1k денег), за третье 4070 + $500. Чо, ни одной 4090? Это грустное.

Читать полностью…

Just links

https://fixupx.com/learnprompting/status/1812567999737442628

Читать полностью…

Just links

ActionVOS: Actions as Prompts for Video Object Segmentation https://arxiv.org/abs/2407.07402

Читать полностью…

Just links

https://fixupx.com/karpathy/status/1816637781659254908

Читать полностью…

Just links

https://fixupx.com/kellerjordan0/status/1816183555715915878

Читать полностью…

Just links

Good Writing https://www.cs.cmu.edu/~pausch/Randy/Randy/raibert.htm

Читать полностью…

Just links

The Llama 3 Herd of Models
https://scontent-vie1-1.xx.fbcdn.net/v/t39.2365-6/452256780_3788187148167392_9020150332553839453_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=XG3_BvYG0wwQ7kNvgG59kFO&_nc_ht=scontent-vie1-1.xx&oh=00_AYAHKMx8M928gSoS_qGMDtxqPVMpm_4KoRhh0H5qX6yORQ&oe=66A5A0DC

Читать полностью…

Just links

SegPoint: Segment Any Point Cloud via Large Language Model https://arxiv.org/abs/2407.13761

Читать полностью…

Just links

Baba Is AI: Break the Rules to Beat the Benchmark https://arxiv.org/abs/2407.13729

Читать полностью…

Just links

https://www.asml.com/en/news/stories/2024/5-things-high-na-euv

Читать полностью…

Just links

VISA: Reasoning Video Object Segmentation via Large Language Models https://arxiv.org/abs/2407.11325

Читать полностью…

Just links

A polynomial-time classical algorithm for noisy quantum circuits https://arxiv.org/abs/2407.12768

Читать полностью…

Just links

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? https://arxiv.org/abs/2407.11963

Читать полностью…

Just links

Field Deployment of Multi-Agent Reinforcement Learning Based Variable Speed Limit Controllers https://arxiv.org/abs/2407.08021

Читать полностью…

Just links

Про расширения RoPE
Первая часть: ссылка

Для начала коротко напомню, что вообще делает RoPE: берётся эмбеддинг и каждая пара фичей вращается на определённый угол. Для разных пар — разный угол. Для первого токена происходит один поворот, для второго — два поворота, и так далее. Вращаем и query, и key.

Кроме того, нас прежде всего интересует расширения контекст без дотюнивания.
Раздобыть данные на понимание длинного контекста и компьют на тюн не так уж просто.


Extending Context Window of Large Language Models via Positional Interpolation
Статья: ссылка

Казалось бы, ну и в чём проблема тогда? Пусть мы обучили модель на 4096 позициях. Тогда давайте просто вращать фичи 4097 раз, 4098 раза и так далее. Это называется экстраполяция 📊, и экспериментально подвтерждено, что она не работает с популярными базовыми моделями. Причём подтверждено ещё много где. При этом со стороны теории это несколько загадочно: RoPE не обучается и кодирует относитетельную позицию, так какого чёрта? То есть ожидается, что после экстраполяции модель будет себя вести так, как будто у неё скользящее окно в 4к токенов. А на самом деле её полностью разносит, логиты внимания для некоторых расстояний >4к улетают в небеса. 🤯
Почему? Об этом чуть ниже.

Пока же сосредоточимся на втором семействе методов — интерполяции. Базовая идея такая: представим, что для токена на 4096 позиции мы делаем в 2 раза меньше оборотов, 2048. И так для каждой позиции, вместо одного оборота делаем половину. После этого мы можем кодировать 8192 токенов вместо 4096. Но есть нюанс: модель-то не видела в обучении полуоборотов, соседние токены становятся практически неразличимы 💀
Поэтому авторы статьи полируют это всё тюном на расширенном контексте, что делает этот подход не особо практичным.


Scaling Laws of RoPE-based Extrapolation
Статья: ссылка

Суть статьи — обоснование провала экстраполяции. А виновата оказалсь база, θ = 10000 😐
Дело в том, что с такой базой не все фичи делают полный оборот за 4к. И в итоге для первых фичей модель видит полный оборот (и видит немонотонность функций), а для других фичей видит куски только до 2π, π или π/2. И как раз из-за наличия неполных кусков экстраполяция не работает как надо.

Авторы дотюнивают модель с разными базами, но в пределах оригинальной длины контекста, 4к. Если сделать базу радикально меньше, например 500, то все фичи совершают по несколько оборотов, и всё ок, экстраполяция будет работать с приемлемым качеством скользящего окна. С увеличением размера контекста становится хуже, но без переломов. Если сделать базу радикально больше, например 1000000, то точка перелома отодвигается на более широкий контекст, но всё ещё существует.

Хоть такой метод и выпадает из нашей изначальной постановки задачи, потому что снова надо тюнить, но тюнить-то надо на маленьком контексте 😊, поэтому проблем со сбором данных тут нет. Работает всё неплохо, особенно с маленькой базой.


NTK-Aware scaling
Пост: ссылка

Меняем интерполяцию с дообучением из первой статьи на масштабирование базы θ без дообучения. Описано в посте на Реддите, хронологически до статьи выше. По идее это всё ещё интерполяция (особенно если задать коэффициент масштабирования с запасом), только мы растягиваем для разных частот по-разному.


Dynamic NTK scaling
Пост: ссылка

Добавляем изменение коэффициента масштабирования в зависимости от текущей длины последовательности. То есть если текущая длины меньше оригинальной — не делаем ничего. А дальше растим коэффициент линейно.


YaRN: Efficient Context Window Extension of Large Language Models
Статья: ссылка

Добавляются две новых штуки: NTK-by-parts и температура в софтмаксе внимания. NTK-by-parts мотивирован фактом выше о том, что какие-то фичи и частоты и так нормально экстраполируются, так что их можно не трогать. Для тех фичей, которые не экстраполируются, мы интерполируем. А температуру меняем, чтобы выравнять распредление скоров внимания (она меньше 1). Да и экспериментально так получается перплексия пониже 🧠

И вот YaRN уже работает как без тюна, так и с тюном.

Читать полностью…

Just links

https://images.flrty.li/
Итак, вот собственно ссылка на сравнение из предыдущего поста.
Совет, листайте снизу, там самое интересное.

Диванные комментарии:

Тут замечена Stable Diffusion Ultra! И она неплохо себя показывает, особенно рядом с инвалидной SD3 Medium. Более того, она (пока) замечена в генерации селебов:

Там есть картинки Эммы Уотсон и там где DALL·E 3 или Ideogram нос воротят, SD Ultra генерит узнаваемую Эмму.
Но! Очень часто варианты SD ULTRA отсутствуют, особенно во второй части с веселым контентом, это означает сильную цензуру. Печаль.

Мне по прежнему очень нравится Kolors (это ее еще на английском промптили, по китайски она лучше понимает), а также Stable Cascade (недооцененная модель). Pixart Sigma выдает очень интересные картинки. Им всем не хватает финального Face или Frame Enhancer. Но картинки очень свежие.
Хуньянь со своим DiT пониманием промпта очень круто трактует промпт, но сама генерация недотренирована.
AuraFlow, о которой писал в пятницу - сырая и не годная.
DALL·E 3 постоянно рисует кукольных скуластых женщин с острыми носами, и хорош только вдалеке от людей.
Ideogram - самый сбалансированный что ли. От этого немного скучный. Плюс цензурированный как монах.
Midjourney рвет всех. На статичных промптах-картинках без контролнетов рвет всех, как тузик старую сухую клизьму.
Прикольно, что там есть чекпойнты SDXL - они иногда бьют всех именно на тех узких жанрах, под который тренировались. Точнее в некоторых ситуациях, скажем так. Полезно иметь в виду.

В общем, позалипайте.
Во-первых, - это красиво.
Во-вторых, - познавательно в одном месте увидеть новые архитектуры, про которые пишут в разных местах.
И только тут - в одном.
https://images.flrty.li/

@cgevent

Читать полностью…

Just links

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/

Читать полностью…

Just links

https://fixupx.com/zhengyiluo/status/1810380826984722898

Читать полностью…
Subscribe to a channel