Telegram-канал j_links - Just links: Unsorted - каталог телеграмм

j_links | Unsorted

Subscribe to a channel

Telegram-канал j_links - Just links

6269

That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh

Subscribe to a channel

Just links

26 Jul 2024 19:39

No Black Holes from Light https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.133.041401

Читать полностью…

Just links

25 Jul 2024 18:13

Ммм, кайфологи из DeepMind рассказывают про AlphaGeometry2 + AlphaProof

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

AlphaProof работает на RLе

Около миллиона неформальных математических задач переводятся на формальный математический язык (LEAN) с помощью нейросетки-формализатора. Затем сеть-решатель ищет доказательства или опровержения проблем, постепенно обучаясь с помощью AlphaZero решать более сложные проблемы.

AlphaGeometry 2 на гемини:

Это нейро-символическая гибридная система, в которой языковая модель была основана на Gemini и обучена с нуля на гораздо большем количестве синтетических данных, чем ее предшественница. Это помогло модели решить гораздо более сложные задачи геометрии, включая задачи о движении объектов и уравнениях углов, отношений или расстояний.

Пишут что AG2 может решить 83% геометрических задач с IMO за последние 25 лет.

Обе системы накинули на 6 задач IMO 2024:

AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, определив ответ и доказав его. В числе этих задач была и самая сложная, которую на IMO в этом году решили всего пять участников. AlphaGeometry 2 доказала задачку по геометрии, в то время как две комбинаторные задачки остались нерешенными.

PS: за RL спасибо

Читать полностью…

Just links

25 Jul 2024 07:13

ViLLa: Video Reasoning Segmentation with Large Language Model https://arxiv.org/abs/2407.14500

Читать полностью…

Just links

23 Jul 2024 21:31

Counting Bytes Faster Than You'd Think Possible
https://blog.mattstuchlik.com/2024/07/21/fastest-memory-read.html

Читать полностью…

Just links

22 Jul 2024 08:37

Isospin Pomeranchuk effect and finite temperature resistivity minimum in rhombohedral graphene https://arxiv.org/abs/2407.13763

Читать полностью…

Just links

21 Jul 2024 17:26

Intel vs. Samsung vs. TSMC (Score: 150+ in 16 hours)

Link: https://readhacker.news/s/6bAeb
Comments: https://readhacker.news/c/6bAeb

Читать полностью…

Just links

21 Jul 2024 08:38

https://ift.tt/JKurm0q

Читать полностью…

Just links

20 Jul 2024 09:31

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies https://arxiv.org/abs/2407.13623

Читать полностью…

Just links

19 Jul 2024 15:41

https://youtube.com/watch?si=Hq4DpYuh6IRA-Mgw&v=1MjvCM1d81M

Читать полностью…

Just links

18 Jul 2024 11:30

PutnamBench: A Multilingual Competition-Mathematics Benchmark for Formal Theorem-Proving https://trishullab.github.io/PutnamBench/

Читать полностью…

Just links

18 Jul 2024 10:47

The Importance of Online Data: Understanding Preference Fine-tuning via Coverage https://arxiv.org/abs/2406.01462

Читать полностью…

Just links

17 Jul 2024 11:00

More people who bother to add something to links /channel/addlist/C_RSYpbW5mIyMjVi

Читать полностью…

Just links

16 Jul 2024 08:47

Прямо сейчас идет контест LLM4HWDesign, с целью компиляции сообществом качественного Verilog (язык описания цифровых схем, можно проектировать некоторый хардвар) датасета для LLMок для дизайна аппаратного обеспечения. Спонсирует не самая дорогая компания в мире (NVidia, прямо сейчас на 3 месте).
Длится до октября.

https://nvlabs.github.io/LLM4HWDesign/

В качестве бейзлайна берут датасет: https://huggingface.co/datasets/GaTech-EIC/MG-Verilog

Контест состоит из двух фаз. На первой изучают методы сбора и генерации ллмками Verilog кода, на второй будет фильтрация, описание, лейблинг данных ллмками.

Ждем LLMок проектировщиков хардвара.
НВидия прям во всех направлениях ИИ пытается двигаться, регулярно и ллмки делает и RL и еще всякий ресерч. ~~хочет продавать больше видях~~

Ну а призы за первое и второе место дают 4080 (+ $2k, $1k денег), за третье 4070 + $500. Чо, ни одной 4090? Это грустное.

Читать полностью…

Just links

15 Jul 2024 09:53

https://fixupx.com/learnprompting/status/1812567999737442628

Читать полностью…

Just links

13 Jul 2024 20:09

ActionVOS: Actions as Prompts for Video Object Segmentation https://arxiv.org/abs/2407.07402

Читать полностью…

Just links

26 Jul 2024 06:46

https://fixupx.com/karpathy/status/1816637781659254908

Читать полностью…

Just links

25 Jul 2024 12:06

https://fixupx.com/kellerjordan0/status/1816183555715915878

Читать полностью…

Just links

24 Jul 2024 12:28

Good Writing https://www.cs.cmu.edu/~pausch/Randy/Randy/raibert.htm

Читать полностью…

Just links

23 Jul 2024 18:50

The Llama 3 Herd of Models
https://scontent-vie1-1.xx.fbcdn.net/v/t39.2365-6/452256780_3788187148167392_9020150332553839453_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=XG3_BvYG0wwQ7kNvgG59kFO&_nc_ht=scontent-vie1-1.xx&oh=00_AYAHKMx8M928gSoS_qGMDtxqPVMpm_4KoRhh0H5qX6yORQ&oe=66A5A0DC

Читать полностью…

Just links

21 Jul 2024 17:31

SegPoint: Segment Any Point Cloud via Large Language Model https://arxiv.org/abs/2407.13761

Читать полностью…

Just links

21 Jul 2024 16:53

Baba Is AI: Break the Rules to Beat the Benchmark https://arxiv.org/abs/2407.13729

Читать полностью…

Just links

20 Jul 2024 20:36

https://www.asml.com/en/news/stories/2024/5-things-high-na-euv

Читать полностью…

Just links

19 Jul 2024 16:00

VISA: Reasoning Video Object Segmentation via Large Language Models https://arxiv.org/abs/2407.11325

Читать полностью…

Just links

18 Jul 2024 20:39

A polynomial-time classical algorithm for noisy quantum circuits https://arxiv.org/abs/2407.12768

Читать полностью…

Just links

18 Jul 2024 11:15

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? https://arxiv.org/abs/2407.11963

Читать полностью…

Just links

17 Jul 2024 17:26

Field Deployment of Multi-Agent Reinforcement Learning Based Variable Speed Limit Controllers https://arxiv.org/abs/2407.08021

Читать полностью…

Just links

17 Jul 2024 11:00

Про расширения RoPE
Первая часть: ссылка

Для начала коротко напомню, что вообще делает RoPE: берётся эмбеддинг и каждая пара фичей вращается на определённый угол. Для разных пар — разный угол. Для первого токена происходит один поворот, для второго — два поворота, и так далее. Вращаем и query, и key.

Кроме того, нас прежде всего интересует расширения контекст без дотюнивания.
Раздобыть данные на понимание длинного контекста и компьют на тюн не так уж просто.

Extending Context Window of Large Language Models via Positional Interpolation
Статья: ссылка

Казалось бы, ну и в чём проблема тогда? Пусть мы обучили модель на 4096 позициях. Тогда давайте просто вращать фичи 4097 раз, 4098 раза и так далее. Это называется экстраполяция 📊, и экспериментально подвтерждено, что она не работает с популярными базовыми моделями. Причём подтверждено ещё много где. При этом со стороны теории это несколько загадочно: RoPE не обучается и кодирует относитетельную позицию, так какого чёрта? То есть ожидается, что после экстраполяции модель будет себя вести так, как будто у неё скользящее окно в 4к токенов. А на самом деле её полностью разносит, логиты внимания для некоторых расстояний >4к улетают в небеса. 🤯
Почему? Об этом чуть ниже.

Пока же сосредоточимся на втором семействе методов — интерполяции. Базовая идея такая: представим, что для токена на 4096 позиции мы делаем в 2 раза меньше оборотов, 2048. И так для каждой позиции, вместо одного оборота делаем половину. После этого мы можем кодировать 8192 токенов вместо 4096. Но есть нюанс: модель-то не видела в обучении полуоборотов, соседние токены становятся практически неразличимы 💀
Поэтому авторы статьи полируют это всё тюном на расширенном контексте, что делает этот подход не особо практичным.

Scaling Laws of RoPE-based Extrapolation
Статья: ссылка

Суть статьи — обоснование провала экстраполяции. А виновата оказалсь база, θ = 10000 😐
Дело в том, что с такой базой не все фичи делают полный оборот за 4к. И в итоге для первых фичей модель видит полный оборот (и видит немонотонность функций), а для других фичей видит куски только до 2π, π или π/2. И как раз из-за наличия неполных кусков экстраполяция не работает как надо.

Авторы дотюнивают модель с разными базами, но в пределах оригинальной длины контекста, 4к. Если сделать базу радикально меньше, например 500, то все фичи совершают по несколько оборотов, и всё ок, экстраполяция будет работать с приемлемым качеством скользящего окна. С увеличением размера контекста становится хуже, но без переломов. Если сделать базу радикально больше, например 1000000, то точка перелома отодвигается на более широкий контекст, но всё ещё существует.

Хоть такой метод и выпадает из нашей изначальной постановки задачи, потому что снова надо тюнить, но тюнить-то надо на маленьком контексте 😊, поэтому проблем со сбором данных тут нет. Работает всё неплохо, особенно с маленькой базой.

NTK-Aware scaling
Пост: ссылка

Меняем интерполяцию с дообучением из первой статьи на масштабирование базы θ без дообучения. Описано в посте на Реддите, хронологически до статьи выше. По идее это всё ещё интерполяция (особенно если задать коэффициент масштабирования с запасом), только мы растягиваем для разных частот по-разному.

Dynamic NTK scaling
Пост: ссылка

Добавляем изменение коэффициента масштабирования в зависимости от текущей длины последовательности. То есть если текущая длины меньше оригинальной — не делаем ничего. А дальше растим коэффициент линейно.

YaRN: Efficient Context Window Extension of Large Language Models
Статья: ссылка

Добавляются две новых штуки: NTK-by-parts и температура в софтмаксе внимания. NTK-by-parts мотивирован фактом выше о том, что какие-то фичи и частоты и так нормально экстраполируются, так что их можно не трогать. Для тех фичей, которые не экстраполируются, мы интерполируем. А температуру меняем, чтобы выравнять распредление скоров внимания (она меньше 1). Да и экспериментально так получается перплексия пониже 🧠

И вот YaRN уже работает как без тюна, так и с тюном.

Читать полностью…

Just links

15 Jul 2024 12:32

https://images.flrty.li/
Итак, вот собственно ссылка на сравнение из предыдущего поста.
Совет, листайте снизу, там самое интересное.

Диванные комментарии:

Тут замечена Stable Diffusion Ultra! И она неплохо себя показывает, особенно рядом с инвалидной SD3 Medium. Более того, она (пока) замечена в генерации селебов:

Там есть картинки Эммы Уотсон и там где DALL·E 3 или Ideogram нос воротят, SD Ultra генерит узнаваемую Эмму.
Но! Очень часто варианты SD ULTRA отсутствуют, особенно во второй части с веселым контентом, это означает сильную цензуру. Печаль.

Мне по прежнему очень нравится Kolors (это ее еще на английском промптили, по китайски она лучше понимает), а также Stable Cascade (недооцененная модель). Pixart Sigma выдает очень интересные картинки. Им всем не хватает финального Face или Frame Enhancer. Но картинки очень свежие.
Хуньянь со своим DiT пониманием промпта очень круто трактует промпт, но сама генерация недотренирована.
AuraFlow, о которой писал в пятницу - сырая и не годная.
DALL·E 3 постоянно рисует кукольных скуластых женщин с острыми носами, и хорош только вдалеке от людей.
Ideogram - самый сбалансированный что ли. От этого немного скучный. Плюс цензурированный как монах.
Midjourney рвет всех. На статичных промптах-картинках без контролнетов рвет всех, как тузик старую сухую клизьму.
Прикольно, что там есть чекпойнты SDXL - они иногда бьют всех именно на тех узких жанрах, под который тренировались. Точнее в некоторых ситуациях, скажем так. Полезно иметь в виду.

В общем, позалипайте.
Во-первых, - это красиво.
Во-вторых, - познавательно в одном месте увидеть новые архитектуры, про которые пишут в разных местах.
И только тут - в одном.
https://images.flrty.li/

@cgevent

Читать полностью…

Just links

14 Jul 2024 20:59

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/

Читать полностью…

Just links

13 Jul 2024 09:00

https://fixupx.com/zhengyiluo/status/1810380826984722898

Читать полностью…

Subscribe to a channel