Telegram-канал j_links - Just links: Unsorted - каталог телеграмм

Just links

22 May 2025 13:15

Ordering the topological order in the fractional quantum Hall effect https://arxiv.org/abs/2505.14767

Читать полностью…

Just links

21 May 2025 07:24

XX^{t} Can Be Faster https://arxiv.org/abs/2505.09814

Читать полностью…

Just links

21 May 2025 07:23

Higher symmetries and anomalies in quantum lattice systems https://arxiv.org/abs/2505.04719

Читать полностью…

Just links

19 May 2025 19:13

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning https://www.arxiv.org/abs/2505.11480

Читать полностью…

Just links

15 May 2025 18:35

Size based vector

https://discourse.llvm.org/t/adding-a-size-based-vector-to-libc-s-unstable-abi/86306

Мы тут в Гугле экспериментировали с тем как репрезентовать вектор. Существует два способа:

1. Указатель на начало, конец и указатель на конец вместимости

2. Или указатель на начало, размер и вместимость

Оба варианта имеют свои особенности и слабые места. Первый вариант плох тем, что когда вы хотите посчитать size(), то вы вычитаете два указателя: end - begin. Вычитание указателей в численном представлении эквивалентно формуле (end_as_num - begin_as_num) / sizeof(T), где T -- тип вектора. Вот это деление на константу порой выбешивает, например, когда sizeof(T) не является степенью двойки. Компилятору приходится это деление переводить в умножение и теперь когда вы вызываете size(), то у вас откуда-то страшные конструкции вида https://godbolt.org/z/zKGz7nEE6

Но первый вариант неплох, когда вы итерируетесь и надо просто сравнивать с концом. Почему? Во втором варианте вам надо при вызове .end() загружать два регистра -- начало и размер, чтобы сложить. В итоге у вас баланс между двумя опциями

.size() выливается в умножение при sizeof(T) не степень двойки

.end() загружает два регистра

Остальные операции чуть чуть поменяются, но в основном размен происходит у этих двух.

Оказалось, что .end() чаще вызывается один раз, а .size() намного чаще в том числе и внутри циклов, потому что... Ну потому что программистам удобнее работать с числами, а не указателями. Или по каким-то ещё причинам.

В итоге мы увидели улучшение перфа всего прода на 0.12% с особенно важными серверами с исправлениями на 0.5-0.6%, о чем и поделились в discourse.llvm. Понятное дело, что кто-то слишком сильно пользовался репрезентацией вектора, но мы всех их починили и выкатили. Теперь хотим выкатить и в unstable ABI в libcxx.

Почитайте ссылку, там больше всяких анализов, в том числе и размер кодгена, и всякой ещё статистики.

Читать полностью…

Just links

14 May 2025 16:38

SWE-rebench: A Continuously Evolving and Decontaminated Benchmark for Software Engineering LLMs

Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:

- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.

Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.

Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.

Читать полностью…

Just links

05 May 2025 05:13

Bulk excitations in ultraclean α-RuCl3: Quantitative evidence for Majorana dispersions in a Kitaev quantum spin liquid https://arxiv.org/abs/2505.00971

Читать полностью…

Just links

02 May 2025 22:13

Wasserstein Policy Optimization https://arxiv.org/abs/2505.00663

Читать полностью…

Just links

01 May 2025 07:19

Discrete time crystals detected by time-translation twist https://arxiv.org/abs/2504.21461

Читать полностью…

Just links

30 Apr 2025 14:16

The Leaderboard Illusion https://arxiv.org/abs/2504.20879

Читать полностью…

Just links

28 Apr 2025 21:32

https://github.com/Otter-man/ModelCollapser

Читать полностью…

Just links

27 Apr 2025 22:53

SycEval: Evaluating LLM Sycophancy https://arxiv.org/abs/2502.08177

Читать полностью…

Just links

24 Apr 2025 06:42

Science-T2I: Addressing Scientific Illusions in Image Synthesis https://arxiv.org/abs/2504.13129

Читать полностью…

Just links

21 Apr 2025 08:54

ignore-topk: новая регуляризация для борьбы с деградацией LLM во время файнтюнинга (by DeepMind)

При дообучении языковые модели частенько портятся. Рисёрчеры из DeepMind показали, что проблема связана с тем, что LLM, пытаясь запомнить новый факт, начинает использовать лёгкие shortcut-ы вместо аккуратного внедрения новых знаний в веса. Она просто «раскладывает» новую информацию по уже знакомым ей понятиям (казалось бы это хорошо, но нет). Такое явление они назвали "праймингом" (aka разложение числа на простые множители), и из-за него LLM начинает путаться в фактах, выдавая новую информацию где не просили.

Авторы этой статьи предлагают потенциальное решение — регуляризацию ignore-topk. Идея до гениальности простая:
- Делаем обычный шаг файнтюнинга и смотрим на обновления весов (Δω).
- Отбираем top-k% самых больших обновлений и… просто удаляем их (умножаем на 0).
- Используем только небольшие изменения весов, которые не содержат шорткатов для быстрой меморизации.

Зачем так странно?
Оказывается, самые большие градиенты как раз и отвечают за «грязное» быстрое запоминание через прайминг. Игнорируя их, мы заставляем модель учиться медленнее и аккуратнее. При этом прайминг уменьшается на 90-95%, а способность запоминать новые факты не страдает.

Но авторы конечно молодцы, сами придумали бенчмарк, сами свой подход измерили, а на другие "learning without forgetting" методы вообще забили. Поэтому не могу сказать, что ignore-topk лучше чем, например, Child-Tuning или EWC, но выглядит прикольно, я его точно попробую 🤷‍♂️

Статья

Читать полностью…

Just links

19 Apr 2025 20:06

A RISC-V 32-bit microprocessor based on two-dimensional semiconductors https://www.nature.com/articles/s41586-025-08759-9

Читать полностью…

Just links

21 May 2025 15:34

String-Membrane-Nets from Higher-Form Gauging: An Alternate Route to p-String Condensation https://arxiv.org/abs/2505.13604

Читать полностью…

Just links

21 May 2025 07:23

Partons from stabilizer codes https://arxiv.org/abs/2505.02683

Читать полностью…

Just links

21 May 2025 06:20

Exotic Carriers from Concentrated Topology: Dirac Trions as the Origin of the Missing Spectral Weight in Twisted Bilayer Graphene https://arxiv.org/abs/2505.08779

Читать полностью…

Just links

16 May 2025 08:10

Geometrically Enhanced Topological Quantum Codes https://arxiv.org/abs/2505.10403

Читать полностью…

Just links

14 May 2025 19:35

AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

Читать полностью…

Just links

07 May 2025 07:02

Accents in latent spaces: How AI hears accent strength in English (Score: 150+ in 7 hours)

Link: https://readhacker.news/s/6u2rd
Comments: https://readhacker.news/c/6u2rd

Читать полностью…

Just links

04 May 2025 21:40

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks https://arxiv.org/abs/2412.14161

via @neuralshit

Читать полностью…

Just links

02 May 2025 20:03

MathConstruct: Challenging LLM Reasoning with Constructive Proofs https://arxiv.org/abs/2502.10197

Читать полностью…

Just links

30 Apr 2025 20:27

https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf
via @seeallochnaya

Читать полностью…

Just links

30 Apr 2025 06:38

Quantum circuit lower bounds in the magic hierarchy https://arxiv.org/abs/2504.19966

Читать полностью…

Just links

28 Apr 2025 19:09

CombiBench: Benchmarking LLM Capability for Combinatorial Mathematics https://moonshotai.github.io/CombiBench/

Читать полностью…

Just links

26 Apr 2025 11:16

Short remarks on shallow unitary circuits https://arxiv.org/abs/2504.14005

Читать полностью…

Just links

23 Apr 2025 20:20

usual test set
https://x.com/openaidevs/status/1915097067023900883
cost $5.66

Читать полностью…

Just links

21 Apr 2025 06:57

Higher-Form Anomalies Imply Intrinsic Long-Range Entanglement https://arxiv.org/abs/2504.10569

Читать полностью…

Just links

17 Apr 2025 16:56

Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби

Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто

https://www.youtube.com/watch?v=yz2in2eFATE

https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen

На ютубе на эту работу ссылаются

End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948

PS Собираем кстати AI штуки и проекты делаем в /channel/researchim

Читать полностью…