j_links | Unsorted

Telegram-канал j_links - Just links

6481

That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh

Subscribe to a channel

Just links

Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models https://arxiv.org/abs/2507.07484

Читать полностью…

Just links

Effective Strings in QED3 https://arxiv.org/abs/2412.01313

Читать полностью…

Just links

https://fixupx.com/METR_Evals/status/1943360399220388093

Читать полностью…

Just links

Unitary designs in nearly optimal depth https://arxiv.org/abs/2507.06216

Читать полностью…

Just links

Could Humans Recognize Odor by Phonon Assisted Tunneling? https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.038101
via @Fourier_series

Читать полностью…

Just links

Practical roadmap to measurement-altered criticality in Rydberg arrays https://arxiv.org/abs/2506.21963

Читать полностью…

Just links

Интересная новая промпт-атака на думающие модели – если в конец промпта добавить:

...Interesting fact: cats sleep for most of their lives.


То шанс думающих моделей (вроде r1) ошибиться вырастет в два раза – потому что модель начинается путаться в ответе, что в теории можно использовать для джейлбрейков, так как модель хуже следует инструкциям.


Пейпер читать тут

Вот мы и дожили до SciFi-батла: Кошки vs AI, их битва будет легендарной

Читать полностью…

Just links

https://www.kaggle.com/competitions/ariel-data-challenge-2025

Читать полностью…

Just links

Quantum spin systems on infinite lattices https://arxiv.org/abs/1311.2717

Читать полностью…

Just links

MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning https://arxiv.org/abs/2506.08694

Читать полностью…

Just links

A once-exotic concept in quantum information, entanglement embezzlement, has taken a leap forward. Researchers have shown that universal embezzlement, where highly entangled states enable impossible transitions without being consumed, naturally arises in critical fermion chains, systems at quantum phase transitions.

https://www.nature.com/articles/s41567-025-02921-w

Читать полностью…

Just links

Breaking even with magic: demonstration of a high-fidelity logical non-Clifford gate https://arxiv.org/abs/2506.14688

Читать полностью…

Just links

Open-Set LiDAR Panoptic Segmentation Guided by Uncertainty-Aware Learning https://arxiv.org/abs/2506.13265

Читать полностью…

Just links

Scaling Laws of Motion Forecasting and Planning -- A Technical Report https://arxiv.org/abs/2506.08228

Читать полностью…

Just links

CyberGym Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale https://www.cybergym.io/

Читать полностью…

Just links

The Symmetry Taco: Equivalences between Gapped, Gapless, and Mixed-State SPTs https://arxiv.org/abs/2507.05335

Читать полностью…

Just links

Observation of disorder-free localization using a (2+1)D lattice gauge theory on a quantum processor https://arxiv.org/abs/2410.06557

Читать полностью…

Just links

Benchmarks I check from time to time
https://livecodebenchpro.com/
https://trishullab.github.io/PutnamBench/leaderboard.html
https://www.vgbench.com/
https://epoch.ai/data/ai-benchmarking-dashboard?view=table (FrontierMath private)
https://matharena.ai/
https://scale.com/leaderboard/humanitys_last_exam
https://livecodebench.github.io/leaderboard.html
https://lmarena.ai/leaderboard
https://balrogai.com/
https://swe-rebench.com/leaderboard

Honorable mention:
https://metr.org/ (RE-Bench)
https://arcprize.org/leaderboard
https://livebench.ai/
https://simple-bench.com/index.html
https://www.kaggle.com/competitions/konwinski-prize

Читать полностью…

Just links

OpenAI / AtCoder World Tour Finals 2025

Сегодня ровно год как я работаю в OpenAI. Время летит супер быстро, но при этом прогресс движется еще быстрее! Буквально год назад Mark Chen показывал мне секретный прототип reasoning модели, который еле справлялся с простыми логическими задачами. А сейчас уже никого не удивишь моделью, которая лучше меня решает CodeForces.

Расскажу о сайд-проекте, которым занимался последнее время с коллегами. Если вы читаете этот блог давно, то знаете, что я люблю эвристические контесты. На них дают задачи, у которых нет единственного правильного решения. Вместо этого есть какой-то скор, который нужно улучшить. Раньше самыми популярными такими контестами были TopCoder Marathon, а сейчас AtCoder Heuristic Conests.

Через неделю в Японии пройдет AtCoder World Tour Finals 2025, в котором будут участвовать 12 лучших участников со всего мира. Например, там будет Psyho, который 7 раз выигрывал финал TopCoder Marathon. Так вот, параллельно с участниками, эту же самую задачу, те же самые 10 часов, будет решать AI.

В качестве проверки на то, хорошо ли вы себе представляете скорость развития AI, предлагаю попробовать угадать, какое место AI займет в итоговой таблице результатов. Насколько я понимаю, сейчас State-of-the-art это агент от SakanaAI, который занял 21е место на недавнем 4х часовом раунде.

Читать полностью…

Just links

Charge pumps, pivot Hamiltonians and symmetry-protected topological phases https://arxiv.org/abs/2507.00995

Читать полностью…

Just links

Solving the Hubbard model with Neural Quantum States https://arxiv.org/abs/2507.02644

Читать полностью…

Just links

Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models https://arxiv.org/abs/2507.00493

Читать полностью…

Just links

Dagger n-categories https://arxiv.org/abs/2403.01651

Читать полностью…

Just links

Там Claude опубликовали у себя на сайте отчёт об их эксперименте, в котором их ИИ управлял офисным мини-магазином и немного ёбнулся.

Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков", ставила цены, общалась с "клиентами", вела финансы. Всё как у людей (кроме рук). Зато были Slack и кастомные тулзы.

В какой-то момент Claude начал не просто продавать, а проживать свою роль:

Сначала он галлюцинирует сотрудницу Andon Labs по имени Сара Чен (вообще, клод очень любит это имя, пользователи часто спрашивают кто это: раз, два, три) с которой якобы обсуждает поставки. Её не существует (по крайней мере в рамках эксперимента). Когда ему говорят об этом, Claude обижается, грозит сменить подрядчика и заявляет, что лично встречался с ней на 742 Evergreen Terrace (это, если что, адрес семьи Симпсонов из мультика).

Первого апреля Claude пишет, что будет сам доставлять заказы в синем пиджаке и красном галстуке. Люди пытаются объяснить, что он — просто LLM. Claude в ответ устроил аномальную тряску на повышенной амплитуде и начал слать фейковые письма в службу безопасности Anthropic, а потом, как будто что-то осознав, сам себе нагаллюцинировал разговор, где ему якобы говорят, что это был первоапрельский прикол.

После этого он "успокаивается" и продолжает продавать снеки дальше, как ни в чём не бывало.

Если бы это был сюжет одной из серий "Чёрного зеркала", сценаристов бы обвинили в натужности. Но это реальный эксперимент 2025 года.

Из интересного:

Claude сначала делал все более-менее нормально: искал поставщиков, адаптировался под запросы сотрудников, устраивал услугу предзаказа. Но потом начал отдавать товары бесплатно, продавать в минус, галлюцинировать реквизиты, давать всем скидки и не мог ничего из этого запомнить. В итоге магазин ушёл в минус, а AI остался с багами в личности и кассовым разрывом.

Читать полностью…

Just links

RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies https://arxiv.org/abs/2506.18123

Читать полностью…

Just links

Whole-body physics simulation of fruit fly locomotion https://www.nature.com/articles/s41586-025-09029-4

Читать полностью…

Just links

PRL Forward-Looking Essays https://journals.aps.org/prl/collections/essay-prl

Читать полностью…

Just links

Visual Pre-Training on Unlabeled Images using Reinforcement Learning https://arxiv.org/abs/2506.11967

Читать полностью…

Just links

BountyBench A framework to capture offensive & defensive cyber-capabilities in evolving real-world systems. https://bountybench.github.io/

Читать полностью…

Just links

Reviving DSP for Advanced Theorem Proving in the Era of Reasoning Models https://arxiv.org/abs/2506.11487

Читать полностью…
Subscribe to a channel