j_links | Unsorted

Telegram-канал j_links - Just links

6481

That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh

Subscribe to a channel

Just links

Is there a Half-Life for the Success Rates of AI Agents? https://www.tobyord.com/writing/half-life

Читать полностью…

Just links

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions https://arxiv.org/abs/2506.09038

Читать полностью…

Just links

https://livecodebenchpro.com/

Читать полностью…

Just links

Surprisingly Fast AI-Generated Kernels We Didn’t Mean to Publish (Yet) https://crfm.stanford.edu/2025/05/28/fast-kernels.html

Читать полностью…

Just links

Scene-Centric Unsupervised Panoptic Segmentation https://openaccess.thecvf.com/content/CVPR2025/html/Hahn_Scene-Centric_Unsupervised_Panoptic_Segmentation_CVPR_2025_paper.html

Читать полностью…

Just links

How to factor 2048 bit RSA integers with less than a million noisy qubits https://arxiv.org/abs/2505.15917

Читать полностью…

Just links

Training superhuman coding models at Cursor

Случайно наткнулся на видео, где ребята из Cursor обсуждают всякое разное про LLM. Обычно в подобных подкастах все высказывания очень поверхносные, чтобы случайно не выдать каких-нибудь секретов. А тут на удивление упомянули довольно много технических деталей.

Краткий список затронутых тем:
- Как делать RL, когда нет одного правильного ответа?
- Что делать, если вероятность получить "правильный" ответ очень маленькая?
- Как сделать, чтобы модель могла ориентироваться в большом проекте?
- Как поддерживать long context?
- Как делать credit assignment для memory tool?
- Как cursor может обучаться на пользовательских данных.
- Почему плохо смотреть на лайки/дизлайки ответов.
- Какая инфра нужна для больших RL тренировок.

Судя по количеству просмотров, если сам этим не занимаешься, то смотреть не очень интересно. Но мне понравилось!

Читать полностью…

Just links

Generalization Bias in Large Language Model Summarizati https://arxiv.org/abs/2504.00025

Читать полностью…

Just links

Enumerate-Conjecture-Prove: Formally Solving Answer-Construction Problems in Math Competitions https://arxiv.org/abs/2505.18492

Читать полностью…

Just links

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents https://arxiv.org/abs/2505.20411

Читать полностью…

Just links

Pauli Propagation: A Computational Framework for Simulating Quantum Systems https://arxiv.org/abs/2505.21606

Читать полностью…

Just links

https://unitaryhack.dev/bounties/

Читать полностью…

Just links

I used o3 to find a remote zeroday in the Linux SMB implementation (Score: 161+ in 6 hours)

Link: https://readhacker.news/s/6v2yL
Comments: https://readhacker.news/c/6v2yL

Читать полностью…

Just links

CLEVER: A Curated Benchmark for Formally Verified Code Generation https://arxiv.org/abs/2505.13938

Читать полностью…

Just links

Does Earth have two high-tide bulges on opposite sides? (2014) (Score: 151+ in 9 hours)

Link: https://readhacker.news/s/6uVvc
Comments: https://readhacker.news/c/6uVvc

Читать полностью…

Just links

LLM-First Search: Self-Guided Exploration of the Solution Space https://arxiv.org/abs/2506.05213

Читать полностью…

Just links

LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? https://arxiv.org/abs/2506.11928

Читать полностью…

Just links

Bulk Excitations of Invertible Phases https://arxiv.org/abs/2506.11288

Читать полностью…

Just links

A 2D-CFT Factory: Critical Lattice Models from Competing Anyon Condensation Processes in SymTO/SymTFT https://arxiv.org/abs/2506.05324

Читать полностью…

Just links

We made Claude, Gemini, o3 battle each other for world domination.

We taught them Diplomacy—the strategy game where winning requires alliances, negotiation, and betrayal.

Here's what happened:

DeepSeek turned warmongering tyrant. Claude couldn't lie—everyone exploited it ruthlessly. Gemini 2.5 Pro nearly conquered Europe with brilliant tactics. Then o3 orchestrated a secret coalition, backstabbed every ally, and won.


More: https://every.to/diplomacy

Читать полностью…

Just links

https://mlcommons.org/benchmarks/training/

Читать полностью…

Just links

A Lean companion to Analysis I (Score: 150+ in 6 hours)

Link: https://readhacker.news/s/6vp2P
Comments: https://readhacker.news/c/6vp2P

Читать полностью…

Just links

Quantized Transport of Disordered Superconducting Fractional Quantum Hall Edges https://arxiv.org/abs/2505.20398

Читать полностью…

Just links

https://odyssey.world/introducing-interactive-video

Читать полностью…

Just links

Disturbing news about the d=2+ε expansion https://arxiv.org/abs/2505.21611

Читать полностью…

Just links

Generalized Hall Conductivities in Local Commuting Projector Models: Generalized Symmetries and Protected Surface Modes https://arxiv.org/abs/2505.20384

Читать полностью…

Just links

Seed1.5-VL Technical Report https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf

Читать полностью…

Just links

Solving the fractional quantum Hall problem with self-attention neural network https://journals.aps.org/prb/abstract/10.1103/PhysRevB.111.205117

Читать полностью…

Just links

Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation https://arxiv.org/abs/2505.12702

Читать полностью…

Just links

When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research https://arxiv.org/abs/2505.11855

Читать полностью…
Subscribe to a channel