That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Is there a Half-Life for the Success Rates of AI Agents? https://www.tobyord.com/writing/half-life
Читать полностью…AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions https://arxiv.org/abs/2506.09038
Читать полностью…Surprisingly Fast AI-Generated Kernels We Didn’t Mean to Publish (Yet) https://crfm.stanford.edu/2025/05/28/fast-kernels.html
Читать полностью…Scene-Centric Unsupervised Panoptic Segmentation https://openaccess.thecvf.com/content/CVPR2025/html/Hahn_Scene-Centric_Unsupervised_Panoptic_Segmentation_CVPR_2025_paper.html
Читать полностью…How to factor 2048 bit RSA integers with less than a million noisy qubits https://arxiv.org/abs/2505.15917
Читать полностью…Training superhuman coding models at Cursor
Случайно наткнулся на видео, где ребята из Cursor обсуждают всякое разное про LLM. Обычно в подобных подкастах все высказывания очень поверхносные, чтобы случайно не выдать каких-нибудь секретов. А тут на удивление упомянули довольно много технических деталей.
Краткий список затронутых тем:
- Как делать RL, когда нет одного правильного ответа?
- Что делать, если вероятность получить "правильный" ответ очень маленькая?
- Как сделать, чтобы модель могла ориентироваться в большом проекте?
- Как поддерживать long context?
- Как делать credit assignment для memory tool?
- Как cursor может обучаться на пользовательских данных.
- Почему плохо смотреть на лайки/дизлайки ответов.
- Какая инфра нужна для больших RL тренировок.
Судя по количеству просмотров, если сам этим не занимаешься, то смотреть не очень интересно. Но мне понравилось!
Generalization Bias in Large Language Model Summarizati https://arxiv.org/abs/2504.00025
Читать полностью…Enumerate-Conjecture-Prove: Formally Solving Answer-Construction Problems in Math Competitions https://arxiv.org/abs/2505.18492
Читать полностью…SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents https://arxiv.org/abs/2505.20411
Читать полностью…Pauli Propagation: A Computational Framework for Simulating Quantum Systems https://arxiv.org/abs/2505.21606
Читать полностью…I used o3 to find a remote zeroday in the Linux SMB implementation (Score: 161+ in 6 hours)
Link: https://readhacker.news/s/6v2yL
Comments: https://readhacker.news/c/6v2yL
CLEVER: A Curated Benchmark for Formally Verified Code Generation https://arxiv.org/abs/2505.13938
Читать полностью…Does Earth have two high-tide bulges on opposite sides? (2014) (Score: 151+ in 9 hours)
Link: https://readhacker.news/s/6uVvc
Comments: https://readhacker.news/c/6uVvc
LLM-First Search: Self-Guided Exploration of the Solution Space https://arxiv.org/abs/2506.05213
Читать полностью…LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? https://arxiv.org/abs/2506.11928
Читать полностью…Bulk Excitations of Invertible Phases https://arxiv.org/abs/2506.11288
Читать полностью…A 2D-CFT Factory: Critical Lattice Models from Competing Anyon Condensation Processes in SymTO/SymTFT https://arxiv.org/abs/2506.05324
Читать полностью…We made Claude, Gemini, o3 battle each other for world domination.
We taught them Diplomacy—the strategy game where winning requires alliances, negotiation, and betrayal.
Here's what happened:
DeepSeek turned warmongering tyrant. Claude couldn't lie—everyone exploited it ruthlessly. Gemini 2.5 Pro nearly conquered Europe with brilliant tactics. Then o3 orchestrated a secret coalition, backstabbed every ally, and won.
A Lean companion to Analysis I (Score: 150+ in 6 hours)
Link: https://readhacker.news/s/6vp2P
Comments: https://readhacker.news/c/6vp2P
Quantized Transport of Disordered Superconducting Fractional Quantum Hall Edges https://arxiv.org/abs/2505.20398
Читать полностью…Disturbing news about the d=2+ε expansion https://arxiv.org/abs/2505.21611
Читать полностью…Generalized Hall Conductivities in Local Commuting Projector Models: Generalized Symmetries and Protected Surface Modes https://arxiv.org/abs/2505.20384
Читать полностью…Seed1.5-VL Technical Report https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
Читать полностью…Solving the fractional quantum Hall problem with self-attention neural network https://journals.aps.org/prb/abstract/10.1103/PhysRevB.111.205117
Читать полностью…Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation https://arxiv.org/abs/2505.12702
Читать полностью…When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research https://arxiv.org/abs/2505.11855
Читать полностью…