That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби
Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто
https://www.youtube.com/watch?v=yz2in2eFATE
https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen
На ютубе на эту работу ссылаются
End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948
PS Собираем кстати AI штуки и проекты делаем в /channel/researchim
Signatures of unconventional superconductivity near reentrant and fractional quantum anomalous Hall insulators https://arxiv.org/abs/2504.06972
Читать полностью…The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation https://arxiv.org/abs/2504.05178
Читать полностью…Scene-Centric Unsupervised Panoptic Segmentation https://visinf.github.io/cups/
Читать полностью…Evaluating progress of LLMs on scientific problem-solving https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/
Читать полностью…https://fixupx.com/CraigGidney/status/1907199729362186309
Читать полностью…Entropy of strongly correlated electrons in a partially filled Landau level https://arxiv.org/abs/2503.16738
Читать полностью…BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity? https://arxiv.org/abs/2503.15242
Читать полностью…PAC-learning of free-fermionic states is NP-hard https://quantum-journal.org/papers/q-2025-03-20-1665/
Читать полностью…Observation of High-Temperature Dissipationless Fractional Chern Insulator https://arxiv.org/abs/2503.10989
Читать полностью…Establishing a New Benchmark in Quantum Computational Advantage with 105-qubit Zuchongzhi 3.0 Processor https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.134.090601
Читать полностью…Show HN: Factorio Learning Environment – Agents Build Factories (🔥 Score: 159+ in 2 hours)
Link: https://readhacker.news/s/6qKug
Comments: https://readhacker.news/c/6qKug
I'm Jack, and I'm excited to share a project that has channeled my Factorio addiction recently: the Factorio Learning Environment (FLE).
FLE is an open-source framework for developing and evaluating LLM agents in Factorio. It provides a controlled environment where AI models can attempt complex automation, resource management, and optimisation tasks in a grounded world with meaningful constraints.
A critical advantage of Factorio as a benchmark is its unbounded nature. Unlike many evals that are quickly saturated by newer models, Factorio's geometric complexity scaling means it won't be "solved" in the next 6 months (or possibly even years). This allows us to meaningfully compare models by the order-of-magnitude of resources they can produce - creating a benchmark with longevity.
The project began 18 months ago after years of playing Factorio, recognising its potential as an AI research testbed. A few months ago, our team (myself, Akbir, and Mart) came together to create a benchmark that tests agent capabilities in spatial reasoning and long-term planning.
Two technical innovations drove this project forward: First, we discovered that piping Lua into the Factorio console over TCP enables running (almost) arbitrary code without directly modding the game. Second, we developed a first-class Python API that wraps these Lua programs to provide a clean, type-hinted interface for AI agents to interact with Factorio through familiar programming paradigms.
Agents interact with FLE through a REPL pattern:
1. They observe the world (seeing the output of their last action)
2. Generate Python code to perform their next action
3. Receive detailed feedback (including exceptions and stdout)
We provide two main evaluation settings:
- Lab-play: 24 structured tasks with fixed resources
- Open-play: An unbounded task of building the largest possible factory on a procedurally generated map
We found that while LLMs show promising short-horizon skills, they struggle with spatial reasoning in constrained environments. They can discover basic automation strategies (like electric-powered drilling) but fail to achieve more complex automation (like electronic circuit manufacturing). Claude Sonnet 3.5 is currently the best model (by a significant margin).
The code is available at https://github.com/JackHopkins/factorio-learning-environment.
You'll need:
- Factorio (version 1.1.110)
- Docker
- Python 3.10+
The README contains detailed installation instructions and examples of how to run evaluations with different LLM agents.
We would love to hear your thoughts and see what others can do with this framework!
Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation https://arxiv.org/abs/2503.03492
Читать полностью…Finite-temperature quantum topological order in three dimensions https://arxiv.org/abs/2503.02928
Читать полностью…Ising 100: review of solutions https://arxiv.org/abs/2504.09661
Читать полностью…https://github.com/MoonshotAI/Kimina-Prover-Preview
via @black_samorez
Flux attachment theory of fractional excitonic insulators https://arxiv.org/abs/2504.05427
Читать полностью…Hydrodynamics of the electronic Fermi liquid: a pedagogical overview https://arxiv.org/abs/2504.01249
Читать полностью…ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025 https://arxiv.org/abs/2503.23509
Читать полностью…On the Importance of Error Mitigation for Quantum Computation https://arxiv.org/abs/2503.17243
Читать полностью…M-Attack: как обмануть GPT-4.5 и Gemini
Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".
Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).
И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).
Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.
Статья, GitHub, dataset
Compute Optimal Scaling of Skills: Knowledge vs Reasoning https://arxiv.org/abs/2503.10061
Читать полностью…Bras and Kets in Euclidean Path Integrals https://arxiv.org/abs/2503.12771
Читать полностью…At the March Meeting next week. Ping me if you wanna meet in the LA area
Читать полностью…Comment on "Interferometric single-shot parity measurement in InAs-Al hybrid devices", Microsoft Quantum, Nature 638, 651-655 (2025) https://arxiv.org/abs/2503.08944
Читать полностью…https://knzhou.github.io/handouts/Prelim.pdf
via @avvablog
GamingAgent - Personal Computer Gaming Agent https://github.com/lmgame-org/GamingAgent
Читать полностью…Enforced Gaplessness from States with Exponentially Decaying Correlations https://arxiv.org/abs/2503.01977
Читать полностью…