That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Chameleon: Mixed-Modal Early-Fusion Foundation Models https://arxiv.org/abs/2405.09818
Читать полностью…Long-range wormhole teleportation https://arxiv.org/abs/2405.07876
Читать полностью…CPPO: Continual Learning for Reinforcement Learning with Human Feedback https://openreview.net/forum?id=86zAUE80pP
Читать полностью…Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models https://arxiv.org/abs/2405.05417
Читать полностью…Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs https://openreview.net/forum?id=uNrFpDPMyo
Читать полностью…Accurate structure prediction of biomolecular interactions with AlphaFold 3 https://www.nature.com/articles/s41586-024-07487-w
Читать полностью…Why is SAM Robust to Label Noise? https://arxiv.org/abs/2405.03676
Читать полностью…DrEureka: Language Model Guided Sim-To-Real Transfer https://eureka-research.github.io/dr-eureka/
Читать полностью…Time-Reversal Anomalies of QCD3 and QED3 https://arxiv.org/abs/2404.17233
Читать полностью…https://www.lesswrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction
Читать полностью…https://twitter.com/percyliang/status/1783724077972361647
Читать полностью…Anyonic Topological Order in Twisted Equivariant Differential (TED) K-Theory arxiv.org/abs/2206.13563
Читать полностью…Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data https://arxiv.org/abs/2404.14367
Читать полностью…Lattice Surgery for Dummies https://arxiv.org/abs/2404.13202
Читать полностью…Demonstration of logical qubits and repeated error correction with better-than-physical error rates https://arxiv.org/abs/2404.02280
Читать полностью…Translation of the Rust's core and alloc crates to Coq for formal verification (Score: 152+ in 4 hours)
Link: https://readhacker.news/s/67R7a
Comments: https://readhacker.news/c/67R7a
How much entanglement is needed for emergent anyons and fermions? https://arxiv.org/abs/2405.07970
Читать полностью…The Fault in Our Stars: An Analysis of GitHub Stars
as an Importance Metric for Web Source Code https://www.ias.cs.tu-bs.de/publications/GithubTranco.pdf
https://twitter.com/PhysicsHenry/status/1788518510248759495
Читать полностью…Robust agents learn causal world models https://openreview.net/forum?id=pOoKI3ouv1
Читать полностью…Identifying the topological order of quantized half-filled Landau levels through their daughter states https://arxiv.org/abs/2405.03780
https://twitter.com/evgeniyzhe/status/1788082384916689357
Almost-idempotent quantum channels and approximate C∗-algebras https://arxiv.org/abs/2405.02434
Читать полностью…Topological holography for fermions https://arxiv.org/abs/2404.19004
Читать полностью…Training on Mistakes Improves Problem Solving Performance https://gytis.co/2024/04/25/Training-on-Mistakes-Improves-Problem-Solving-Performance.html
Читать полностью…В Абу-Даби прошла первая в мире гонка болидов-беспилотников.
Самое интересное происходило на квалификации, когда машины делали тестовые заезды, чтобы «познакомиться» с трассой. Машины вылетали с трасс, разворачивались, влетали в отбойники. Одним словом делали то, за что мы любим беспилотники.
Offline Actor-Critic Reinforcement Learning Scales to Large Models
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями🥸
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
https://sites.google.com/view/ph11fall2019/previous-hurdles
Читать полностью…Из других свежих интересностей, HF опубликовал свою открытую реимплементацию Gato (/channel/gonzo_ML/966) под названием Jack of All Trades (JAT).
Пост: https://huggingface.co/blog/jat
Статья: https://arxiv.org/abs/2402.09844
Код: https://github.com/huggingface/jat
Модель: https://huggingface.co/jat-project/jat
Датасет: https://huggingface.co/datasets/jat-project/jat-dataset
COCONut: Modernizing COCO Segmentation arxiv.org/abs/2404.08639
Читать полностью…Scaling Instructable Agents Across Many Simulated Worlds https://arxiv.org/abs/2404.10179
Читать полностью…