That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Offline Actor-Critic Reinforcement Learning Scales to Large Models
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями🥸
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
https://sites.google.com/view/ph11fall2019/previous-hurdles
Читать полностью…Из других свежих интересностей, HF опубликовал свою открытую реимплементацию Gato (/channel/gonzo_ML/966) под названием Jack of All Trades (JAT).
Пост: https://huggingface.co/blog/jat
Статья: https://arxiv.org/abs/2402.09844
Код: https://github.com/huggingface/jat
Модель: https://huggingface.co/jat-project/jat
Датасет: https://huggingface.co/datasets/jat-project/jat-dataset
COCONut: Modernizing COCO Segmentation arxiv.org/abs/2404.08639
Читать полностью…Scaling Instructable Agents Across Many Simulated Worlds https://arxiv.org/abs/2404.10179
Читать полностью…#prog #game #abnormalprogramming
Verilog to Factorio blueprints compiler
https://github.com/Redcrafter/verilog2factorio
(thanks @GabrielFallen)
Certifying almost all quantum states with few single-qubit measurements https://arxiv.org/abs/2404.07281
Читать полностью…Higher Landau-Level Analogues and Signatures of Non-Abelian States in Twisted Bilayer MoTe2 https://arxiv.org/abs/2404.05697
Читать полностью…Google Axion Processors – Arm-based CPUs designed for the data center (Score: 151+ in 5 hours)
Link: https://readhacker.news/s/65Ehb
Comments: https://readhacker.news/c/65Ehb
JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments arxiv.org/abs/2404.01686
Читать полностью…Training LLMs over Neurally Compressed Text https://arxiv.org/abs/2404.03626
Читать полностью…Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics arxiv.org/abs/2403.19578
Читать полностью…Counterexamples in Quantum Information https://docs.google.com/document/u/0/d/1ysBvFXcAPldOJ96Jz4CXJa8h93oIVZnfZTUYDiRZAF8
Читать полностью…RewardBench: Evaluating Reward Models for Language Modeling https://arxiv.org/abs/2403.13787
Читать полностью…Doped stabilizer states in many-body physics and where to find them https://arxiv.org/abs/2403.14912
Читать полностью…Anyonic Topological Order in Twisted Equivariant Differential (TED) K-Theory arxiv.org/abs/2206.13563
Читать полностью…Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data https://arxiv.org/abs/2404.14367
Читать полностью…Lattice Surgery for Dummies https://arxiv.org/abs/2404.13202
Читать полностью…Demonstration of logical qubits and repeated error correction with better-than-physical error rates https://arxiv.org/abs/2404.02280
Читать полностью…Probing the 3D Awareness of Visual Foundation Models arxiv.org/abs/2404.08636
Читать полностью…Direct transition from a fractional quantum anomalous Hall state to a smectic state with the same Hall conductance https://arxiv.org/abs/2404.06745
Читать полностью…Wu's Method can Boost Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry
китайцы сказали что ваши альфа геометри хуйня, у нас есть method Wu дома, прикрутили к нему cетку для выбора лучших бимов из alpha geometry и стало лучше чем было
paper
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders https://arxiv.org/abs/2404.05961
Читать полностью…Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation arxiv.org/abs/2404.03645
Читать полностью…Non-Abelian braiding of Fibonacci anyons with a superconducting processor arxiv.org/abs/2404.00091
Читать полностью…Privacy Backdoors: Stealing Data with Corrupted Pretrained Models https://arxiv.org/abs/2404.00473
Читать полностью…Long-form factuality in large language models https://arxiv.org/abs/2403.18802
Читать полностью…High-Temperature Gibbs States are Unentangled and Efficiently Preparable https://arxiv.org/abs/2403.16850
Читать полностью…Manipulating Chess-GPT's World Model
https://adamkarvonen.github.io/machine_learning/2024/03/20/chess-gpt-interventions.html
T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy https://arxiv.org/abs/2403.14610
Читать полностью…