j_links | Unsorted

Telegram-канал j_links - Just links

6269

That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh

Subscribe to a channel

Just links

CutS3D: Cutting Semantics in 3D for 2D Unsupervised Instance Segmentation https://arxiv.org/abs/2411.16319

Читать полностью…

Just links

Non-Majorana-origin of the half-integer conductance quantization elucidated by multi-terminal superconductor-quantum anomalous Hall insulator heterostructure https://arxiv.org/abs/2411.14903

Читать полностью…

Just links

Most ideas still don't scale
https://fixupx.com/Yuchenj_UW/status/1861477701821047287

Читать полностью…

Just links

Domain walls from SPT-sewing https://arxiv.org/abs/2411.11967

Читать полностью…

Just links

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games https://arxiv.org/abs/2411.13543

Читать полностью…

Just links

Higher obstructions to conformal boundary conditions and lattice realizations https://arxiv.org/abs/2411.11757

Читать полностью…

Just links

SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking https://arxiv.org/abs/2409.11235

Читать полностью…

Just links

https://mlcommons.org/benchmarks/training/
tpuv6 ~ tpuv5
B200 ~ 2*H100

Читать полностью…

Just links

🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext)  невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора"  — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.


Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF

Читать полностью…

Just links

Retrieval Head Mechanistically Explains Long-Context Factuality https://arxiv.org/abs/2404.15574

Читать полностью…

Just links

Optimized einsum https://optimized-einsum.readthedocs.io/en/stable/

Читать полностью…

Just links

https://fixupx.com/Alibaba_Qwen/status/1856040217897251044

Читать полностью…

Just links

RL-GPT: Integrating Reinforcement Learning and Code-as-policy https://openreview.net/forum?id=LEzx6QRkRH

Читать полностью…

Just links

Neural Pfaffians: Solving Many Many-Electron Schrödinger Equations https://openreview.net/forum?id=HRkniCWM3E

Читать полностью…

Just links

OpenCoder: Open Cookbook for Top-Tier Code Large Language Models (🔥 Score: 152+ in 3 hours)

Link: https://readhacker.news/s/6hHkN
Comments: https://readhacker.news/c/6hHkN

Читать полностью…

Just links

Algorithmic Collusion by Large Language Models https://arxiv.org/abs/2404.00806

Читать полностью…

Just links

General Relativity https://cdn.prod.website-files.com/65c089cfdfce11a0392e5c42/67469a196f855821380fffa4_GR-2024.pdf

Читать полностью…

Just links

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics https://arxiv.org/abs/2410.21272

Читать полностью…

Just links

First Results of Differential Doppler Positioning with Unknown Starlink Satellite Signals https://ieeexplore.ieee.org/document/9843493

Читать полностью…

Just links

ChatGPT’s Poetry is Incompetent and Banal: A Discussion of (Porter and Machery, 2024) https://cs.nyu.edu/~davise/papers/GPT-Poetry.pdf

Читать полностью…

Just links

OpenAI Email Archives (from Musk v. Altman) https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman

Читать полностью…

Just links

TDPO — потокенный DPO или просто регуляризация?

Авторы сегодняшней статьи предлагают метод потокенного Direct Preference Optimization (DPO), который на бумаге должен исправить некоторые проблемы оффлайн-обучения с подкреплением. Но на деле все оказывается не так просто.

DPO — метод обучения, не полагающийся на reward-модель. Здесь применяют датасет с размеченными парами запросов и ответов, чтобы натренировать генератор на контрастный лосс.

Проблема в том, что в случае с DPO мы работаем с вероятностями последовательностей целиком. Метод ограниченно контролирует поведение модели на уровне отдельных токенов. Это приводит к тому, что модель может ошибочно сильно повышать или понижать вероятность отдельных токенов значительно после совершенных ошибок.

Эту проблему можно нивелировать, если сделать DPO потокенным. Авторы статьи пытаются добиться этого.

Для начала они предлагают ввести необычное ограничение — сделать так, чтобы сумма наград всех токенов-продолжений для произвольного префикса была равна 0. Это довольно сильное допущение: например, если мы решаем задачу копирования какого-то куска текста, то будем сильно штрафовать модель за любое отклонение. Как результат — награда за правильный токен окажется очень большой. В этом случае, если при выборе между длинной и короткой строкой, модель будет склоняться к длинной строке.

Такое ограничение позволило авторам в их расчётах лосса избавиться от нормировочной константы вероятностного распределения. Чтобы ее вычислить, нужно суммировать награду по всем возможным ответам, а это невозможно, поэтому от константы при расчётах избавляются. В DPO нормировочная константа одинакова для победившего и проигравшего ответов, поэтому она сокращается в лоссе, но авторы статьи сделали это несколько иначе.

Из их математической модели выводится функция, которая очень похожа на DPO. Но в отличие от DPO, авторы вычитают из неё разницу между SeqKL проигравшего и победившего ответа. Этот метод, названный Token-level Direct Preference Optimization (TDPO), обеспечил незначительное улучшение по сравнению с обычным DPO. На датасете Anthropic HH точность увеличилась всего на 0,65%.

Далее авторы предлагают умножить на дополнительный коэффициент разницу SeqKL и не пропускать градиенты для победившего варианта. Это можно трактовать так: при росте SeqKL проигравшего ответа всегда увеличивается лосс, в то время, как при росте SeqKL победившего — лосс уменьшается. Получается, что добавка к DPO, после остановки градиента для её части, по сути работает, как регуляризация.

С ней метод получил название TDPO2 и он действительно неплохо улучшает показатели. На том же Anthropic HH прирост по сравнению с DPO составил уже не 0,65%, а 7,9%.

Авторы действительно предложили лучшее решение. Но возникает вопрос: насколько здесь велик вклад выведенной математической модели. По факту, авторы сильно меняют основные моменты в этой модели, а то, что остается, очень похоже на простую потокенную регуляризацию. Но её идея не нова: часто к DPO добавляют negative log likelihood loss — например, при DPO-обучении Llama 3.1, — что тоже является вариантом потокенной регуляризации. Мы склоняемся к тому, что научный вклад этой статьи невелик, а ключевые выводы — ошибочны.

Разбор подготовил Михаил Хрущев

Душный NLP

Читать полностью…

Just links

The LLM ARChitect: Solving the ARC Challenge Is a Matter of Perspective https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf

Читать полностью…

Just links

Training Language Models to Self-Correct via Reinforcement Learning https://arxiv.org/abs/2409.12917

Читать полностью…

Just links

Unsupervised Hierarchy-Agnostic Segmentation: Parsing Semantic Image Structure https://openreview.net/forum?id=ELnxXc8pik

Читать полностью…

Just links

Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning https://arxiv.org/abs/2410.11251

Читать полностью…

Just links

Beyond The Rainbow: High Performance Deep Reinforcement Learning On A Desktop PC https://arxiv.org/abs/2411.03820

Читать полностью…

Just links

CAT3D: Create Anything in 3D with Multi-View Diffusion Models https://openreview.net/forum?id=TFZlFRl9Ks

Читать полностью…

Just links

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning https://ekinakyurek.github.io/papers/ttt.pdf

Читать полностью…

Just links

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI https://arxiv.org/abs/2411.04872
via @seeallochnaya

Читать полностью…
Subscribe to a channel