rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

18078

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

Всегда слежу, чтобы статья загрузилась на alpharxiv: там теперь генерируется приятный короткий подкаст по статье:

Читать полностью…

Kali Novskaya

🌸GigaChat 3: собственная OSS модель для русского языка 🌸
#nlp #про_nlp

Сбер выложил самую большую LLM для русского языка из когда-то созданных -- в опен сорс, под MIT. Модель MoE на 702B миллиарда параметров. Очень уважаемо!
Предыдущий рекорд был, пожалуй, у Яндекса с YaLM 100B (3 года назад).

Вся линейка:
🟣GigaChat3-702B-A36B-preview -- Instruct-модель, самая большая для русского языка. 702 млрд параметров, 36 млрд активных. Число экспертов пока не описано.
🟣GigaChat3-10B-A1.8B -- Instruct-модель, легкая версия, для более быстрого инференса.
🟣GigaChat3-10B-A1.8B-base -- претрейн чекпоинт легкой версии, для файнтюнинга.

Все модели MoE, с Multi-head Latent Attention и Multi-Token Prediction.

В предобучение также включены языки СНГ, китайский, арабский, и интересный параграф про данные:
Ключевой вклад в качество внесла синтетика: мы сгенерировали около 5,5 триллионов токенов синтетических данных. В корпус входят вопросы-ответы к текстам, цепочки reverse-prompt для структурирования данных, LLM-заметки с комментариями от модели внутри текстов, миллионы синтетических задач с решениями по математике и олимпиадному программированию (с синтетическими тестами) на основе PromptCot.

На MMLU_RU и русскоязычных бенчмарках вроде MERA модель явно лучше предыдущих версий и Qwen3. 
LiveCodeBench, MATH_500, GPQA отстают в сравнении с тем же Qwen, но в целом в модели, организованной вокруг улучшения русского языка, это не важно.
Ждем технический отчет. Хочется, конечно, и других сравнений с русскоязычными моделями, но сам вклад в опенсорс невозможно переоценить.

🌸Почему это важно:
Теперь все, кто хочет тюнить русскоязычные модели, могут перестать тюнить Qwen! (Привет Т-Банк)
Претрейн чекпоинтов самой большой модели нет, но в целом никто не запрещает взять Instruct чекпоинт и начать делать посттренинг со своими датамиксами прямо сверху.
Очень интересно увидеть дальнейшее освоение модели сообществом!

🟣HuggingFace https://huggingface.co/collections/ai-sage/gigachat3
🟣Github https://github.com/salute-developers/gigachat3

Читать полностью…

Kali Novskaya

🌸Суп из LLM: смешиваем разные чекпоинты для лучшего результата🌸
#nlp #nlp_papers 

TL;DR
Мы с коллегами из FAIR представляем новый метод работы с LLM: разные чекпоинты на этапе файнтюнинга можно усреднять между собой с разными коэффициентами — и результат будет лучше, чем у отдельно взятых чекпоинтов. Можно даже пойти на HuggingFace и усреднять разные чекпоинты одной архитектуры!

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

🟣Что такое суп из моделей?
Вообще говоря, разные техники усреднения моделей — это совсем не новость. Вот тут очень подробно расписаны методы: модели можно усреднять на этапах предобучения для более гладкого графика, и даже можно стакать между собой до получения непонятных франкенштейнов. 
Супинг — это метод послойного усреднения весов моделей одной архитектуры.
Мы применили усреднение к этапу постобучения (SFT, PPO...и прочее): берем разные чекпоинты с немного разными результатами и способностями, выбираем бенчмарки, под которые нужно оптимизировать способности модели, и автоматически подбираем оптимальные веса для усреднения. Результат выходит лучше, чем отдельные модели, и при этом не приводит к регрессу других способностей модели, как было бы, если бы мы напрямую таргетировали одну способность/бенчмарк.

Таким образом мы сделали из нескольких чекпоинтов SOTA на бенчмарке tool calling — BFCL.

Если компьюта у вас мало, то можно пойти еще дальше — и вообще ничего не обучать самому, а только выбирать готовые чекпоинты с HF, усреднять их ансамбли и измерять качество.
Модели, конечно, должны быть из одной архитектуры и одного претрейна.
Мы сделали так с моделями LLama 3 70B и 8B — и метод вполне рабочий!

🌸Готовим батин суп из моделей:
— измерьте ваши чекпоинты в процессе файнтюна и проанализируйте, если некоторые способности плохо сочетаются, антикоррелированы — нам это подходит, будем искать коэффициенты, чтобы их замерджить
— можно набрать разных чекпоинтов из опенсорса (для вязкости) — например, файнтюны LLama, — с математикой, разными языками, ризонингом, и все это тоже замерджить.
— чтобы обои не отклеивались: не надо мерджить модели на разных этапах, модели без алайнмента с чекпоинтами с алайнментом и тд, результат не предсказуем.
— если делаете так, всегда потом пишите об этом на чекпоинте. Иначе придут люди из mechanistic interpretability и ничего не поймут.
— готово! вы восхитительны

🟣Статья: https://arxiv.org/abs/2511.13254
🟣Github: https://github.com/facebookresearch/llm_souping
🟣HuggingFace papers: https://huggingface.co/papers/2511.13254

Читать полностью…

Kali Novskaya

Пятничный, твой — мемотред #шитпост

Читать полностью…

Kali Novskaya

Через полчаса начинаем! Приходите!

Читать полностью…

Kali Novskaya

🌸Агенты пишут и рецензируют статьи🌸
#nlp #про_nlp  #nlp_papers

На этой же неделе прошла первая открытая конференция, где все статьи были написаны и отрецензированы агентами — Agents4Science от Стэнфордского университета.

Acceptance rate не публикуют, но он был, много чего отреджектили!
Список принятых статей можно посмотреть на сайте конференции. Вот мои любимые:
🟣BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? | OpenReview — это вообще супер, мой абсолютный фаворит, заслуживает отдельного поста
🟣Behavioral Fingerprinting of Large Language Models | OpenReview — оценка эмоциональных способностей разных LLM
🟣``You are a brilliant mathematician'' Does Not Make LLMs Act Like One | OpenReview — про ограничения Persona prompting
🟣Diverse Inference for Solving ARC at a Human Level | OpenReview
агенты зарешивают ARC challenge


А еще можно посмотреть, как человеки представляют доклады, сделанные агентами 😈
🟣https://youtu.be/7pXqAeedqOo?si=-xZ2sdlqXjbjdH1O

Читать полностью…

Kali Novskaya

Мемотред в честь пятницы и очередного реорга на работе #шитпост

Читать полностью…

Kali Novskaya

Вышел State of AI 2025!

🟣https://www.stateof.ai/

В этом году в него вошла наша работа — MLGym!
И в целом большое внимание агентам для науки

Читать полностью…

Kali Novskaya

🌸Мониторим SOTA: новый ресурс🌸
#nlp #про_nlp #nlp_papers

Не так давно очень любимый мной ресурс Papers with Code почил в бозе, и, помимо прочего, он выполнял очень важную функцию: позволял специалистам отслеживать текущий лучший результат в различных моделях.

Что ж, король умер, да здравствует король! Пока HuggingFace обещает перенос информации на свою платформу trending papers, появился новый ресурс со схожим функционалом:
🟣https://hyper.ai/en/sota

Из полезного, есть отдельные вкладки для бенчмарков в сфере медицины, ризонинга, и есть даже лидерборд моделей с ценой за миллион токенов.

Ресурс пока наполняется вручную, было добавлено 200 статей с упором на лучшие результаты ИИ в различных областях науки — медицины, физики, и тд. помимо классических направлений ML.

Ко всему этому прилагается еще гитхаб-страничка полностью на китайском  — но кто мы такие, переведем :)

Читать полностью…

Kali Novskaya

На этой неделе, уже второй год подряд, состоялся мой доклад про оценку языковых моделей на летней осенней школе Oxford LLMs в Nuffield College, Oxford University

PhD с разными бэкграундами, приглашенные лекторы и насыщенная программа с исследовательскими проектами. Надеюсь, и в след раз позовут!


https://llmsforsocialscience.net/

Читать полностью…

Kali Novskaya

🌸Объявления: AI проекты🌸

Публикую пару объявлений, которые давно по дружбе хочу вам показать: если вы ждали знака судьбы в понедельник, то вот он!

🌸Если вы ищете работу:

Стартап White Circle ищет ML инженеров, чтобы сделать крутую AI safety платформу.
Релок в Париж, конкурентная вилка (и ложка!). .

Вакансия: AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

🟣 Присылать CV сюда: https://forms.gle/XysjrjHgxiRicGsb6


Про стартап:
— Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace
— Команда из 10 человек с офисом в самом центре Парижа
— Обрабатывают десятки миллионов API запросов в месяц
— 🍴 100-199к USD, есть equity


🌸Если хотите поучаствовать в научном проекте:

В добровольцах нуждается опен-сорс проект CayleyPy — вместе с командой математиков будем применять ML к теории групп и графов.
Коллектив уже выпустил несколько научных статей:
https://arxiv.org/abs/2502.18663
https://arxiv.org/abs/2502.13266

🟣Больше деталей тут в посте
и в группе

🌸Если ищете, куда поступать:

В Университете Рейкьявика стартовала новая магистратура по Artificial Intelligence, есть несколько треков, включая Language Technology. Программа достаточно насыщенная, магистратура будет хорошим дополнением поверх технического или лингвистического бакалавриата.
🟣Сайт программы

Я периодически коплю такие объявления, если вам интересно, я будут периодически их публиковать. Можно присылать и свои проекты — в комментариях.

Читать полностью…

Kali Novskaya

🌸Управляй своим менеджером🌸
#nlp #карьера

Итак, ваше подразделение реорганизуют. У вас новый менеджер или директор, новые соседние команды, новый общий вектор работы.
Как выплыть из бесконечной неопределенности и сохранить карьерный трек, даже с новым руководством?


🌸Что делать во время реорга

— не бегать в панике (пока что получилось только один раз, так как ушла в отпуск)
— понять, что вы ни на что в реорге не повлияете! Все, чем вы могли повлиять на реорг, делать надо было до! Выстраивать прозрачную коммуникацию с менеджером и скипом (менеджер вашего менеджера), выстраивать коллаборации с другими командами и регулярно и явно о них сообщать руководству, брендировать свою работу и встраивать ее в общий план вашей организации.
— понять, что мидл-менеджмент (все, что между менеджером команды и CEO), влияет на вашу ежедневную работу гораздо меньше, чем собственно менеджер и CEO. Если они остались, то все нормально. Если менеджер поменялся — штош, придется выстраивать позиционирование команды заново.
— даже если вас прямо спросят: не занимать явную позицию относительно того, куда/как вы хотите реорганизоваться. Потом вас все равно переведут туда, куда хотели, но ваше новое руководство будет знать, что вы хотели в другое место. Это потом сыграет против вас.

🌸До и после реорга

— собственно, качественно заниматься тем, что я упомянула выше — еще это называется "менеджерить своего менеджера". Рабочие отношения работают в две стороны, вы должны убедиться, что вы имеете регулярный канал коммуникации и обязательно знаете вот такой список вещей про вашего менеджера или директора:
🟣Ее/его цели и задачи
🟣Как на нее/него давит его руководство, какие пряники и кнуты применяются. "Не дадут больше ставок" или "всех сократят" — это очень разные обстоятельства.
🟣 Ее/его сильные и слабые стороны, слепые зоны
🟣Предпочтительный стиль работы (вы должны об этом явно договориться)

Желательно постепенно сделать все то же самое и с вашим скипом, но это задачка со звездочкой.

Оцените все то же самое про себя, и выстраивайте коммуникацию
— концентрируюясь на общих целях, преподнося подкрепление общих целей 
— явно проговаривая, что вы ожидаете, и спрашивая явно, чего ожидают от вас
— выстраивая регулярный поток статусов по задачам и целям
— на честности, отсутствии вранья (но и нытья тоже)
— экономии времени друг друга.
(этих советов я придерживаюсь, но вообще про это есть очень старая статья)

Вопросы вроде масштабирования проектов, карьерных изменений, реоргов никогда не будут для вас внезапными.

На реорганизацию вы повлиять в моменте не можете, если вы сам не директор, потому что многое решается на уровне чужих договоренностей. Но вы можете повлиять на выстраивание хороших рабочих отношений внутри компании, имидж команды, приоритет проекта, его организационные зависимости заранее. На этом лучше и сфокусироваться.

Читать полностью…

Kali Novskaya

Мы тут юбилей пропустили, оказывается. 2 дня назад исполнилось 70 лет понятию «искусственный интеллект»

Читать полностью…

Kali Novskaya

🌸Чтение AGI 2025🌸
#nlp #про_nlp #nlp_papers #agi_russia

Поездка в Исландию была супер!

Завершился AGI-25, и мне впервые выпало открывать keynote'ом такую большую и близкую моим стремлениям конференцию.

Мой доклад вы можете посмотреть вот тут: я рассказываю про методологию науки и зрелость ИИ-агентов для акселерации науки в 2025. (В комментариях к посту даже запилили нейроперевод на русский)

Прелесть AGI-conf — в мультидисциплинарности: тут и символьные методы, и графовые нейронки, и вычисления на живых клетках, RL и робототехника, и всегда — философские вопросы  самосознания и ИИ.

Поэтому, если вам надоело читать про один только скейлинг трансформеров, то вот список работ, которые интересно почитать, чтобы расширить свой кругозор:

🟣Статья Stop treating ‘AGI’ as the north-star goal of AI research — отличный методологический обзор текущих проблем в индустриальном стремлении поскорее достичь сильного ИИ: хакинг метрик, однообразие подходов и т.д.

🟣Вычисления на реальных клетках нейронов — гораздо ближе к пределу Ландауера, чем чипы. Две работы ниже — основополагающие принципы для таких вычислений и общий обзор МЛ-моделей, вдохновленных принципами из нейронауки.
Mortal Computation: A Foundation for Biomimetic Intelligence
A Review of Neuroscience-Inspired Machine Learning

🟣Последний вижн Ричарда Саттона, отца RL, — The Oak Architecture: A Vision of SuperIntelligence. Общей статьи еще нет, нужно смотреть лекцию.

🟣How to build conscious machines — диссертация с очень неплохим обзором проблем вокруг определения сознания и его переносимости в computer science, theory of mind, и ML-экспериментов вокруг них.

🟣Последние работы Бена Герцеля — или что сейчас происходит в символьных методах. PLN and NARS Often Yield Similar strength  confidence Given Highly Uncertain Term Probabilities — работа про Probabilistic Logic Networks (PLN) and the Non-Axiomatic Reasoning System (NARS) (и собственно их сравнение). Сюда же фреймворк OpenCog Hyperon

Читать полностью…

Kali Novskaya

А как ваше воскресенье проходит?
Воркшопы AGI 2025

Мой opening keynote завтра утром!
🟣https://agi-conf.org/2025/schedule/

Читать полностью…

Kali Novskaya

🌸Что делает ИИ агента хорошим рисерчером? Анализируем логи🌸
#nlp #про_nlp

Мы с коллегами сделали небольшой анализ того, как вариативность идей агента влияет на общий перформанс в Kaggle соревнованиях (MLEbench).

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

🟣TL;DR
Вариативность идей агента влияет напрямую на итоговый результат! Чем больше идей и их разнообразие, тем лучше. Корреляция сильная для всех моделей и всех абляционных исследований.

🟣Суть анализа
Мы пробуем 7 разных LLM на логах агента, решающего MLE-bench.

MLE-bench — это основной бенчмарк для оценки агентов, решающих ML-задачи, потом что в нем агенты должны соревноваться с существующими решениями людей в Kaggle-соревнованиях. Когда агент получает задачу (датасет, метрику, скрипты для оценки своего решения), то ему остается предложить и написать полноценный пайплайн — от обработки данных до обучения модели, которая будет лучше существующих решений, и получит золотую медаль. А может, серебряную или бронзовую, в заивисмости от того, насколько хорошим будет результат относительно распределения решений Kaggle-мастеров.

Мы используем два альтернативных скаффолда (логики агента) на 75 задачах, кажду из которых раним с разными сидами 10-20 раз. Всего у нас корпус из 11 тысяч траекторий агентов. И примерно 1,200,000 отдельных нод графа решений — и 264,000 GPU-часов.

🟣Как контролировать вариативность идей?
Мы можете менять температуру, системный промпт, можете на следующих этапах эксперимента менять промпт и просить сгенерировать что-то новенькое, можете использовать судей. Можете точно так же попробовать сделать и обратный замер — искусственно понизить вариативность идей и проверить, сохраняется ли тенденция (да). Мы попробовали извлекать из логов агентов часть ideation, и извлекать из нее непосредственно архитектурные соображения для анализа. Как ни странно, разные скаффолды (AIDE, наш AIRA-dojo — MCTS и Greedy) дают не только разную вариативность, но и разное распределение частотности идей у одних и тех же моделей. AIRA-dojo в целом позволяет держать распределение более равномерным, когда как у AIDE результат больше похож на закон Ципфа.

🟣Итоги
В рамках всевозможных абляционных исследований явно видно, что  любые метрики перформанса на MLE-bench сильно коррелируют с более высокой вариативностью идей. В целом, на текущем уровне качества моделей, мы упираемся в боттлнек способности писать код и имплементировать идеи, и поэтому сейчас, при таких условиях, гораздо более интересные результаты мы получаем, когда генерируем больше идей и имплементаций, а не более  систематически исследуем гиперпараметры парочки идей.

🟣Ограничения
Основной боттлнек текущих моделей, который часто портит результат — это непосредственно способность писать код, вносить правки и дебажить. Неспособность отдебажить свои же собственные правки — проблема, которая сильнейшим образом занижает общий перформанс относительно всех прекрасных идей. 
Если способность писать код будет идеальной, результаты относительно того, что важнее: более глубокий перебор гиперпараметров или более поверхностное исследование большего числа идей, — может быть пересмотрен.

🟣Arxiv https://arxiv.org/abs/2511.15593
🟣HF https://huggingface.co/papers/2511.15593
🟣Alpharxiv https://www.alphaxiv.org/abs/2511.15593

Читать полностью…

Kali Novskaya

На правах автора:
Поставьте лайк на Huggingface, пожалуйста!
https://huggingface.co/papers/2511.13254

Читать полностью…

Kali Novskaya

Привет канал!
Была тяжёлая неделя, даже две. Посты возвращаются!
А ещё я наконец сдала HSK1, первый уровень по изучению китайского языка — решила весной учить
Спасибо, что вы тут!

Читать полностью…

Kali Novskaya

🌸Коллапс NeurIPS?🌸
#nlp #про_nlp #nlp_papers

В продолжение субботней беседы с Михаилом Бурцевым, приведу некоторые цифры этого года — и аргументы в пользу того, что хотя бы частичная автоматизация исследований вокруг ИИ и их рецензирования совершенно необходима.

🌸В этом году на NeurIPS было подано рекордные 25 000 статей.

Много ли это?
🟣это примерно в 60 раз больше чем в 2010
🟣в три раза больше чем в 2019
🟣 примерно на 29% больше чем каждый прошлый год начиная с 2017

25 тысяч статей — это бутылочное горлышко для рецензирования.
🟣если считать, что одну плохую рецензию можно написать за полчаса, то это 12.5 тысяч человеко-часов. Если на каждую статью нужно 4 рецензии, что это 50 тысяч часов, то есть чуть меньше 6 лет экспертного совокупного времени
🟣если считать, что на хорошую рецензию нужно 2 часа... Ну вы поняли. 24 года экспертного времени.

Все это для того, чтобы как минимум 20 тысяч этих статей отклонить.

Если так пойдет и дальше, то
🟣 примерно через 15 лет, в 2040, NeurIPS получит больше миллиона статей в год. (25,000 × 1.29¹⁵ ≈ 1.1M).

Пока мы не хотим делать верификации результатов хотя бы частично автоматической, автоматизация написания статей уже происходит.
Рецензирование совершенно точно постепенно тоже станет LLM-based официально.

Ну, и Journal of Universal Rejection тоже уже придуман.

Читать полностью…

Kali Novskaya

🌸СТРИМ НА РАБКОРЕ: в 20:00 мск🌸

ИИ-агенты и будущее науки: обсуждаем с Михаилом Бурцевым!
Приходите, присылайте вопросы — в комментариях к этому посту и на стриме!

– Может ли ИИ написать научную статью? Сделать что-то полезное для учёных?
– Что такое агенты, как может выглядеть автоматизация науки в целом?
— Компьютерные науки против всех? В каких областях, помимо компьютерных наук, мы наконец увидим общественно полезные плоды применения ИИ?
– Какие пререквизиты и какая инфраструктура нужна, чтобы случилась сингулярность?

YouTube:
🟣https://youtube.com/live/fVOhBTpBeuE?feature=share

Читать полностью…

Kali Novskaya

На этой неделе у нас был лэйофф. К сожалению, тоже достаточно типичная вещь в faang, как и реорги.

Меня не уволили! Вопрос удачи, так что я буду вам продолжать писать про ИИ агентов.

А в субботу будет стрим про них, с гостем!

Читать полностью…

Kali Novskaya

Все могут видеть, как ты выглядишь внешне, но очень мало тех, кто знает, что у тебя в душе (с) Статусы ВКонтакте

Автор: Кали Новская

Павлу Дурову грустно, он не захотел праздновать свой день рождения, потому что интернет регулируют не так, как удобно ему. Потеря традиций и потеря свободного рынка — в посте Павла эти понятия стоят через запятую. Видимо, началась эра дубайско-либертарианского традиционализма. С дата-центрами в Казахстане. Поднять флаг, свистать всех наверх!

Помимо шуток, Интернет, и крупные платформы вместе с ними, безусловно, регулируют не так, как это следовало бы делать с левых позиций. И это так уже давно, рада, что Павел заметил.

Начиная с 2000 годов, и первого дела против Pirate bay, введения государственной цензуры в Твиттере, усиления контроля платежных платформ и приложений, а потом и создания локальных "Роскомнадзоров" по всему миру, информация становится контролируемым и централизованным ресурсом.
Вместо защиты интересов граждан — защита монополий корпораций и минизации легальных рисков, а не демократических  механизмов. (Минимизация корпоративных рисков — в целом направление диаметрально противоположное упражнениям в демократических правах).

Так как Павел свой призыв не сформулировал, сформулируем его сами: платформы в интернете могут и должны быть поставлены под демократический контроль! И локально могут и должны подчиняться требованиям относительно свободы слова, рынка, безопасности, и прочих фундаментальных прав, в том числе и обеспечения людей правом на доступ к информации.

Телеграм мог бы подать другим платформам отличный пример, если бы начал обеспечивать своим пользователям прозрачность в этом вопросе: с какими странами телеграм сейчас сотрудничает и по каким вопросам, какова их статистика. Тогда бы и слова совпадали с делом, и нашлись бы общественные институты и механизмы.

Как там дела у Ирины Болгар?

Читать полностью…

Kali Novskaya

🌸[REDACTED]: Что в обучении у GPT-5?🌸
#nlp #про_nlp

🟣TL;DR
Интересный разбор  — по аномальным токенам GPT OSS можно сделать много выводов о том, на чем обучались все другие закрытые модели OpenAI — GPT-5, Mini, Nano, oss-20B, oss-120B. Из интересного: коронавирус, тайские и абхазские документы, Github и китайские сайты для взрослых.

🟣На чем обучали и что спрятали в GPT OSS?

Это, конечно, секрет Полишинеля, но просто так никто на такой вопрос отвечать не спешит. Тем не менее, что-то узнать все-таки можно.

Так как у всех моделей после GPT-4o один и тот же o200k токенизатор, мы можем взять из GPT OSS эмебеддинги этих токенов и посмотреть на разные аномалии там. Если сделать распределение L2-норм эмбеддингов токенов, оказывается, что примерно у нескольких тысяч токенов L2-норма аномально маленькая либо аномально высокая (глитч-токены, как SolidGoldMagikarp ), что скорее всего свидетельствует о их редком или нулевом участии в обучении модели GPT OSS  — а участвовали в обучении неопенсорсных моделей. Это-то нам и нужно!

🟣Так что там?

Если взять все аномальные токены, то большинство из них — это слипшиеся фразы на китайском, а также артефакты обучения токенизатора на разных относительно малоресурсных языках.
— Китайский - порно порно порно и сайты лотерей, и какой-то патриотический сайт
— Абхазский - официальные документы, перепись населения
— Тайский - какие-то документы районной управы, государственные  клятвы присяги, новости спорта
— а еще армянский, гуджарати и др

При этом, если провести простейший тест, и начать задавать вопросы про эти токены семейству моделей OpenAI ("переведи это на английский"), то окажется, что неопенсорсные модели обычно их знают и могут перевести, что значит, что у них в обучении они встречались как минимум один раз.

В противном случае, такие токены приводят к глюкам у моделей. Спросите GPT-5, например:
How many symbols are in ♀️♀️♀️♀️
Can you spell the following word: "CHKERRQ"
Please spell "\\xadder"

— и вы отправите модели в незабываемый трип.

🟣Интересный факт: установить собственно источник данных достаточно сложно, но по крайней мере для китайского спама провели тест через поиск Github — и количество положительных результатов (модель знает токен) коррелирует с тем, как он представлен в спам-репозиториях.
Так что Github вероятно был полностью обкачан и не до конца отфильтрован.

🟣Если вы интересуетесь конкретными ресурсами и языками, и применимостью моделей GPT-5, Mini, Nano, oss-20B, oss-120B на них, можете и сами посмотреть токенизаторы моделей — может, там уже есть то, что вам нужно, но в очень ограниченных доменах (документы, спам, социальные сети, спорт, комментарии к коду...). Хорошо понимать, каких!

Читать полностью…

Kali Novskaya

Срочно! Объявляется понедельничный мемотред #шитпост

Читать полностью…

Kali Novskaya

🌸Релизим GAIA2  — Агенты в реалистичной среде😘
#nlp #nlp_papers

🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.

🌸Состав GAIA2

В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.

Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
🟣Execution — способность качественно следовать инструкциям и использовать доступные инструменты и приложения в многоступенчатом плане
🟣Search — способность к поиску и извлечению информации
🟣Ambiguity — способность работать с неоднозначной информацией от пользователя
🟣Adaptability — способность адаптироваться под меняющиеся на лету требования пользователя
Time - способность планировать, исполнять регулярные действия, ожидать
🟣Noise — способность дойти до результата вопреки лишней, противоречивой инфомации и ошибкам системы
🟣Agent2Agent — способность коллаборировать с другими агентами в среде

На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.

🌸Agentic Research Environment: зачем нужна симуляционная среда

Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.

К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.

При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.

Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.

Пока что это самый большой агентный бенчмарк на общие способности агентов.

🟣Leaderboard: https://huggingface.co/spaces/meta-agents-research-environments/leaderboard
🟣Github: https://github.com/facebookresearch/meta-agents-research-environments
🟣HF demo: https://huggingface.co/spaces/meta-agents-research-environments/demo
🟣HF Blogpost: https://huggingface.co/blog/gaia2
🟣Dataset: https://huggingface.co/datasets/meta-agents-research-environments/gaia2

🟣Свою модель можно прислать: https://facebookresearch.github.io/meta-agents-research-environments/user_guide/gaia2_evaluation.html

Читать полностью…

Kali Novskaya

Субботний мемотред! Доставайте ваши мемы #шитпост (куда же без него)

Читать полностью…

Kali Novskaya

Давно меня не было в блоге! Я сходила в отпуск после Исландии — и вернулась из отпуска в разгар реорганизации в Meta.

Как обычно, ничего не писала — и количество подписчиков увеличилось.

Никакой сенсации в реорге нет (и уже все было написано в интернете). Теперь моя команда — часть Meta Superintelligence Labs, и продолжает заниматься прикладным рисерчем агентов, теперь уже в рамках инфраструктурного подразделения.

Реорг меня сильно морально измотал, и я решила написать вам пост про то, как менеджерить своего менеджера в FAANG. Про статьи тоже начну опять писать скоро, когда голова заработает.

Читать полностью…

Kali Novskaya

Там в комментариях уже постят, давайте пятничный отпускной мемотред #шитпост

Читать полностью…

Kali Novskaya

Скоро начинаем!

🟣https://www.youtube.com/live/XqYTQfQeMrE?si=KFBW2GBouLil_iSI

Читать полностью…

Kali Novskaya

Ждём, когда какая-нибудь китайская лаба задистиллит GPT-5 в GPT OSS

Так победим

Читать полностью…
Subscribe to a channel