rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

18170

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

На этой неделе в Мете был очередной лэйофф. В честь этого срочно нужен выживальческий мемотред! #шитпост 

Читать полностью…

Kali Novskaya

🌸Papers with Code жив!🌸
#nlp #nlp_papers #про_nlp

HuggingFace официально воскресили легендарный ресурс — и даже добавили новый функционал!

Теперь наконец-то можно отслеживать
- растущий тренд в направлениях ИИ-исследований
- следить таргетно за статьями в наших любимых отраслях: World Models, Agents, RL, Robotics, и многих других!

Вернулись вкладки с бенчмарками и метриками по разным отраслям (и их много!) и все статьи тоже новые, интегрированные через HuggingFace papers.

Новая вкладка — методы — доступна со статьями в самых разных доменах. Можно посмотреть все статьи, где используется rlvr, например.

Большой шаг для воспроизводимости в МЛ-рисерче!

🟣https://paperswithcode.co/

Читать полностью…

Kali Novskaya

🌸Пост про то, как справиться с выгоранием🌸

Я не знаю!

Читать полностью…

Kali Novskaya

В OpenAI продолжают распугивать последних невыгоревших рисерчеров в индустрии —расформировали и закрыли направление AI for Science.

Руководитель (вместе с другими) покинули компанию.

🟣3 Executive Departures Shake up OpenAI's Leadership Team - Business Insider
https://www.businessinsider.com/openai-executive-departures-shake-up-leadership-team-2026-4

Читать полностью…

Kali Novskaya

Просто проникнитесь этой иронией моей жизни:

Идейно делаешь ставку на опен сорс, пытаешься постоянно мотивировать важность для науки
@
Успех переменный, в целом еле-еле дают что-то выложить вообще
@
???
@
Капиталистический ресурс venturebeat критикует, что лицензия не достаточно открытая


Ffffuuuu-

Читать полностью…

Kali Novskaya

Внезапно, наши HyperAgents — в капиталистическом ресурсе Venture Beat!
🟣https://venturebeat.com/orchestration/meta-researchers-introduce-hyperagents-to-unlock-self-improving-ai-for-non-coding-tasks

Читать полностью…

Kali Novskaya

🌸Про историю опен-сорса🌸

В субботу в 16.00 по мск буду рассказывать про опен-сорс и эффективные научные коллаборации, приходите!

Лекторий Открытый смысл:
🟣/channel/Open_Sense_Praxis/32

Читать полностью…

Kali Novskaya

🌸Что в итоге:

🟣Новый state-of-the-art: На отметке 24 часа AIRA^2 результирует в среднем лучше 71,8% решений, (у MARS+ — 69,9%).
Устойчивое масштабирование: В отличие от предыдущих агентов, производительность которых достигала плато или снижалась, AIRA^2 продолжал улучшаться, достигнув 76,0% перцентильного ранга через 72 часа.
🟣Kaggle Медали: По окончании 72-часового прогона система достигла доли бронзовых медалей и выше (Bronze+) 61,1%, серебряных и выше (Silver+) — 58,9%, а золотых медалей — 36,7%.
🟣Абляционнные прогоны с ReAct: Сравнение  ReAct со статическими операторами показало, что, хотя разрыв в производительности сокращается при очень длительной работе (поскольку эволюционный цикл в конечном счете находит решения методом проб и ошибок), ReAct обеспечивает значительный прирост на ранних этапах (3–24 часа)

🟣Arxiv: https://arxiv.org/abs/2603.26499
🟣AlphArxiv: https://www.alphaxiv.org/abs/2603.26499
🟣Github: пока нет, но может позже

Читать полностью…

Kali Novskaya

Давайте мемотред, а то уже суббота! #шитпост

Читать полностью…

Kali Novskaya

Воображая будущее: мечтает ли ИИ захватить мир?

Друзья, мы возвращаемся с новым циклом!
Если в прошлый раз речь у нас шла о человеке как объекте преобразования в советский период, то теперь нас будут интересовать технологии и образы будущего.

Ни один разговор о будущем сейчас не проходит без обсуждения искусственного интеллекта. За этим интересом скрываются определённые представления о том, как будет развиваться мир и месте человека в нём. Какие ожидания, страхи и формы воображения стоят за этими обсуждениями — и как они соотносятся с более ранними представлениями о том, зачем нам искусственный интеллект? Насколько технологии, которые мы имеем сегодня, отвечают идеям прошлого — что воплотилось, а что осталось нереализованным?

Уже на этой неделе специалист по методам машинного обучения и популяризатор науки Сергей Марков расскажет о том, как на разных исторических этапах мыслили искусственный интеллект, как менялись представления о его целях и задачах в зависимости от идеологических установок. Исследовательница в области ИИ Татьяна Шаврина обратится к истории больших открытых проектов — от университетских коллабораций до современных языковых моделей — и покажет, как менялись формы коллективной работы и сама идея open-source. Александр Нотченко, специалист по искусственному интеллекту, основатель AI-консалтинга в Лондоне, вместе с Татьяной обсудят, как в условиях развития ИИ трансформировались представления о приватности, безопасности данных и контроле над цифровой средой.

Куратор этого цикла — Татьяна Шаврина, руководитель исследовательских команд в области ИИ, автор языковых моделей llama 3, 4, Bloom, к.ф.н, автор 60+ научных работ по языковым моделям и их оценке

Расписание:

- 4 апреля, 15.00 Сергей Марков «Обещания искусственного интеллекта: от утопии к пессимизму?»
- 11 апреля, 16.00 Татьяна Шаврина «Научный прогресс как коллективный проект: от университетских коллабораций до современных языковых моделей»
- 18 апреля, 16.00 Александр Нотченко, Татьяна Шаврина «Приватность в век ИИ: от личного пространства к контролю через данные»

Лекции пройдут на платформе Zoom онлайн.
Самый удобный способ посетить их все — приобрести абонемент через наш бусти. Записи лекций также будут доступны там.

Средства, вырученные за этот курс, пойдут на нужды проектов, поддерживающих политзаключенных.

Читать полностью…

Kali Novskaya

Безопасно ли это?
Совершенно нет! Но весело
Можно добавлять метрики и бенчмарки AI Safety прямо в multi-task objective, чтобы агент оптимизировался исходя из безопасности тоже.

Пожалуйста, применяйте HyperAgents в своих задачах, расширяйте применимость метода:
🟣 кодинг, наука, human preferences, поиск - все так или иначе должно работать
🟣можно оптимизировать своего собственного агента, начиная как бы не с нуля, а с текущих наработок (с математикой IMO мы так и сделали в эксперименте, и получилось отлично)

🌸Github https://github.com/facebookresearch/HyperAgents

Читать полностью…

Kali Novskaya

Вайб рабочей недели после для рождения примерно такой:

Читать полностью…

Kali Novskaya

Ну и подкаст с AlphArxiv, конечно 🏎

Читать полностью…

Kali Novskaya

🌸APRES: An Agentic Paper Revision and Evaluation System🌸
#nlp #nlp_papers

Может ли процедура рецензирования быть автоматизирована? И как к этому вопросу вообще подойти, чтобы адекватно оценивать идеи и их реализацию?
Применяем агенты на стыке LLM-агентов и наукометрии.

🌸TL;DR
Рецензенты оценивают статьи относительно стандартов науки, устоявшихся годами, но год от года меняющихся.
Можем ли мы, посмотрев на исторические данные, построить систему, которая предсказывает эти стандартны, и непосредственно оценивает по ним, насколько статья будет импактной, важной для сообщества?
В качестве прокси-метрики можно взять количество цитирований другими импактными статьями спустя год после публикации. 
Оценивая статью по предсказанным рубрикам, скоррелированным с будущими цитированиями, мы можем итеративно улучшать уже готовую статью, чтобы в конце концов максимально оптимально донести свою мысль, чтобы статья была полезна.

🌸Общий пайплайн
берем AIDE или другой Tree Search скаффолд, даем ему набор рубрик для старта — у нас это критерии оценки NeurIPS.
Другие компоненты агента: o1 или Gemini 2.5, а также парсер статей

1. Предсказываем рубрики
Генерация рубрик: LLM-агент генерирует или уточняет набор из k элементов рубрики для рецензирования (например, «техническая обоснованность» или «ясность изложения»).
Оценка: Агент-рецензент оценивает статьи в датасете по этим элементам рубрики, присваивая баллы.
Анализ: Модель отрицательной биномиальной регрессии прогнозирует количество цитирований на основе баллов, с измерением качества прогноза через MAE.
Выбор и уточнение: Система выбирает наиболее эффективную рубрику и возвращает её для дальнейшего уточнения.
Этот процесс замкнутой оптимизации продолжается до сходимости, обычно в пределах 25 итераций. По итогу имеет более детальные рубрики, куда более конкретные, чем изначальные от конференции/журнала.

2. Оптимизирует текст статьи
После того как оптимальная рубрика R* найдена, она используется для автоматизированной ревизии статьи:
— Система сначала оценивает исходную статью по найденной рубрике, генерируя как количественные баллы, так и конструктивную обратную связь.
— LLM-агент-редактор предлагает изменения, направленные на повышение баллов статьи по рубрике R*.
Переработанная версия статьи повторно оценивается, и процесс итеративно продолжается до сходимости, при этом все версии отслеживаются, а лучшая версия выбирается для дальнейшего уточнения.


🌸Результаты:
— Mean Averaged Error предсказания цитирований у такого метода примерно на 20% лучше альтернатив, а общий прирост предсказанных цитирований больше, причем основные идеи и результаты статьи не редактируются.
— Метод также снижает разброс оценок статьи среди рецензентов, а сами рубрики легко валидировать.
— Рубрики, полученные методом оптимизации, дают более серьезное улучшение качества статьи, чем использование реальных гайдлайнов рецензирования -- они, как правило, не достаточно подробные, и могут по-разному трактоваться. Сгенерированные подробные рубрики оценки статей задают гораздо более детальные и интересные критерии (см аппендикс статьи)

— В эксперименте с двойным слепым рецензированием с PhD ML рецензенты предпочитали улучшенные версии статей в 79% случаев.
Улучшение в среднем достаточно существенное: может вывести статью из Clear reject в Borderline, из Borderline в Accept -- при условии, что сама идея изначально полезная, и сам текст статьи плохо написан.

— Оценка результатов рецензирования и будущих цитирований -- очень спекулятивная тема.  Мы прекрасно знаем, что большая доля статей на NeurIPS годами получает случайные решения.
Теперь, когда объем статей на историческом максимуме и стресс-тестирует все сообщество, автоматические инструменты просто необходимы. В целом, если все авторы будут использовать что-то подобное, суммарная проблема неконсистентности ревью может частично решиться.

🟣Arxiv https://arxiv.org/abs/2603.03142
🟣AlphArxiv https://www.alphaxiv.org/overview/2603.03142

Читать полностью…

Kali Novskaya

🌸Капитанский мостик #9🌸

Выпуск в честь 8 марта: наговорили с Валентином Малых и Дмитрием Колодезевым:
🟣Подкаст "Капитанский мостик", выпуск 9
https://youtu.be/k0PtQyfxc3o?si=f1gIvyFImXniXVSl

Всех с праздником!

Читать полностью…

Kali Novskaya

🌸Arxiv vs Neurips 2026🌸
#nlp #про_nlp #nlp_papers

Я много пишу про то, что статей, особенно сгенерированных агентами, становится все больше, а рецензентов больше не становится (см тут).
Чтобы решить эту проблему, перейдем ли мы на автоматическое рецензирование?

В этом месяце можно наблюдать, как две основнополагающие структуры в ИИ-сообществе приняли противоположные стратегии относительно ИИ-агентов в исследованиях.

🌸NeurIPS 2026
В этом году я участвую в эксперименте с автоматическим рецензированием!
LLM будут помогать рецензентам оценивать качество статей.
Рецензентам предлагается поучаствовать в контрольных группах для оценки влияния LLM на итоговые решения, причем групп будет три:
— полностью человеческое, экспертное рецензирование
— эксперт + LLM, свободная генерация
— эксперт + LLM, структурированная генерация
🟣https://neurips.cc/Conferences/2026/ai-reviewing-experiment


🌸Arxiv
Администрация Архива, наоборот же, решила не вводить автоматическое рецензирование, а оставить правила как есть, и ввести более строгие правила относительно ИИ-публикаций — статей, очевидно сгенерированных.
Речь идет в основном о следах и артефактах, которые говорят о том, что текст статьи был написан LLM (возможно, вообще без экспериментов).
Теперь все соавторы статьи, отмеченной архивом как сгенерированной, будут получать бан на год.

Твиттер, конечно, негодует. 
🟣https://x.com/tdietterich/status/2055000956144935055

Что думаете?

Читать полностью…

Kali Novskaya

Ладно, раз я начала сегодня платить, то запощу хорошую новость тоже

Читать полностью…

Kali Novskaya

С первым мая!
A garland for May Day
Walter Crane, 1985

Читать полностью…

Kali Novskaya

Пора делать мемотред! #шитпост

Читать полностью…

Kali Novskaya

Критикуют, что лицензия недостаточно открытая!

Читать полностью…

Kali Novskaya

Хорошо все оставить и уехать в Армению! 🥹👌

Читать полностью…

Kali Novskaya

И, конечно, подкастик про статью 🥹

Читать полностью…

Kali Novskaya

🌸AIRA^2: SOTA на MLE-bench🌸

Помните, как вы сами участвовали в Kaggle-сореванованиях? Теперь мы учим агентов делать это лучше нас.

🌸TL;DR
Мы с коллегами выпустили новую работу— SOTA-агента на MLE-bench, основном бенчмарке агентов на ML задачах.
Предлагаемая система достигает 36% золотых медалей в Kaggle соревнованиях за сутки на 1 GPU (MLE-bench-30), и за сутки достигает решения лучше 71.8% остальных. За трое суток — лучше 76% решений.

Статья Overcoming Bottlenecks in AI Research Agents

🌸Основная проблема музыки в россии масштабирования агентов

MLE-bench — это типичный бенчмарк для оценки МЛ-агентов. Агентам предоставлена существенная степень свободы — они могут осуществлять разные эксперименты, учить модели и могли бы даже придумывать новые архитектуры. По факту, большинство решений все равно сводится к перебору гиперпараметров и улучшению существующих решений разными комбинациями лучших практик.
Соответственно, что же мешает агентам?

1. Пропускная способность за заданное время: Многие агенты работают в синхронном, последовательном цикле. Пока агент ожидает завершения ресурсоемкой задачи обучения, механизм рассуждений простаивает. Такая последовательная работа существенно ограничивает количество решений, которые агент может исследовать за определенный промежуток времени (сутки или больше). В исследованиях, где отдельные эксперименты могут занимать часы, последовательный агент может оценивать только 10–20 кандидатов в день, что делает непрактичными стратегии широкого поиска вроде MCTS.

2. Generalization Gap: в рамках поиска гипотез агент проверяет их на валидационном сете, тогда как финальное решение проверяется на тест-сете. Если проверок гипотез становится очень много (несколько сотен в день), то агент оверфитит решение под шум или артефакты оценки, и в конец результат на тесте ухудшается.

3. Ограничения статических операторов: большинство агентов полагаются на фиксированные, одношаговые промпты (операторы), разработанные для конкретных подзадач, таких как «feature engineering» или «поиск гиперпараметров». Эти атомарные операторы не способны выполнять многошаговый ризонинг, итеративную отладку или динамическую адаптацию задач.

🌸Как решить проблему?

Несколько решений, которые мы предлагаем:
1) Оркестратор следит за объемом доступных ресурсов, текущими результатами и популяциями разных идей. Как только ресурсы освобождаются, оркестратор их распределеяет, исходя из нормированных метрик прироста перформанса. 

2) Чтобы улучшить выбор кандидатов, вводим протокол Hidden Consistent Evaluation. Делим все данные задачи на 3 стратифицированные части (train, search, val), и оцениваем новые решения на части search. При этом даем увидеть результат оркестратору, а не самому агенту. Таким образом мы исключаем ситуацию, когда агент сам репортит свой результат и оверфитит эксперименты. 

3) Асинхронный параллелизм: Внедряем асинхронные воркеры и отделяем процесс рассуждения от среды исполнения. Каждый воркер в пуле привязан к выделенному GPU, CPU и оперативной памяти.  Пока один воркер выполняет 4-часовой прогон обучения, другие могут продолжать генерацию и оценку новых мутаций. Среда воркера является контекстно-зависимой (stateful) и включает Python и Bash. Агент может изучить набор данных, запустить короткий скрипт обучения, проверить логи и затем доработать код — и все это до отправки финального варианта оркестратору.

4) Внутри нод убираем статичные операторы и заменяем все на ReAct, чтобы был multi-step reasoning, лучше дебаггинг.

Читать полностью…

Kali Novskaya

#шитпост
Почему карта распространения праиндаевропейского языка так похожа на карту иммиграции айтишников после 2022

Читать полностью…

Kali Novskaya

Делаем три благотворительные лекции на тему истории ИИ, приватности данных и опен сорса в Открытом Смысле. Приходите!

Читать полностью…

Kali Novskaya

🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸
#nlp #nlp_papers

Что будет, если дать агентам полную свободу модифицировать самих себя?
Наконец-то выпускаю долгожданную статью, где я побыла уже не соавтором, а научным руководителем.
Вместе с Jenny Zhang, автором Darwin Gödel Machine , выпускаем HyperAgents — open-ended self-improvement для агентов, на многих задачах сразу

🌸TL;DR
HyperAgents — это пример системы, где агент улучшает самого себя итеративно, от промптов до кода.
При этом, в отличие от Darwin Gödel Machine, мы пошли дальше и сделали multi-task objective:
— агент должен улучшать сам себя из поколения в поколение, и делать это одновременно на многих задачах сразу.

Улучшения возможны в обеих группах доменов:
— verifiable rewards: кодинг (Polyglot), математика (IMO), симуляции в робототехнике (Genesis)
— unverifiable rewards: рецензирование статей (Apres)

🌸Пайплайн

Как и в первой версии DGM, агент вносит модификацию — и затем оценивает ее успешность на основе результатов: в данном случае на бенчмарках, тестах и тд.
Модификации образуют граф версий, который можно контролировать в git.

В системе всегда работает цепочка из двух агентов: есть мета-агент и агент, который выполняет задачи.
Мета-агент опирается на результаты выполнения задач и вносит изменения и в себя, и в агента-работника одновременно.

Гиперагентов можно использовать с разными моделями: Claude-4.5-sonnet, O4-mini, GPT-4o

🌸Почему это работает: Абляционные исследования

Как должна выглядеть оптимальная система агента, чтобы поощрять открыты  поиск новых модификаций?
Как правило, в предыдущих работах, если агенту и позволяется что-то модицифировать, то только в определнных рамках и заданных примитивах.
Мы проверили, что будет, если этого избежать: результирующая система — Гиперагенты — оптимизирована под более быстрый поиск новых модификаций — и in-context обучение более эффективному самооулучшению.
Модель в рамках итераций (их может быть хоть 200) начинает лучше понимать, какие изменения стоит вносить.  
Итак, что мы сравниваем:
— HyperAgents (DGM-H): метаагент улучшает сам себя и агента-работника в многозадачной среде
— HyperAgents без самомодификации: метаагент улучшает только агента работника в многозадачной среде, себя оставляет как есть
— HyperAgents без архива предыдущих решений и их результатов: метаагент вносит улвчшения в себя и агента-работника, не опираясь на предыдущие результаты
— Классика, DGM: метаагент изолированно улучшает агента-работника, на всех задачах и кастомно по одной задаче. 

🟣HyperAgents (DGM-H) демонстрирует более динамичный рост общего перформанса на всех задачах — плюс, улучшения, полученные таким способам на одних доменах, переносятся в улучшения на других.

🌸Учимся самоулучшаться

Мы вводим новую метрику, чтобы определить способность мета-агента вносит успешные улучшения: imp@50 (по аналогии с pass@50)
🟣Именно в рамках итеративного процесса самоулучшения у мета-агента в конце эксперимента существенно вырастает imp@50 в сравнении со стартовым состоянием (0 --> 0.63).
🟣Агент обрастает тулзами для поддержания памяти, трекинга изменений, отслеживания тенденций в результатах.


🟣Arxiv https://arxiv.org/abs/2603.19461
🟣Github https://github.com/facebookresearch/HyperAgents
🟣HF papers: https://huggingface.co/papers/2603.19461
🟣AlphArxiv https://www.alphaxiv.org/abs/2603.19461

Читать полностью…

Kali Novskaya

🌸Быть всем довольным, но не подать виду🌸
#не_про_nlp

Сегодня у меня день рождения!
Вместо подведения итогов пойду гулять по Лондону.
Солнышко светит, а я последний месяц только смотрела в монитор на работе и в монитор дома.

На неделе будут разборы и новые статьи 👌
Спасибо, что вы со мной!

Читать полностью…

Kali Novskaya

Вообще в целом вопросы, которые по итогу сформулировал агент, можно регулярно задавать себе, когда выбираешь тему для исследования/курсовой/проекта:

"problem_scope": "Is the scope appropriately scoped-not too broad to be intractable, nor too narrow to be trivial ?",
"motivation": "Is there a compelling justification for why this problem needs to be solved?",
" scalability ": "Is the proposed idea or method scalable to more complex, real-world scenarios?",
"memorable_takeaway": "Is there a clear, impactful, and memorable ’take-home message’?",
"interdisciplinary_appeal ": "Does the work have the potential to influence or be
adopted by other fields ?",
"opens_new_directions": "Does the work open up entirely new avenues of research?"

Читать полностью…

Kali Novskaya

Залью пока сюда новую статью, которая на самом деле не новая, а висела полгодика на OpenReview.🤵

Читать полностью…

Kali Novskaya

Пятничный мемотред в честь того, что эта неделя заканчивается #шитпост

Читать полностью…
Subscribe to a channel