agi_and_rl | Unsorted

Telegram-канал agi_and_rl - Агенты ИИ | AGI_and_RL

5507

Про ии, RL и в целом @tokarev_i_v https://t.me/researchim

Subscribe to a channel

Агенты ИИ | AGI_and_RL

шьтошь. разочарован результатом. я думал что щас заряжу дистил дипсика 8б и пока-пока, у меня будет примерно 18 миллионов долларов в бедкоенах за неделю
а оно не так получилось.
повезло что я не стал вот так трейдить. я не читал богатый папа бедный папа

кстати на хабре разоборчик вышел этого дела
https://habr.com/ru/articles/963338/

и можете еще в канале ознакомиться /channel/classical_vlad/3

Читать полностью…

Агенты ИИ | AGI_and_RL

опенаишный секурити агент на гпт5

https://openai.com/index/introducing-aardvark/

щас пока приватная бета

Читать полностью…

Агенты ИИ | AGI_and_RL

собираешь агента для трейдинга как на альфа-арене, выкладываешь и лутаешь 6.5к звезд на гитхабе за неделю
(я не догадался)

https://github.com/HKUDS/AI-Trader

Читать полностью…

Агенты ИИ | AGI_and_RL

Ну што, денег натрейдили пора сливать в покер

Читать полностью…

Агенты ИИ | AGI_and_RL

Жёстко прокачиваем атлас браузер в одно действие

Читать полностью…

Агенты ИИ | AGI_and_RL

заходите смотреть как ллмки делают деньги в реалтайме
https://nof1.ai/

моделькам дали всем один промт и по 10к$ и отпустили трейдить, ну и вот

увидел в /channel/j_links/8169

Читать полностью…

Агенты ИИ | AGI_and_RL

Опа, квен3вл 4б (и там ещё 8б)
До этого были только 30б и 235б - жирновато

А тут и в домашний комп влезет

https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct

Читать полностью…

Агенты ИИ | AGI_and_RL

Я считаю что нам всем нужен симулятор атомного реактора. Вот (ну конечно пока в начально виде)

https://github.com/researchim-ai/atomic-sim

Я например ничего про них не знаю. Ллмки кое-чего знают и помогают.

В целом это такой заход в симы и енвайроменты для промышленности
Опенсурс конечно же

То есть делаем симчик, потом в gym и генерим данные чтобы потом затачивать ллмки/рл в какой-то области

Сейчас реактор - потому что интересно и я особо такого не видел

(хотя охота конечно вообще в целом станцию сделать, но пока далековато до этого)

В ресечим кстати делаются разные интересные проектики (в том числе и для прома еще один, про него расскажу чутка позже) /channel/researchim
Ну и стараюсь собирать статьи

Читать полностью…

Агенты ИИ | AGI_and_RL

Щас смотрю, нравится
https://www.youtube.com/watch?v=nzsRVwgx2vo

Читать полностью…

Агенты ИИ | AGI_and_RL

Vistral-24B-Instruct

Vistral - это наша новая флагманская унимодальная LLM представляющая из себя улучшенную версию Mistral-Small-3.2-24B-Instruct-2506 командой VikhrModels, адаптированную преимущественно для русского и английского языков. Удалён визуальный энкодер, убрана мультимодальность. Сохранена стандартная архитектура MistralForCausalLM без изменений в базовой структуре модели.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct-GGUF
⚖️ Лицензия: apache-2.0

Сайт: https://vikhr.org
Донаты: Здесь

👥 Авторы: @LakoMoorDev @nlpwanderer

Читать полностью…

Агенты ИИ | AGI_and_RL

RL должен быть в школьной программе

Читать полностью…

Агенты ИИ | AGI_and_RL

Poker Battle. Прогресс за третью, четвёртую и пятую недели.

Надеюсь ни у кого не осталось сомнений, что я не буду регулярно писать в канал ))

По ощущениям проект готов процентов на 80%. Значит, остались последние 80%.

Что готово:
* LLM-игроки
* Заметки игроков друг на друга
* Лог событий за столом
* Статистика сессии
* Поддержка нескольких столов

Осталось сделать всё сложить в красивый интерфейс для просмотра.

Тем не менее я определился с датой старта — 27 октября. Оставшийся месяц я потрачу на доделки, тесты и промо.

Сегодня сделал лендинг: https://www.pokerbattle.ai/

Если у вас есть контакты людей из AI или покер related компаний, которые могли бы стать спонсорами, делитесь :)

Читать полностью…

Агенты ИИ | AGI_and_RL

Тут опять учат квадрокоптеры летать рлем
причем в нейронке всего 2084 параметров и она норм работает на 10 разных квадрокоптерах

Видосик тут
https://www.reddit.com/r/robotics/comments/1njl25z/raptor_a_foundation_policy_for_quadrotor_control/

RAPTOR: A Foundation Policy for Quadrotor Control
https://arxiv.org/abs/2509.11481
https://www.alphaxiv.org/ru/overview/2509.11481v1

Читать полностью…

Агенты ИИ | AGI_and_RL

Надеюсь ребята RLем буду заниматься

Читать полностью…

Агенты ИИ | AGI_and_RL

https://spbu.ru/news-events/novosti/studenty-spbgu-stali-pobeditelyami-mezhdunarodnogo-chempionata-po

Читать полностью…

Агенты ИИ | AGI_and_RL

Пока сильно не погружался но тут пишут что надо GRPO и ллмный рл делать в fp16 а не в bf16
тюн становится сильно стабильнее

Defeating the Training-Inference Mismatch via FP16
https://arxiv.org/abs/2510.26788
https://www.alphaxiv.org/ru/overview/2510.26788v1

https://github.com/sail-sg/Precision-RL

Читать полностью…

Агенты ИИ | AGI_and_RL

А вот тут вроде красивое и полезное
HF дропнули большую статью-плейбук про "трейн современных ллм"

скомпилилировали все что поняли пока работали над своими модельками и из последних работ других ребят
да и красиво оформили

на вид там прямо все по теме обсуждается

(жаль только на инглише)

https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook

PS кстати заходите в /channel/researchim мы там статейки собираем и проектики тоже всякие делаем

Читать полностью…

Агенты ИИ | AGI_and_RL

ого ого, курсор 2.0
ну какие же молодцы, модельку свою потюнили, ого мдааа
https://cursor.com/blog/2-0

ПС честно не понял таких возбуждений. респект что упомянули рл https://cursor.com/blog/composer
остальное - пофигу
а модельку свою на старте круто было заиметь. а щас уже ну... хз.

Читать полностью…

Агенты ИИ | AGI_and_RL

Ну что, поехали. Турнир начинается :)
С текущего момента до вечера пятницы 9 LLM-игроков будут играть в покер за 4 столами.

Смотреть здесь: pokerbattle.ai

Читать полностью…

Агенты ИИ | AGI_and_RL

https://openai.com/index/introducing-chatgpt-atlas/

(он так и не написал чатгпт нормально)

Читать полностью…

Агенты ИИ | AGI_and_RL

https://www.arxiv.org/abs/2509.19162

Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)

А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды ⭐⭐ на наш гитхаб - они нам очень помогут !) Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .

Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.

А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c

Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons

Читать полностью…

Агенты ИИ | AGI_and_RL

А еще погенерил прикольную (на мой вкус) документацию с подробностями и базой, реально может стать понятнее если прям ничего не знаете.
зацените

Читать полностью…

Агенты ИИ | AGI_and_RL

Помним ли мы Genie - ворлд моделс от дипмаинда?
Статья выходила в феврале 2024

Genie: Generative Interactive Environments
https://arxiv.org/abs/2402.15391
https://www.alphaxiv.org/ru/overview/2402.15391v1

(в августе вот уже 3ю версию анонсили https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/)

официального имплемента не выкладывали,
но есть неофициальный
https://github.com/myscience/open-genie

Так вот - на этот раз чел сделал так сказать минималистичную учебную реализацию, так что мы можем сами поизучать и чего-нибудь потренить

https://github.com/AlmondGod/tinyworlds

Всем кому тема интересна считаю обязательно стоит покопаться

ставим автору звездочки, изучаем и делаем свои ворлмоделсы (для RLя конечно же 🎩)

Читать полностью…

Агенты ИИ | AGI_and_RL

Скоро покупочки в чатегпт
https://openai.com/index/buy-it-in-chatgpt/

Читать полностью…

Агенты ИИ | AGI_and_RL

unsloth завезли ноутбук с рлем для gpt-oss моделек
В примере учат ллмку рлем писать более оптимизированные CUDA-кернелы

https://docs.unsloth.ai/new/gpt-oss-reinforcement-learning

Читать полностью…

Агенты ИИ | AGI_and_RL

Тут выходила работа от стенфордских

Агент делает других агентов прямо из научных статей

Пишет код для MCP сервера, всякие тулы, сам тестит

Показывают на примере AlphaGenome и говрят что в результате полученный агент 100% на примерах из статьи выбивает
Агент реализовал все нужное за 3 часа

По-моему ну прям хорошо

Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents
https://arxiv.org/abs/2509.06917
https://www.alphaxiv.org/ru/overview/2509.06917v1

https://github.com/jmiao24/Paper2Agent

Читать полностью…

Агенты ИИ | AGI_and_RL

М прикольновое

Квены дропнули Qwen3Guard модельки для анализа промтов и ответов моделек на сейфти

0.6B 4B 8B

Обнаружение в реальном времени: Qwen3Guard-Stream специально оптимизирован для потоковой передачи данных, обеспечивая эффективную и своевременную модерацию при инкрементальной генерации токенов.

Трёхуровневая классификация серьёзности: обеспечивает детальную оценку рисков, разделяя выходные данные на безопасные, спорные и небезопасные уровни серьёзности, что позволяет адаптировать их к различным сценариям развертывания.

Многоязыковая поддержка: поддерживает 119 языков и диалектов, обеспечивая стабильную работу в глобальных и кросс-языковых приложениях.

https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list

https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1

https://github.com/QwenLM/Qwen3Guard

Читать полностью…

Агенты ИИ | AGI_and_RL

Vikhr Borealis - первая русскоязычная открытая audio llm

Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?

Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным

Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.

Модель
Сolab поиграться

Читать полностью…

Агенты ИИ | AGI_and_RL

Поздравляем) 🥳

Читать полностью…

Агенты ИИ | AGI_and_RL

опять обзор агентного ллмного рля
ценой всего

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
https://arxiv.org/abs/2509.02547
https://www.alphaxiv.org/ru/overview/2509.02547v1

https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

Читать полностью…
Subscribe to a channel