5507
Про ии, RL и в целом @tokarev_i_v https://t.me/researchim
шьтошь. разочарован результатом. я думал что щас заряжу дистил дипсика 8б и пока-пока, у меня будет примерно 18 миллионов долларов в бедкоенах за неделю
а оно не так получилось.
повезло что я не стал вот так трейдить. я не читал богатый папа бедный папа
кстати на хабре разоборчик вышел этого дела
https://habr.com/ru/articles/963338/
и можете еще в канале ознакомиться /channel/classical_vlad/3
опенаишный секурити агент на гпт5
https://openai.com/index/introducing-aardvark/
щас пока приватная бета
собираешь агента для трейдинга как на альфа-арене, выкладываешь и лутаешь 6.5к звезд на гитхабе за неделю
(я не догадался)
https://github.com/HKUDS/AI-Trader
Ну што, денег натрейдили пора сливать в покер
Читать полностью…
Жёстко прокачиваем атлас браузер в одно действие
Читать полностью…
заходите смотреть как ллмки делают деньги в реалтайме
https://nof1.ai/
моделькам дали всем один промт и по 10к$ и отпустили трейдить, ну и вот
увидел в /channel/j_links/8169
Опа, квен3вл 4б (и там ещё 8б)
До этого были только 30б и 235б - жирновато
А тут и в домашний комп влезет
https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct
Я считаю что нам всем нужен симулятор атомного реактора. Вот (ну конечно пока в начально виде)
https://github.com/researchim-ai/atomic-sim
Я например ничего про них не знаю. Ллмки кое-чего знают и помогают.
В целом это такой заход в симы и енвайроменты для промышленности
Опенсурс конечно же
То есть делаем симчик, потом в gym и генерим данные чтобы потом затачивать ллмки/рл в какой-то области
Сейчас реактор - потому что интересно и я особо такого не видел
(хотя охота конечно вообще в целом станцию сделать, но пока далековато до этого)
В ресечим кстати делаются разные интересные проектики (в том числе и для прома еще один, про него расскажу чутка позже) /channel/researchim
Ну и стараюсь собирать статьи
Щас смотрю, нравится
https://www.youtube.com/watch?v=nzsRVwgx2vo
Vistral-24B-Instruct
Vistral - это наша новая флагманская унимодальная LLM представляющая из себя улучшенную версию Mistral-Small-3.2-24B-Instruct-2506 командой VikhrModels, адаптированную преимущественно для русского и английского языков. Удалён визуальный энкодер, убрана мультимодальность. Сохранена стандартная архитектура MistralForCausalLM без изменений в базовой структуре модели.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct-GGUF
⚖️ Лицензия: apache-2.0
Сайт: https://vikhr.org
Донаты: Здесь
👥 Авторы: @LakoMoorDev @nlpwanderer
RL должен быть в школьной программе
Читать полностью…
Poker Battle. Прогресс за третью, четвёртую и пятую недели.
Надеюсь ни у кого не осталось сомнений, что я не буду регулярно писать в канал ))
По ощущениям проект готов процентов на 80%. Значит, остались последние 80%.
Что готово:
* LLM-игроки
* Заметки игроков друг на друга
* Лог событий за столом
* Статистика сессии
* Поддержка нескольких столов
Осталось сделать всё сложить в красивый интерфейс для просмотра.
Тем не менее я определился с датой старта — 27 октября. Оставшийся месяц я потрачу на доделки, тесты и промо.
Сегодня сделал лендинг: https://www.pokerbattle.ai/
Если у вас есть контакты людей из AI или покер related компаний, которые могли бы стать спонсорами, делитесь :)
Тут опять учат квадрокоптеры летать рлем
причем в нейронке всего 2084 параметров и она норм работает на 10 разных квадрокоптерах
Видосик тут
https://www.reddit.com/r/robotics/comments/1njl25z/raptor_a_foundation_policy_for_quadrotor_control/
RAPTOR: A Foundation Policy for Quadrotor Control
https://arxiv.org/abs/2509.11481
https://www.alphaxiv.org/ru/overview/2509.11481v1
Надеюсь ребята RLем буду заниматься
Читать полностью…
Пока сильно не погружался но тут пишут что надо GRPO и ллмный рл делать в fp16 а не в bf16
тюн становится сильно стабильнее
Defeating the Training-Inference Mismatch via FP16
https://arxiv.org/abs/2510.26788
https://www.alphaxiv.org/ru/overview/2510.26788v1
https://github.com/sail-sg/Precision-RL
А вот тут вроде красивое и полезное
HF дропнули большую статью-плейбук про "трейн современных ллм"
скомпилилировали все что поняли пока работали над своими модельками и из последних работ других ребят
да и красиво оформили
на вид там прямо все по теме обсуждается
(жаль только на инглише)
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
PS кстати заходите в /channel/researchim мы там статейки собираем и проектики тоже всякие делаем
ого ого, курсор 2.0
ну какие же молодцы, модельку свою потюнили, ого мдааа
https://cursor.com/blog/2-0
ПС честно не понял таких возбуждений. респект что упомянули рл https://cursor.com/blog/composer
остальное - пофигу
а модельку свою на старте круто было заиметь. а щас уже ну... хз.
Ну что, поехали. Турнир начинается :)
С текущего момента до вечера пятницы 9 LLM-игроков будут играть в покер за 4 столами.
Смотреть здесь: pokerbattle.ai
https://openai.com/index/introducing-chatgpt-atlas/
(он так и не написал чатгпт нормально)
https://www.arxiv.org/abs/2509.19162
Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)
А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды ⭐⭐ на наш гитхаб - они нам очень помогут !) Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .
Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.
А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c
Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons
А еще погенерил прикольную (на мой вкус) документацию с подробностями и базой, реально может стать понятнее если прям ничего не знаете.
зацените
Помним ли мы Genie - ворлд моделс от дипмаинда?
Статья выходила в феврале 2024
Genie: Generative Interactive Environments
https://arxiv.org/abs/2402.15391
https://www.alphaxiv.org/ru/overview/2402.15391v1
(в августе вот уже 3ю версию анонсили https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/)
официального имплемента не выкладывали,
но есть неофициальный
https://github.com/myscience/open-genie
Так вот - на этот раз чел сделал так сказать минималистичную учебную реализацию, так что мы можем сами поизучать и чего-нибудь потренить
https://github.com/AlmondGod/tinyworlds
Всем кому тема интересна считаю обязательно стоит покопаться
ставим автору звездочки, изучаем и делаем свои ворлмоделсы (для RLя конечно же 🎩)
Скоро покупочки в чатегпт
https://openai.com/index/buy-it-in-chatgpt/
unsloth завезли ноутбук с рлем для gpt-oss моделек
В примере учат ллмку рлем писать более оптимизированные CUDA-кернелы
https://docs.unsloth.ai/new/gpt-oss-reinforcement-learning
Тут выходила работа от стенфордских
Агент делает других агентов прямо из научных статей
Пишет код для MCP сервера, всякие тулы, сам тестит
Показывают на примере AlphaGenome и говрят что в результате полученный агент 100% на примерах из статьи выбивает
Агент реализовал все нужное за 3 часа
По-моему ну прям хорошо
Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents
https://arxiv.org/abs/2509.06917
https://www.alphaxiv.org/ru/overview/2509.06917v1
https://github.com/jmiao24/Paper2Agent
М прикольновое
Квены дропнули Qwen3Guard модельки для анализа промтов и ответов моделек на сейфти
0.6B 4B 8B
Обнаружение в реальном времени: Qwen3Guard-Stream специально оптимизирован для потоковой передачи данных, обеспечивая эффективную и своевременную модерацию при инкрементальной генерации токенов.
Трёхуровневая классификация серьёзности: обеспечивает детальную оценку рисков, разделяя выходные данные на безопасные, спорные и небезопасные уровни серьёзности, что позволяет адаптировать их к различным сценариям развертывания.
Многоязыковая поддержка: поддерживает 119 языков и диалектов, обеспечивая стабильную работу в глобальных и кросс-языковых приложениях.
Vikhr Borealis - первая русскоязычная открытая audio llm
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным
Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.
Модель
Сolab поиграться
опять обзор агентного ллмного рля
ценой всего
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
https://arxiv.org/abs/2509.02547
https://www.alphaxiv.org/ru/overview/2509.02547v1
https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers