Telegram-канал rybolos_channel - Kali Novskaya: Unsorted

Kali Novskaya

25 November 2025 16:16

Всегда слежу, чтобы статья загрузилась на alpharxiv: там теперь генерируется приятный короткий подкаст по статье:

Kali Novskaya

20 November 2025 14:02

🌸GigaChat 3: собственная OSS модель для русского языка 🌸
#nlp #про_nlp

Сбер выложил самую большую LLM для русского языка из когда-то созданных -- в опен сорс, под MIT. Модель MoE на 702B миллиарда параметров. Очень уважаемо!
Предыдущий рекорд был, пожалуй, у Яндекса с YaLM 100B (3 года назад).

Вся линейка:
🟣GigaChat3-702B-A36B-preview -- Instruct-модель, самая большая для русского языка. 702 млрд параметров, 36 млрд активных. Число экспертов пока не описано.
🟣GigaChat3-10B-A1.8B -- Instruct-модель, легкая версия, для более быстрого инференса.
🟣GigaChat3-10B-A1.8B-base -- претрейн чекпоинт легкой версии, для файнтюнинга.

Все модели MoE, с Multi-head Latent Attention и Multi-Token Prediction.

В предобучение также включены языки СНГ, китайский, арабский, и интересный параграф про данные:
Ключевой вклад в качество внесла синтетика: мы сгенерировали около 5,5 триллионов токенов синтетических данных. В корпус входят вопросы-ответы к текстам, цепочки reverse-prompt для структурирования данных, LLM-заметки с комментариями от модели внутри текстов, миллионы синтетических задач с решениями по математике и олимпиадному программированию (с синтетическими тестами) на основе PromptCot.

На MMLU_RU и русскоязычных бенчмарках вроде MERA модель явно лучше предыдущих версий и Qwen3.
LiveCodeBench, MATH_500, GPQA отстают в сравнении с тем же Qwen, но в целом в модели, организованной вокруг улучшения русского языка, это не важно.
Ждем технический отчет. Хочется, конечно, и других сравнений с русскоязычными моделями, но сам вклад в опенсорс невозможно переоценить.

🌸Почему это важно:
Теперь все, кто хочет тюнить русскоязычные модели, могут перестать тюнить Qwen! (Привет Т-Банк)
Претрейн чекпоинтов самой большой модели нет, но в целом никто не запрещает взять Instruct чекпоинт и начать делать посттренинг со своими датамиксами прямо сверху.
Очень интересно увидеть дальнейшее освоение модели сообществом!

🟣HuggingFace https://huggingface.co/collections/ai-sage/gigachat3
🟣Github https://github.com/salute-developers/gigachat3