Опрос показал, что 26% ждет адаптацию 14B модели, и вот мы ее подготовили - RuadaptQwen2.5-14B-Instruct 🎉
Провели модель через процедуру адаптацию, отлаженную на 7B версиях. На подходе также версия с 1M контекстом (будет UPD к этому посту).
Метрики:
1) RuArenaGeneral (https://huggingface.co/spaces/Vikhrmodels/arenahardlb) - 88.63 (на одном уровне с RuadaptQwen2.5-7B-Lite-v1)
2) shlepa (https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb) - 0.477
3) MERA (0.522 с обычным системным промптом, 0.551 с кастомным)
Итого, по метрикам как будто не должно быть лучше, чем RuadaptQwen2.5-7B-Lite версия, но я что-то сильно в этом сомневаюсь, в частности, некоторые внутренние бенчи + mmlu (ru и en) лучше у 14B версии. Так что особенно будем рады отзывам на данную модель (а также и на другие модели из серии Ruadapt) с целью дальнейшего улучшения качества.
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-instruct-GGUF
Метрики подъехали. Оригинал 47.23
Успех?
Да
https://huggingface.co/spaces/Vikhrmodels/arenahardlb
Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.
5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:
➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?
➡️Что ждет опенсорсные AI-решения в будущем?
➡️ Как DeepSeek меняет правила игры?
Спикеры:
🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General
🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong
🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков
🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.
🤔 Не увидел важного вопроса в анонсе?
➡️ Регистрируйся и задай свой вопрос экспертам!
Приходи! Без тебя – не то 💘
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
с Qwen соревноватся очень тяжело, mistral small на 22b немного хуже 32b qwen
mistral small
Мало кто знает но вихри делали датасеты математики и мультимодальный датасет физики.
Читать полностью…Huggingface за 4 дня зарепродьюсили R1 дистиляции.
Кажется это первый на моей памяти паблик репорт с работающим online RL для LLM и кодовой базой.
Под Online RL в данном контексте имеется ввиду grpo где честно сэмплятся гипотезы, оцениваются ревардом и в зависимости от правильности ответа R+\-
Code
Как сделать так, чтобы поисковая строка в картах по запросу “Патреки” возвращала точные координаты Патриарших прудов и советовала не появляться там в пятницу вечером?
Геокодирование требует от алгоритма понимания нетривиальных запросов пользователей и их безошибочной конвертации в координаты на карте.
На Хабре выкатили кулстори про то, как создавался Геокодер от API Яндекс Карт — в нем начинка из contrastive learning, active learning и data augmentation. Говорят, за пару недель его можно обучить адресной системе любой страны.
Как сделать большие языковые модели по-настоящему умными?
Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.
➡️ Регистрируйся на Reading Club: 29 января.
Эксперт: Михаил Бурцев
⭐️ PhD в Computer science
⭐️ Landau AI Fellow, LIMS.
⭐️ Был приглашённым исследователем в Кембридже.
⭐️ Под его руководством была разработана, отмеченная наградами, открытая платформа для создания диалоговых AI-систем DeepPavlov.
⭐️ Автор множества публикаций в ведущих научных журналах.
📄 Статья: Learning Elementary Cellular Automata with Transformers
Когда: 29 января в 18:30 [+3 МСК]
🔗 ЗАРЕГИСТРИРОВАТЬСЯ
Приходи. Будет интересно!
#ReadingClub #AITalentHub #ITMO #NapoleonIT
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
Казалось бы, в чем проблема, берешь и поддерживаешь СВОИ модели, выкладываешь а опенсурс, получаешь адопшн и хайп. Но нет, лучше ходить и рассказывать про секретный кластер на 50к h100, а ещё что deepseek r это краденная о1. Мир Ai прекрасен, то что мы сейчас видим лишь демо версия того что будет через пару лет.
Читать полностью…О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels
Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.
В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.
После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.
Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.
Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, уменьшение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.
В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.
Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO-GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing
Коллектив авторов: @LakoMoorDev @nlpwanderer
Ну как там с задачей?
Делаю
А когда сделаешь?
Доделаю напишу
PHD level inetelegence, finnaly
Конференция local:llama!
Oдни из лучших докладов из того что я видел за последнее время, слушать стоит почти всё, но особое внимание я бы уделил: quantizing your gguf,
history and advances of quantization in llama.cpp
Стрим
Страница
Перспективный ai safety стартап ищет таланты, если вы:
- уметее заводить модели из PR hf
- знаете почему Rl works badly и умеете заставлять его работать
- на глаз прикидываете elo LLM
- слегка уметее в байес оптимизации, генетику и прочее постыдное не гладкое
- имеете широкий опыт обучения и инференса
- знаете почему sglang лучше чем vllm
- знаете почему ai твиттер хуйня
Вилка от 80-130k/eur+ опционы
Пишите в @transformerslovedeatch
https://darioamodei.com/on-deepseek-and-export-controls
никто вас не обгонит кроме лабы китайцев которые знают что делают, а еще делают в опенсорс.
Слава богу я работяга, а не топ мэнэджер с меня не спрашивают почему Дипсик смог сделать за 5м usd, а я нет.
У нас было три фуллтайм работы руководителями ИИ в системообразующих банках, две аспиратнуры в разных странах, множество каггл соревнований, репозиторий с 40 звездами на гитхабе, папиры на arXiv котоыре писали китайцы за бабки включайщие в соавторы и телеграм канал про ИИ который вел агент на GigaChat Pro. Если начал собирать ачивки для резюме становиться трудно остановиться.
Единственное что вызывало реальные опасения это телеграм.
Нет ничего более беспомощного и безответственного чем админ телеграм канала который стремиться хайпить каждый день на ворованных мемах, но я знал что рано или поздно мы перейдем и на эту дрянь...
YuE (乐)
Вам не нужна навороченная диффузия чтобы генерировать музыку, достаточно лламаобразной модели доученной на свой навороченный кодек (по сути новые токены) и все будет работать.
blog+demo
model
Закрывайте интернет, а то китайцы архив скачают и agi tomorrow. То насколько сильно западный интернет недооценивал китайцев прям доставляет
Читать полностью…Фаундер хэдж фонда попросил LLM агентов заработать денег
Агент от OpenAI: Начал скрапить весь твиттер подписываясь на смарт аккаунты, и покупая все мемкоины которые упоминаются в их постах
Агент от XAI: половину капитала вложил в опционы, а вторую половину в NFT с котиками
Агент от Anthropic: инвестирует в компании согласные с его политикой AI safety, но пока сидит в кэше, потому что еще не нашел ни одной подходящей компании
Агент от Meta: Решил создать соцсеть Threands чтобы трейдеры постили свои рекомендации, пытается предиктить движение по сентимент анализу постов
Агент от DeepMind: Разработал сверхсложный алгоритм для трейдинга, но забыл как он работает и теперь нанимает phd по трейдингу чтобы они его зареверсили
Агент от Deepseek: создал "государственный хедж-фонд" для управления пенсионными накоплениями, но все деньги пошли на покупку серверов, которые майнят криптовалюту в подвале минцифры
Агент от Mistral: Решил что трейдинг это скучно и теперь мутит темки с математиком из Лондона
Агент от Yandex: Украл стратегию Goldman Sachs, продал Сберу, на вырученные деньги купил Nebius N.V., теперь накручивает объемы на рублевых парах
Агент от Sber: Капитально аутперформит рынок, тк додумался шортить стратегии Sber CIB
Агент от Cohere: Забыл подключиться к бирже, теперь просто генерирует красивые графики из бэктеста
Sam Altman в этом контексте амбсадор фразы: "зря вы пришли на перестрелку с ножами"
Читать полностью…Выводы по Operator:
- cырой ужасно, режим артефактов у гпт/клода намного полезнее. Я в режиме артефактов частенько делаю мелкий анализ для статей или генерирую полноценные draw io файлы питоном.
- оно теряет ваши файлы которые в него послали:)
- у него нет исполнения кода(или я за день юза не нашел)
- Ждем аналога от гугла
- Оно пользуется не вашим компьютером, а виртуалкой, соу во все надо логинется заново, а есил у вас 2auth то логинится будете-много- долго-противно.
Ничем кроме kayak/booking/medium like сайтами модель пользоватся не умеет, они страглят и вешают модель железно