❤️☠️🤗 идейная миграция небытия
Ща будем прочищать всех кто не в курсе что все модели с гпт3.5 и выше с этим справляются по причине: отсутствие элементарной экспертизы в области
Читать полностью…пока вк хантит пусек с 3лет опыта на джуна, зумеры в 17 идут на Lead_a
Читать полностью…никогда не спрашивайте зачем учить модели на ризонинг без онлайн RL этапа
Читать полностью…30 мин до Open Talks Special – раскрываем карты!
🦇 Наш секретный гость:
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].
Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.
✏️ Оставляй вопросы в комментариях к этому посту!
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Внезапная филлер арка моей жизни о которой никто не просил: я недавно делал фотосессию и одну из фотографий приняли в какой-то крутой журнал для арт-фотографов, так что я теперь официально модель 💅💅💅
Надо будет это фото в Google Scholar поставить
Подстраховываюсь от сингулярности как могу
Выводы по DeepResearch:
1) Это третий за пол года довольно сырой релиз OAI, как будто ему бы еще пару месяцев покрутится, досадные баги с "щаща вернусь" прям расстраивают. Его почему то нет в эпке на мак, а хотелось бы.
2) Полагаю что сырость связана с тем что Operator и DeepSearch это две приниципиально разные концепции взаимодейсвтия с интернетом. Да, Operator перспективнее потому что может управлять вообще любым UI(хоть фотошоп, хоть в доте персонажа качать). Но текущие модели ограниченные, поэтому DeepSearch ощущается сильно полезнее - какого то гениального ресерча он не напишет, но накидать по теме статей по теме он способен, и извелечь хоть сколько то информации из них. Тул скорее полезный, чем нет.
Мой пример чата, написал бы я сам лучше и быстрее? Да.
Стоит ли промптить на русском? Нет.
Написала ли модель ерунду? Скорее нет, но полезнее среднего человека не в контексте.
Опрос показал, что 26% ждет адаптацию 14B модели, и вот мы ее подготовили - RuadaptQwen2.5-14B-Instruct 🎉
Провели модель через процедуру адаптацию, отлаженную на 7B версиях. На подходе также версия с 1M контекстом (будет UPD к этому посту).
Метрики:
1) RuArenaGeneral (https://huggingface.co/spaces/Vikhrmodels/arenahardlb) - 88.63 (на одном уровне с RuadaptQwen2.5-7B-Lite-v1)
2) shlepa (https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb) - 0.477
3) MERA (0.522 с обычным системным промптом, 0.551 с кастомным)
Итого, по метрикам как будто не должно быть лучше, чем RuadaptQwen2.5-7B-Lite версия, но я что-то сильно в этом сомневаюсь, в частности, некоторые внутренние бенчи + mmlu (ru и en) лучше у 14B версии. Так что особенно будем рады отзывам на данную модель (а также и на другие модели из серии Ruadapt) с целью дальнейшего улучшения качества.
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-instruct-GGUF
Метрики подъехали. Оригинал 47.23
Успех?
Да
https://huggingface.co/spaces/Vikhrmodels/arenahardlb
Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
в юном технике говорят была статья: законы масштабирования обучения БЯМ
Читать полностью…NVIDIA DIGITS
Новый самый лучший домик для Плотвы!
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.
5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:
➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?
➡️Что ждет опенсорсные AI-решения в будущем?
➡️ Как DeepSeek меняет правила игры?
Спикеры:
🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General
🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong
🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков
🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.
🤔 Не увидел важного вопроса в анонсе?
➡️ Регистрируйся и задай свой вопрос экспертам!
Приходи! Без тебя – не то 💘
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
с Qwen соревноватся очень тяжело, mistral small на 22b немного хуже 32b qwen
mistral small
Мало кто знает но вихри делали датасеты математики и мультимодальный датасет физики.
Читать полностью…я клянусь я видел как спейс марин чесал жопу
Читать полностью…о3!!!
может!!!
написать!!!
тюн лламы на чистом торче.
Ищу Джуна MLE
😺опыт 5 лет
😺минимум 5 статьей на конфах A*
😺должен знать все основы, чтобы пройти мой тех собес. Там по мелочи, от всех компонент трансформера и как масштабировать модель до новых подходов в диффузионных моделях
😺Work life balance будет зависеть от вашей способности работать быстро и делать 3 задачи в день
😺Платить будем вам нашими коинами компании. Зп по договоренности, конечно, но вы же должны понимать, что Джун наглеть с вилкой не должен
Залетайте, расскажем всякое!
/channel/aitalenthubnews?livestream
Контекста не будет
Книга не моя, поддержите авторов, они молодцы
Ладно уже не смешно.
Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)
Блог: huggingface.co/blog/open-deep-research
актуальный вопрос для любого админа тг канала
Читать полностью…О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels
Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.
В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.
После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.
Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.
Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, уменьшение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.
В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.
Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO-GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing
Коллектив авторов: @LakoMoorDev @nlpwanderer
Ну как там с задачей?
Делаю
А когда сделаешь?
Доделаю напишу
PHD level inetelegence, finnaly
Конференция local:llama!
Oдни из лучших докладов из того что я видел за последнее время, слушать стоит почти всё, но особое внимание я бы уделил: quantizing your gguf,
history and advances of quantization in llama.cpp
Стрим
Страница
Перспективный ai safety стартап ищет таланты, если вы:
- уметее заводить модели из PR hf
- знаете почему Rl works badly и умеете заставлять его работать
- на глаз прикидываете elo LLM
- слегка уметее в байес оптимизации, генетику и прочее постыдное не гладкое
- имеете широкий опыт обучения и инференса
- знаете почему sglang лучше чем vllm
- знаете почему ai твиттер хуйня
Вилка от 80-130k/eur+ опционы
Пишите в @transformerslovedeatch
Что вы хотите от opensource модели для генерации музыки?
Читать полностью…https://darioamodei.com/on-deepseek-and-export-controls
никто вас не обгонит кроме лабы китайцев которые знают что делают, а еще делают в опенсорс.
Слава богу я работяга, а не топ мэнэджер с меня не спрашивают почему Дипсик смог сделать за 5м usd, а я нет.