lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

Опрос показал, что 26% ждет адаптацию 14B модели, и вот мы ее подготовили - RuadaptQwen2.5-14B-Instruct 🎉
Провели модель через процедуру адаптацию, отлаженную на 7B версиях. На подходе также версия с 1M контекстом (будет UPD к этому посту).

Метрики:
1) RuArenaGeneral (https://huggingface.co/spaces/Vikhrmodels/arenahardlb) - 88.63 (на одном уровне с RuadaptQwen2.5-7B-Lite-v1)
2) shlepa (https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb) - 0.477
3) MERA (0.522 с обычным системным промптом, 0.551 с кастомным)

Итого, по метрикам как будто не должно быть лучше, чем RuadaptQwen2.5-7B-Lite версия, но я что-то сильно в этом сомневаюсь, в частности, некоторые внутренние бенчи + mmlu (ru и en) лучше у 14B версии. Так что особенно будем рады отзывам на данную модель (а также и на другие модели из серии Ruadapt) с целью дальнейшего улучшения качества.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-instruct-GGUF

Читать полностью…

Love. Death. Transformers.

Метрики подъехали. Оригинал 47.23
Успех?
Да

https://huggingface.co/spaces/Vikhrmodels/arenahardlb

Читать полностью…

Love. Death. Transformers.

Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9

Читать полностью…

Love. Death. Transformers.

в юном технике говорят была статья: законы масштабирования обучения БЯМ

Читать полностью…

Love. Death. Transformers.

NVIDIA DIGITS
Новый самый лучший домик для Плотвы!

Читать полностью…

Love. Death. Transformers.

🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General

🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong

🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам!

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Читать полностью…

Love. Death. Transformers.

с Qwen соревноватся очень тяжело, mistral small на 22b немного хуже 32b qwen

mistral small

Читать полностью…

Love. Death. Transformers.

Мало кто знает но вихри делали датасеты математики и мультимодальный датасет физики.

Читать полностью…

Love. Death. Transformers.

я клянусь я видел как спейс марин чесал жопу

Читать полностью…

Love. Death. Transformers.

Huggingface за 4 дня зарепродьюсили R1 дистиляции.

Кажется это первый на моей памяти паблик репорт с работающим online RL для LLM и кодовой базой.

Под Online RL в данном контексте имеется ввиду grpo где честно сэмплятся гипотезы, оцениваются ревардом и в зависимости от правильности ответа R+\-



Code

Читать полностью…

Love. Death. Transformers.

Как сделать так, чтобы поисковая строка в картах по запросу “Патреки” возвращала точные координаты Патриарших прудов и советовала не появляться там в пятницу вечером?

Геокодирование требует от алгоритма понимания нетривиальных запросов пользователей и их безошибочной конвертации в координаты на карте.

На Хабре выкатили кулстори про то, как создавался Геокодер от API Яндекс Карт — в нем начинка из contrastive learning, active learning и data augmentation. Говорят, за пару недель его можно обучить адресной системе любой страны.

Читать полностью…

Love. Death. Transformers.

Как сделать большие языковые модели по-настоящему умными?

Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.

➡️ Регистрируйся на Reading Club: 29 января.

Эксперт: Михаил Бурцев

⭐️ PhD в Computer science
⭐️ Landau AI Fellow, LIMS.
⭐️ Был приглашённым исследователем в Кембридже.
⭐️ Под его руководством была разработана, отмеченная наградами, открытая платформа для создания диалоговых AI-систем DeepPavlov.
⭐️ Автор множества публикаций в ведущих научных журналах.

📄 Статья: Learning Elementary Cellular Automata with Transformers

Когда: 29 января в 18:30 [+3 МСК]

🔗 ЗАРЕГИСТРИРОВАТЬСЯ

Приходи. Будет интересно!

#ReadingClub #AITalentHub #ITMO #NapoleonIT

Читать полностью…

Love. Death. Transformers.

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

Читать полностью…

Love. Death. Transformers.

пупупу.

RT для дипсика не доделан

Читать полностью…

Love. Death. Transformers.

Казалось бы, в чем проблема, берешь и поддерживаешь СВОИ модели, выкладываешь а опенсурс, получаешь адопшн и хайп. Но нет, лучше ходить и рассказывать про секретный кластер на 50к h100, а ещё что deepseek r это краденная о1. Мир Ai прекрасен, то что мы сейчас видим лишь демо версия того что будет через пару лет.

Читать полностью…

Love. Death. Transformers.

О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels

Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.

В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.

После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.

Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.

Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, уменьшение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.

В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.

Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment

Читать полностью…

Love. Death. Transformers.

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO-GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

Читать полностью…

Love. Death. Transformers.

Ну как там с задачей?
Делаю
А когда сделаешь?
Доделаю напишу

PHD level inetelegence, finnaly

Читать полностью…

Love. Death. Transformers.

Конференция local:llama!

O
дни из лучших докладов из того что я видел за последнее время, слушать стоит почти всё, но особое внимание я бы уделил: quantizing your gguf,
history and advances of quantization in llama.cpp

Стрим
Страница

Читать полностью…

Love. Death. Transformers.

все опять украли у Шмидхуберта

Читать полностью…

Love. Death. Transformers.

Перспективный ai safety стартап ищет таланты, если вы:
- уметее заводить модели из PR hf
- знаете почему Rl works badly и умеете заставлять его работать
- на глаз прикидываете elo LLM
- слегка уметее в байес оптимизации, генетику и прочее постыдное не гладкое
- имеете широкий опыт обучения и инференса
- знаете почему sglang лучше чем vllm
- знаете почему ai твиттер хуйня

Вилка от 80-130k/eur+ опционы

Пишите в @transformerslovedeatch

Читать полностью…

Love. Death. Transformers.

Что вы хотите от opensource модели для генерации музыки?

Читать полностью…

Love. Death. Transformers.

https://darioamodei.com/on-deepseek-and-export-controls

никто вас не обгонит кроме лабы китайцев которые знают что делают, а еще делают в опенсорс.

Слава богу я работяга, а не топ мэнэджер с меня не спрашивают почему Дипсик смог сделать за 5м usd, а я нет.

Читать полностью…

Love. Death. Transformers.

Украл у @whargarbl

Читать полностью…

Love. Death. Transformers.

У нас было три фуллтайм работы руководителями ИИ в системообразующих банках, две аспиратнуры в разных странах, множество каггл соревнований, репозиторий с 40 звездами на гитхабе, папиры на arXiv котоыре писали китайцы за бабки включайщие в соавторы и телеграм канал про ИИ который вел агент на GigaChat Pro. Если начал собирать ачивки для резюме становиться трудно остановиться.
Единственное что вызывало реальные опасения это телеграм.

Нет ничего более беспомощного и безответственного чем админ телеграм канала который стремиться хайпить каждый день на ворованных мемах, но я знал что рано или поздно мы перейдем и на эту дрянь...

Читать полностью…

Love. Death. Transformers.

YuE (乐)

Вам не нужна навороченная диффузия чтобы генерировать музыку, достаточно лламаобразной модели доученной на свой навороченный кодек (по сути новые токены) и все будет работать.


blog+demo
model

Читать полностью…

Love. Death. Transformers.

Закрывайте интернет, а то китайцы архив скачают и agi tomorrow. То насколько сильно западный интернет недооценивал китайцев прям доставляет

Читать полностью…

Love. Death. Transformers.

Фаундер хэдж фонда попросил LLM агентов заработать денег

Агент от OpenAI: Начал скрапить весь твиттер подписываясь на смарт аккаунты, и покупая все мемкоины которые упоминаются в их постах

Агент от XAI: половину капитала вложил в опционы, а вторую половину в NFT с котиками

Агент от Anthropic: инвестирует в компании согласные с его политикой AI safety, но пока сидит в кэше, потому что еще не нашел ни одной подходящей компании

Агент от Meta: Решил создать соцсеть Threands чтобы трейдеры постили свои рекомендации, пытается предиктить движение по сентимент анализу постов

Агент от DeepMind: Разработал сверхсложный алгоритм для трейдинга, но забыл как он работает и теперь нанимает phd по трейдингу чтобы они его зареверсили

Агент от Deepseek: создал "государственный хедж-фонд" для управления пенсионными накоплениями, но все деньги пошли на покупку серверов, которые майнят криптовалюту в подвале минцифры

Агент от Mistral: Решил что трейдинг это скучно и теперь мутит темки с математиком из Лондона

Агент от Yandex: Украл стратегию Goldman Sachs, продал Сберу, на вырученные деньги купил Nebius N.V., теперь накручивает объемы на рублевых парах

Агент от Sber: Капитально аутперформит рынок, тк додумался шортить стратегии Sber CIB

Агент от Cohere: Забыл подключиться к бирже, теперь просто генерирует красивые графики из бэктеста

Читать полностью…

Love. Death. Transformers.

Sam Altman в этом контексте амбсадор фразы: "зря вы пришли на перестрелку с ножами"

Читать полностью…

Love. Death. Transformers.

Выводы по Operator:

- cырой ужасно, режим артефактов у гпт/клода намного полезнее. Я в режиме артефактов частенько делаю мелкий анализ для статей или генерирую полноценные draw io файлы питоном.

- оно теряет ваши файлы которые в него послали:)
- у него нет исполнения кода(или я за день юза не нашел)
- Ждем аналога от гугла
- Оно пользуется не вашим компьютером, а виртуалкой, соу во все надо логинется заново, а есил у вас 2auth то логинится будете-много- долго-противно.
Ничем кроме kayak/booking/medium like сайтами модель пользоватся не умеет, они страглят и вешают модель железно

Читать полностью…
Subscribe to a channel