Telegram-канал lovedeathtransformers - Love. Death. Transformers.: Unsorted

Love. Death. Transformers.

05 Feb 2025 17:08

Залетайте, расскажем всякое!

/channel/aitalenthubnews?livestream

Читать полностью…

Love. Death. Transformers.

05 Feb 2025 12:41

Контекста не будет

Книга не моя, поддержите авторов, они молодцы

Читать полностью…

Love. Death. Transformers.

04 Feb 2025 21:15

Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research

Читать полностью…

Love. Death. Transformers.

04 Feb 2025 09:59

актуальный вопрос для любого админа тг канала

Читать полностью…

Love. Death. Transformers.

03 Feb 2025 15:25

О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels

Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.

В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.

После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.

Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.

Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, уменьшение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.

В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.

Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment

Читать полностью…

Love. Death. Transformers.

03 Feb 2025 12:53

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO-GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

Читать полностью…

Love. Death. Transformers.

03 Feb 2025 10:41

Ну как там с задачей?
Делаю
А когда сделаешь?
Доделаю напишу

PHD level inetelegence, finnaly

Читать полностью…

Love. Death. Transformers.

02 Feb 2025 09:51

Конференция local:llama!

Oдни из лучших докладов из того что я видел за последнее время, слушать стоит почти всё, но особое внимание я бы уделил: quantizing your gguf,
history and advances of quantization in llama.cpp

Стрим
Страница

Читать полностью…

Love. Death. Transformers.

31 Jan 2025 18:09

все опять украли у Шмидхуберта

Читать полностью…

Love. Death. Transformers.

30 Jan 2025 16:23

Перспективный ai safety стартап ищет таланты, если вы:
- уметее заводить модели из PR hf
- знаете почему Rl works badly и умеете заставлять его работать
- на глаз прикидываете elo LLM
- слегка уметее в байес оптимизации, генетику и прочее постыдное не гладкое
- имеете широкий опыт обучения и инференса
- знаете почему sglang лучше чем vllm
- знаете почему ai твиттер хуйня

Вилка от 80-130k/eur+ опционы

Пишите в @transformerslovedeatch

Читать полностью…

Love. Death. Transformers.

30 Jan 2025 00:25

Что вы хотите от opensource модели для генерации музыки?

Читать полностью…

Love. Death. Transformers.

29 Jan 2025 18:04

https://darioamodei.com/on-deepseek-and-export-controls

никто вас не обгонит кроме лабы китайцев которые знают что делают, а еще делают в опенсорс.

Слава богу я работяга, а не топ мэнэджер с меня не спрашивают почему Дипсик смог сделать за 5м usd, а я нет.

Читать полностью…

Love. Death. Transformers.

29 Jan 2025 16:16

Украл у @whargarbl

Читать полностью…

Love. Death. Transformers.

28 Jan 2025 20:02

У нас было три фуллтайм работы руководителями ИИ в системообразующих банках, две аспиратнуры в разных странах, множество каггл соревнований, репозиторий с 40 звездами на гитхабе, папиры на arXiv котоыре писали китайцы за бабки включайщие в соавторы и телеграм канал про ИИ который вел агент на GigaChat Pro. Если начал собирать ачивки для резюме становиться трудно остановиться.
Единственное что вызывало реальные опасения это телеграм.

Нет ничего более беспомощного и безответственного чем админ телеграм канала который стремиться хайпить каждый день на ворованных мемах, но я знал что рано или поздно мы перейдем и на эту дрянь...

Читать полностью…

Love. Death. Transformers.

28 Jan 2025 10:20

YuE (乐)

Вам не нужна навороченная диффузия чтобы генерировать музыку, достаточно лламаобразной модели доученной на свой навороченный кодек (по сути новые токены) и все будет работать.

blog+demo
model

Читать полностью…

Love. Death. Transformers.

05 Feb 2025 17:04

30 мин до Open Talks Special – раскрываем карты!

🦇 Наш секретный гость:
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].

Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.

✏️ Оставляй вопросы в комментариях к этому посту!

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Читать полностью…

Love. Death. Transformers.

05 Feb 2025 12:38

Внезапная филлер арка моей жизни о которой никто не просил: я недавно делал фотосессию и одну из фотографий приняли в какой-то крутой журнал для арт-фотографов, так что я теперь официально модель 💅💅💅

Надо будет это фото в Google Scholar поставить

Подстраховываюсь от сингулярности как могу

Читать полностью…

Love. Death. Transformers.

04 Feb 2025 10:34

Выводы по DeepResearch:
1) Это третий за пол года довольно сырой релиз OAI, как будто ему бы еще пару месяцев покрутится, досадные баги с "щаща вернусь" прям расстраивают. Его почему то нет в эпке на мак, а хотелось бы.

2) Полагаю что сырость связана с тем что Operator и DeepSearch это две приниципиально разные концепции взаимодейсвтия с интернетом. Да, Operator перспективнее потому что может управлять вообще любым UI(хоть фотошоп, хоть в доте персонажа качать). Но текущие модели ограниченные, поэтому DeepSearch ощущается сильно полезнее - какого то гениального ресерча он не напишет, но накидать по теме статей по теме он способен, и извелечь хоть сколько то информации из них. Тул скорее полезный, чем нет.

Мой пример чата, написал бы я сам лучше и быстрее? Да.
Стоит ли промптить на русском? Нет.
Написала ли модель ерунду? Скорее нет, но полезнее среднего человека не в контексте.

Читать полностью…

Love. Death. Transformers.

03 Feb 2025 17:40

Опрос показал, что 26% ждет адаптацию 14B модели, и вот мы ее подготовили - RuadaptQwen2.5-14B-Instruct 🎉
Провели модель через процедуру адаптацию, отлаженную на 7B версиях. На подходе также версия с 1M контекстом (будет UPD к этому посту).

Метрики:
1) RuArenaGeneral (https://huggingface.co/spaces/Vikhrmodels/arenahardlb) - 88.63 (на одном уровне с RuadaptQwen2.5-7B-Lite-v1)
2) shlepa (https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb) - 0.477
3) MERA (0.522 с обычным системным промптом, 0.551 с кастомным)

Итого, по метрикам как будто не должно быть лучше, чем RuadaptQwen2.5-7B-Lite версия, но я что-то сильно в этом сомневаюсь, в частности, некоторые внутренние бенчи + mmlu (ru и en) лучше у 14B версии. Так что особенно будем рады отзывам на данную модель (а также и на другие модели из серии Ruadapt) с целью дальнейшего улучшения качества.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-instruct-GGUF

Читать полностью…

Love. Death. Transformers.

03 Feb 2025 14:37

Метрики подъехали. Оригинал 47.23
Успех?
Да

https://huggingface.co/spaces/Vikhrmodels/arenahardlb

Читать полностью…

Love. Death. Transformers.

03 Feb 2025 11:41

Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9

Читать полностью…

Love. Death. Transformers.

02 Feb 2025 12:22

в юном технике говорят была статья: законы масштабирования обучения БЯМ

Читать полностью…

Love. Death. Transformers.

31 Jan 2025 21:56

NVIDIA DIGITS
Новый самый лучший домик для Плотвы!

Читать полностью…

Love. Death. Transformers.

31 Jan 2025 16:42

🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General

🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong

🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам!

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Читать полностью…

Love. Death. Transformers.

30 Jan 2025 15:33

с Qwen соревноватся очень тяжело, mistral small на 22b немного хуже 32b qwen

mistral small

Читать полностью…

Love. Death. Transformers.

29 Jan 2025 19:25

Мало кто знает но вихри делали датасеты математики и мультимодальный датасет физики.

Читать полностью…

Love. Death. Transformers.

29 Jan 2025 17:47

я клянусь я видел как спейс марин чесал жопу

Читать полностью…

Love. Death. Transformers.

28 Jan 2025 23:31

Huggingface за 4 дня зарепродьюсили R1 дистиляции.

Кажется это первый на моей памяти паблик репорт с работающим online RL для LLM и кодовой базой.

Под Online RL в данном контексте имеется ввиду grpo где честно сэмплятся гипотезы, оцениваются ревардом и в зависимости от правильности ответа R+\-

Code

Читать полностью…

Love. Death. Transformers.

28 Jan 2025 15:05

Как сделать так, чтобы поисковая строка в картах по запросу “Патреки” возвращала точные координаты Патриарших прудов ~~и советовала не появляться там в пятницу вечером~~?

Геокодирование требует от алгоритма понимания нетривиальных запросов пользователей и их безошибочной конвертации в координаты на карте.

На Хабре выкатили кулстори про то, как создавался Геокодер от API Яндекс Карт — в нем начинка из contrastive learning, active learning и data augmentation. Говорят, за пару недель его можно обучить адресной системе любой страны.

Читать полностью…

Love. Death. Transformers.

28 Jan 2025 09:58

Как сделать большие языковые модели по-настоящему умными?

Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.

➡️ Регистрируйся на Reading Club: 29 января.

Эксперт: Михаил Бурцев

⭐️ PhD в Computer science
⭐️ Landau AI Fellow, LIMS.
⭐️ Был приглашённым исследователем в Кембридже.
⭐️ Под его руководством была разработана, отмеченная наградами, открытая платформа для создания диалоговых AI-систем DeepPavlov.
⭐️ Автор множества публикаций в ведущих научных журналах.

📄 Статья: Learning Elementary Cellular Automata with Transformers

Когда: 29 января в 18:30 [+3 МСК]

🔗 ЗАРЕГИСТРИРОВАТЬСЯ

Приходи. Будет интересно!

#ReadingClub #AITalentHub #ITMO #NapoleonIT

Читать полностью…