Ещё один multi cloud proof of concept pretraining. Теперь от nous research.
Модель говно, важен опыт обучения с low bandwidth + высокими задержками сети.
Paper
#чтивонаночь
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games
Статья про то как решают игры с помощью агентов, сравнивают агенты поверх VLM и поверх LLM
Выясняется что модели с vision решают хуже на 30-40%
Ну те когда состояние арены кормится через текст вида
Current Observation:
statistics:
Strength: 14/14
Dexterity: 9
Constitution: 11
Intelligence: 8
inventory:
a: a +1 long sword (weapon in hand)
message:
Salutations Agent, welcome to NetHack! You are a lawful female human
Knight.
language observation:
vertical closed door far east
dark area far east
- Устраиваешься в NDA HFT.
- Получаешь задачу: поднять "купленную" инфраструктуру.
- Пишешь новые коннекторы для этой инфры.
- Через комменты находишь компанию-автора инфры.
- Закидываешь к ним резюме на кванта, получаешь оффер.
- Получаешь доступ к стратегиям, но без инфры.
- Уходишь, записав адреса кошельков компании.
- Замечаешь, что стратегии приносят бешеную прибыль.
- Решаешь запустить их на старой инфре.
- Понимаешь, что не хватает коннектора для нужной биржи.
- Осознаешь, что именно ты писал этот коннектор раньше.
Learned Embedding Propagation (LEP) + анонс релиза RuadaptQwQ-32B
Расскажу немного подробнее про идею, которая стоит за текущими версиями Ruadapt моделей. Наше предыдущее решение требовало после адаптации базовых версий моделей дополнительно их дообучать по сути с “базы”, из-за чего терялись многие успешные инструктивные версии моделей, которые нельзя просто взять и воспроизвести из-за отсутствия обучающих данных (те же 10 миллионов инструкций LLaMa-3 не были открыты комьюнити). Другим ярким примером может послужить недавняя Qwen/QwQ-32B-Preview, так как не понятно как ее учили и на каких данных.
Тут то на помощь и приходит предложенный нами метод Learned Embedding Propagation (LEP). Идея метода состоит из 3 шагов:
1. На первом шаге мы также адаптируем исходную базовую модель
2 . На втором шаге мы рассчитываем проекцию из исходной базы в целевую исходную инструктивную версию (например, из Qwen/Qwen2.5-32B 🔜 Qwen/Qwen2.5-32B-Instruct)
3. На третьем шаге мы применяем данную проекцию 🔜на Ruadapt версию базы!
4. На самом деле есть еще 4-й шаг, по сути очень важный, это шаг калибровки / дообучения, но он “опционален”
В итоге, после 3 шага мы по сути имеем адаптированную инструктивную версию модели, и при этом она не сломалась и работает весьма успешно уже на новой токенизации, но из-за неточностей отображения качество несколько просаживается и могут быть новые артефакты. Поэтому все модели, которые мы выкладывали ранее, дополнительно калибровались/дообучались на открытых инструктивных данных, таких как saiga_scored.
А теперь обращу внимание вот на что.
Самое дорогое - это как раз первый шаг, адаптация базовой версии модели и в этом шаге нигде не используется никакая информация о будущей инструктивной версии, а значит, адаптировав базу и применяя LEP, мы можем адаптировать модель на любую инструктивную версию с этой базы!
И вот возьмем, недавно вышедшую Qwen/QwQ-32B-Preview, несмотря на то, что мы вообще не знаем как и на чем она обучалась, мы знаем, что ее базой является, Qwen/Qwen2.5-32B, поэтому мы легко можем сделать версию RuadaptQwQ-32B-Preview-LEP. С шагом 4 тут посложнее, так как хороших данных для подобного типа моделей я пока что не видел. На текущий момент предлагаю попробовать RuadaptQwQ-32B-Preview-LEP в поднятом Space (https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5), но обращаю внимание, это модель сразу после LEP, без дополнительных шагов дообучения, да и тестирования особо никакого с этой моделью пока не производилось.
Соответственно релиз RuadaptQwQ в планах, но через какое-то время. Буду рад фидбеку по любой из наших моделей в комментариях к посту или другим любым способом.
The Super Weight in Large Language Models
Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan
Статья: https://arxiv.org/abs/2411.07191
Код: https://github.com/mengxiayu/LLMSuperWeight
Очень прикольная работа про то, что внутри LLM можно найти один единственный вес, зануляя который мы обрушиваем качество работы модели в пропасть. Такие параметры авторы называют супер весами (super weights) и предлагают метод их нахождения за один forward pass.
Внутри обученных LLM находится группа весов-аутлаеров с большой магнитудой, они могут составлять порядка 0.01% от всех весов модели, что в случае миллиардных моделей всё равно сотни тысяч. Это было известно ранее. В текущей работе показывают, что внутри этой группы находится один единственный вес (тот самый super weight, SW), не обязательно самый большой, важность которого превышает суммарную важность тысяч других аутлаеров. Он необходим для качества, без него LLM не может генерить нормальный текст. Перплексия вырастает на несколько порядков, а точность на zero-shot задачах падает до рандома.
Ранее (https://arxiv.org/abs/2402.17762) были найдены супер-активации, критичные для качества. Они существуют в различных слоях, имеют константную магнитуду и всегда обнаруживаются в одинаковой позиции несмотря на вход. Текущая работа находит, что канал активации совпадает с оным для супер веса и сперва активация обнаруживается сразу после супер веса. Прунинг этого супер веса значительно уменьшает активацию, так что вероятно активация вызвана им, а не просто скоррелирована. Такие активации называются супер активациями (super activations, SA).
Предыдущая работа объясняла супер активации через bias terms, но не объясняла как они получаются и почему на одних и тех же местах. Сейчас авторы эмпирически нашли, что до down проекции (down_proj) произведение Адамара (Hadamard product) gate и up проекций (gate_proj, up_proj) создаёт относительно большую активацию. Супер вес далее усиливает её ещё и даёт супер активацию.
Напомню, что MLP блок в Ламе выглядит так:
out = down_proj( act_fn(gate_proj(input)) x up_proj(input) )
SW можно найти, анализируя спайки в распределениях входов и выходов down_proj. Для этого достаточен прямой проход с одним промптом. Авторы нашли супер веса для Llama (7B,13B,30B), Llama 2 (7B,13B), Mistral-7B, OLMo (1B,7B), Phi-3.
Провели эксперименты по обнулению SW, в том числе с восстановлением SA до исходного значения, чтобы проверить влияние SW на другие активации. Это восстанавливает 42% потери, то есть влияние SW на качество выше, чем просто через SA.
По анализу 500 различных промптов из Lambaba validation set видно, что при убирании SW вероятности стоп-слов сильно возрастают (а обычные слова соответственно занижаются). Для “the” это 2×, для “.” -- 5×, и для “,” -- 10×. То есть наличие SW как бы подавляет стоп-слова и позволяет генерировать осмысленный текст.
Другой интересный эксперимент скейлит супер веса с коэффициентами от 0 до 3 (где оригинальный режим работы соответствует значению 1) и оказывается, что при увеличении SW качество модели ещё немного возрастает. Это забавный результат.
Имея это знание, можно предложить специальный метод квантования: Super-outlier aware quantization. Стандартные механизмы квантизации могут быть недостаточно хорошими, так как аутлаеры искажают распределение, влияя на размер шага и увеличивая ошибки квантования. Здесь под super outliers подразумеваются и SW, и SA. Предложенные методы восстанавливают SW и SA после квантований с клиппингом и заменами на медианное значение. Это всё работает лучше дефолтных методов, главный вывод -- надо защищать супер веса. В статье есть подробный разбор экспериментов, кому интересно поглубже. Также новый метод меньше теряет в качестве с увеличением размера блока.
Прикольный результат в общем. Это всё несколько перекликается с темой про лотерейные билеты (/channel/gonzo_ML/21), там внутри большой сети обнаруживалась сильно разреженная подсеть, обучая которую можно было достигать качества исходной сети (или даже выше). Интересно, входят ли супер-веса в лотерейный билет? Наверняка.
Адаптация для языков шагает по планете
В самом начале вихрей у нас была амбиция делать модели в том числе для казахского, но мы отказались от этой идеи в связи с трудоемкостью и отсутствием ресурсов. А один из подписчиков решил делать хорошо, позвал друзей, сели и напереводили датасетов на казахский!
kz mmlu
gsm8k
constituion похож на наш датасет из шлепы Law mc
Вопросы к книгам
Обучили роберту
Ждем свои llm для казахского, рад что наш проект вдохновляет других людей делать что то!
linkedln post
автор @stringersolo
Загадка на тему инфры: допустим у нас есть Nvidia gb200 nvl72. Ака стойка на 72 карты. И вот вопрос: а как на нем запускатся? Как на 18 отдельных нодах или как на одной? Если как на одной то как это реализовано системно?
Аппаратно это 18 нод по 4 карты, у них есть обычное количество маршрутиризаторов.
Вероятно лучший конспект по reinforcement learning который я видел и неожиданно на русском (!)
Читать полностью…На кейсах со сложным движением нескольких объектов выглядит слегка лучше gen3 и прочих. Вероятно за счёт 4о и прочего будет лучше.
Забейте эта модель все ещё текущего поколения, откровений по качеству генераций не будет.
Мы в Вихрях часто делаем модели в стол или оставляем их на время полежать. Собственно в этот раз ребята из MTSa опередили нас с релизом на несколько дней.
Выложили vikhr-qwen2.5-1.5b.
Для обучения использовали GranMaster.
По арене чуть чуть хуже чем Cotype, вознможно потом полирнем SMPO и будет лучше)
model
Управление: держаться подальше?
В комментариях упомянули ещё одну важную тенденцию. Сегодня многие по-настоящему талантливые лидеры в университетах (и не только) бегут с высших руководящих должностей или сразу не соглашаются их занимать. Они предпочитают быть где-то на периферии, но вкладываться в реальные проекты, а не строить потёмкинские деревни.
Зачастую такой управленец может возглавлять подразделение с формально низким уровнем в иерархии (лабораторию, отдел, центр, кафедру), но иметь при этом значительные ресурсы и большую свободу внутри вуза. Например, по той причине, что это подразделение производит половину науки в университете или приносит львиную долю внебюджетных доходов.
Что важно: отказ такого руководителя идти в ректорат — рациональное решение, а не следствие страха и не малодушия. Если здраво оценить реальные возможности по управлению университетом, с учётом зарегулированности, постоянной смены приоритетов и произвола с перестановкой ректоров, то вполне логично прийти к выводу о бутафорском характере этого управления. Возможно ли качественно администрировать текущие процессы? Да, конечно возможно, бюрократический хаос можно несколько обуздать. Реально ли разработать стратегию развития и воплощать её хотя бы лет десять? Крайне маловероятно: либо ишак сдохнет, либо падишах помрёт.
Иными словами, настоящий лидер в данном случае не то чтобы боится взять на себя ответственность за какие-то решения, а видит, что это попросту невозможно: либо тебя снимут (и ответственность перейдёт другому), либо твои решения будут непредсказуемым образом изменены или отменены в силу очередной смены стратегии.
Да, как и всегда, нужно оговориться: бывает так, что сильная команда управленцев качественно меняет университет. Хотя, с другой стороны, иногда мы оказываемся и здесь. Так или иначе, пока речь о системных эффектах, а не об исключениях и карманах эффективности.
Обратная сторона этой медали ещё интереснее. Когда умные и способные относятся к административной карьере прохладно, вперёд выходят не слишком рефлексирующие активисты. Некоторых людей привлекает статус и управление как таковое, безотносительно возможности или невозможности что-то изменить по существу. Именно эти люди с удовольствием поедут на форумы и школы управленцев (что вообще есть оксюморон, как мне кажется), а затем окажутся очень удобными кандидатами на высокие должности. И именно отсюда начнутся те самые нереалистичные обещания, пустые проекты и другая бурная деятельность, имеющая в основе только желание выслужиться.
Забавно, что продвижению особо рьяных управленцев может способствовать и механизм "выталкивания наверх". Бывает так, что подчинённым и просто окружающим коллегам очень досаждает и мешает работать некий бессмысленный активист, но формально уволить его особенно не за что: он всегда на виду у начальства, по горло занят и со всеми знаком. Единственным спасением является повышение этого деятеля: с кафедры — в деканат, с факультета — в ректорат, из ректората — в департамент министерства или в другой университет. Коллектив не просто поддержит решение, но и активно поспособствует карьерному росту, только бы избавиться от раздражителя.
И тут возникает классический вопрос: а что делать? С системной точки зрения — дать университетам больше самостоятельности, перестать менять стратегию каждый год и снизить накал активизма любого рода, который сейчас перегружает образовательную систему и забивает нормальную регулярную работу. Это увеличит шансы привлечь к управлению осмысленных лидеров, со своим мышлением и своей программой.
С личной точки зрения общего ответа, конечно же, быть не может. Кто-то решит согласиться на управленческую должность, не особо горя желанием руководить, но осознавая, что иначе придут пустые активисты. Это благородно, но не всегда оправданно. Кто-то выберет остаться на периферии до лучших времён. Пожалуй, при анализе таких решений важнее всего отделять желание чем-либо поуправлять от реальных способностей к этому, а настоящую эффективность работы — от количества времени, посвящённого заглядыванию в рот начальнику.
(это flux redux)
А теперь представьте что в опенсурсе без цензуры с этим натворят? Будущее прекрасно
на hf произошло money обнова, теперь надо платить за место.
UPD если вы богатый господин и готовы задонитить 4320usd в вихри чтобы мы могли оплатить про акк всем участника орги на год, а мы не мигрировали артефакты - было б славно(на что я надеюсь)
Приму гуманитарную помощь(пиво и чипсы) в аэропорту цуриха, попал в евросовковый капкан(не работает нихуя)
Читать полностью…Вышли scaling laws для диффузий и оно не очевидное.
Paper
оставлю разбор от спиридона сонцеворота /channel/quant_prune_distill/234
Друзья ищут сильного community genai lead
Что нужно делать?
- общатся с аудиторией на русском и английском
- делать много итераций контента, предлагать идеи, смотреть что есть у конкурентов
- ti2i, t2v, i2v и это все - ваши лучшие друзья
- в идеале смотреть что происходит в индустрии, сидеть на тематических реддитах, бордах и сереверах
- Уметь делать хайповый контент, если вы часто делаете штуки которые вирусятся - велком.
Денег платят дохуя, а главное - в usdt хоть на луну, единственное чтобы у вас был хороший интернет и +-6 часов по CET
Если вы думаете что пиздатый кандидат - пишите мне в личку @transformerslovedeatch , с описанием опыта и почему вы пиздатый кандидат.
Шаг1 пишем свой фреймворк на jax
Шаг2 учим хуевую LLM со своей архитектурой. Данные? А зачем их чистить?
Шаг3 сосем у oss моделей(тут можно поднять 1б USD пол обещание что мы молодцы)
Шаг4 ✨вы прекрасны, Феррари доставят на следующей неделе✨
благодаря автору @plotquot теперь вихри стали ОЧЕНЬ быстрыми для мака
забрать для M серии мака тут
Ко мне пришли такие люди, набирают кандидатов.
🎓 Стипендиальная программа Impact Academy для технических исследователей безопасности ИИ
Мы — сообщество Unitaware. Ищем амбициозных и талантливых людей в области ML/AI для участия в стипендиальной программе Impact Academy по безопасности ИИ. Это шанс проводить исследования и работать с лидерами индустрии — и получить от них приглашения в топовые AI safety лабы и проекты (например, Center for Human-Compatible Artificial Intelligence, FAR AI и Mila AI Institute)
💼 Что вас ждет?
• Оффлайн программа (3-6 месяцев с марта) в Сингапуре, Англии или США.
• Исследования и коучинг в сфере AI safety.
• Стипендия ~$5000/мес.
• Перспектива работы в ведущих AI-проектах.
👤 Кого мы ищем?
• Отличный английский и опыт в ML/DL (публикации, стажировки, проекты).
• Программирование на уровне ведущей техкомпании.
• Достижения: олимпиады или учеба на топовых кафедрах.
• Интерес к снижению рисков от продвинутых AI-систем.
⏳ Срок подачи: до 31 декабря (лучше до первой недели декабря).
Если заинтересовались или знаете подходящего кандидата, напишите @vakondyrev, это максимизирует шансы при прочих равных. За рекомендацию подходящего кандидата также предусмотрено вознаграждение
🔓 Открываем код: Cotype Nano
Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.
Что умеет:
🔴Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴Анализировать и классифицировать данные для улучшения клиентского сервиса
➡Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.
➡По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.
➡Узнать больше и скачать модель можно тут.
💻 Подробные технические характеристики — на Хабре.
есть что то грустное в том что за 5 минут простая кластера он сожрал денег больше чем ты за неделю
Читать полностью…