Помните, писала, что у нас с коллегами приняли статью на COLM, но конференция в США и ни у кого из нас нет виз? Так вот, конференция 7-9 октября в Филадельфии, и мы все еще в поисках человека, который мог бы туда поехать и презентовать нашу статью😢
В том посте я писала, что нужно будет постоять рядом с нашим постером. Но теперь все немного сложнее: наша статья попала на oral (spotlight). То есть, нужно будет выйти зачитать доклад по нашей статье на 12 минут🌝 Текст и презентация доклада будут готовы.
Поэтому если вдруг вы или ваши коллеги едут на COLM, и готовы с этим нам помочь, напишите, пожалуйста, Лаиде. Вы очень-очень нам поможете!
(Я помню, что под предыдущим постом были люди, готовые помочь. Спасибо вам большое, что тогда откликнулись! Если вы все еще готовы помочь, будем очень рады)
Попросили как-то админку квант барби провести урок математики в школе. Админка согласилась. После урока спрашивают, мол, что, как, были ли проблемы?
- Ну, был один школьник. Спрашивает, мол, что такое интеграл, а я в душе не ебу, что это такое.
- Ну, и как вы из ситуации вышли, как ответили?
- Я ответила уклончиво: мол, иди ка ты на хуй.
У EleutherAI вышел классный гайд по muP параметризации LLMок.
Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.
В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.
Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓
🔥 Новое пополнение в семействе вихрей!
⚡️ Vikhr-Llama-3.2-1B-Instruct — компактная и мощная языковая модель, созданная на базе Llama-3.2-1B, специально обученная на русскоязычном датасете GrandMaster-PRO-MAX. Её эффективность в 5 раз выше по сравнению с базовой моделью, и она идеально подходит для мобильных и слабых устройств, занимая всего до 3GB.
💡 Что нового?
- Инструктивная дообученная модель: разработана для русскоязычных задач
- Компактный размер: всего 1B параметров
- Мощь в компактности: работает на уровне более крупных моделей
🔗 Подробнее о наших моделях: Vikhrmodels/Vikhr-Llama-3.2-1B-Instruct
Коллектив авторов: @LakoMoorDev @nlpwanderer
Залил Qwen 2.5 70B и Gemma-2 27B в ArenaHard. Я не сомневался, что они хороши, но каким-то загадочным образом Квен обошёл Соннет. У меня 2 версии:
1) GPT-4 не любит Клоды, а он там судья.
2) Бейзлайн (gpt-3.5) уже слишком плох и мешает различать хорошие модели.
Весь замер с моей стороны обошёлся в 20 центов. Я платил только за инференс самих моделей, суд оплачивает бенчмарк.
https://huggingface.co/collections/unsloth/llama-32-all-versions-66f46afde4ca573864321a22 алол уже unsloth перезалили
Читать полностью…хотите агента который смотрит в прошлое?
messages +=[message]
мемы порождены этой репой, если вы первый день трогаете питон может быть стоит(не стоит)
https://huggingface.co/glif/how2draw
крайне любопытная lora how2draw
Ценность опенсурса в возможности FT. На апи и подписках зарабатывают и окупают модели еденицы, а ценность которую можно утащить из опенсурса велика - хороший пример это SD комьюнити которое стало автономно от моделей и создало столько инфраструктуры что можно конкурировать с MJ(особенно если знаешь что нужно)
🧐 Портал в мир науки открывается по средам!
Уже 2 октября в 18:30 встречаемся в Reading Club, чтобы обсудить новую порцию научных прорывов из мира AI.
Гость: Карина Романова
TeamLead CoreLLM:recsys.
Отвечает за добавление текстовых и картиночных фичей в рекомендации Wildberries. Магистрантка AI Talent Hub.
➡️ Разберемся в новом подходе к интерпретации крупных языковых моделей на примере Claude Sonnet. Обсудим, как удалось их выявить, какие концепции формируются внутри модели и как это может улучшить безопасность и надежность ИИ в будущем.
🔖 статья: Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
➡️ Зарегистрироваться
📹 Смотреть предыдущий выпуск
#ReadingClub #AITalentHub #NapoleonIT #ITMO
Чёт какой то пиздец творится в Abby, всех уволили одним днём. Пока не понятно, по цвету паспорта или просто всю разработку.
Ребята в революте нанимают:
- Computer Vision
- Natural Language Processing
- Engineering
- Product Owners
pavel.nesterov@revolut.com
Если у вы имеетее дс вакансии, пишите в личку/ кидайте под пост и добавлю в сообщение
ищу хорошего сантехника в московской области, если можете пореферить в личку @alexwortega
Читать полностью…https://arxiv.org/abs/2409.15997
Если ваша ресерч лаба без аниме даже не зовите меня.
https://huggingface.co/Vikhrmodels/Llama-3.2-3B-Instruct
https://huggingface.co/Vikhrmodels/Llama-3.2-1B-Instruct
https://huggingface.co/Vikhrmodels/Llama-3.2-1B
https://huggingface.co/Vikhrmodels/Llama-3.2-3B
Работаем братья
ЛЛАМА БУДУТ СВОБОДНЫ!
Тут недавно MERA обновилась: /channel/hikonon/59
Я тут полез Сайгу залить. И знаете что? Оно до сих пор не работает. На этот раз про openai api написали в README, но сам скрипт положить... забыли? Вот тикет.
Апдейт моделей Gemini 1.5 Pro & Flash
Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.
Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.
🤗 Пост для сбора фидбека о новых моделях
Прошло уже некоторое время с релиза и я надеюсь, что вы успели попробовать наши модели (в Gradio, в ботах, в LM Studio или, быть может, в уже в реальных проектах).
Нам хотелось бы лучше понимать, какую пользу (или наоборот) мы приносим пользователям своими релизами и что работает хорошо, а что не очень и можно было бы добавить/доработать в следующих версиях. А также перформанс относительно других моделей.
Поделитесь, пожалуйста, юзкейсами, где вобще применяете LLM, в каких задачах (не только наши, любые). Присылайте хорошие/плохие/интересные примеры в комментарии, постараюсь помочь с проблемами с использованием.
Кстати, если вам понравились модели не забывайте ставить лайки в карточках моделей на HF (Vikhr-Nemo, Vikhr-Llama), а так же звездочки в Github - это поможет нам в продвижении и просто будет приятно.