ебала жаба гадюку
Маск подал в суд на Саму и опен аи, потому что схема работы openai крайне сложная и не похожа profit организацию
Да я в корпе просто так для души подрабатываю, так то у меня куча ресерч пропозалов
Читать полностью…чат, лень гуглить, подкиньте физические движки с питон апишкой чтобы катать шары, была простая soft body и можно было легко собрать логи(вектора, координаты и прочее)
а и желательно ++ бекенд или просто быстрый и без gilов
⚡⚡⚡Вот и статья про Sora пожаловала от OpenAI
(А точнее от Lehigh University и Microsoft Research)
Сделать разбор статьи о том, что внутри?
PDF
@complete_ai
Do Large Language Models Latently Perform Multi-Hop Reasoning? (by Google)
Авторы обнаружили, что если вопрос сформулирован неявно, то LLM уже во время его чтения "пытаются" подставить промежуточный шаг рассуждений в латентном пространстве. Например, для эмбеддингов последних токенов этого вопроса
Сколько людей живут в крупнейшем городе Европы?
👩🎤 Инди vs Корпорат 👨💼
Заметочка про стек и подход к своим пет- и инди-проектам, почему он диаметрально противоположен тому, к чему большинство «выращенных корпоратами» программистов привыкли на работе.
Мы все понимаем насколько корпорации сильны и неубиваемы. Но в инди тоже есть свои суперсилы и все еще витает дух «того самого программирования», которое решает реальные проблемы реальных людей, ради чего многие (ну, хотя бы я) и пришли в айти.
https://vas3k.blog/notes/indie_vs_corpo/
Не SORA конечно, но добавили видосики на svd в insomnia (выбираем модель video)
https://insomnia.land/#/image
загадка жака фреско:
чем LlamaTokenizer от LlamaTokenizerFast отличается и какой быстрее?
Ищу кредиты на клауд, и вы хотите поделиться компьютом(порядка сингл ноды(dgx like) на несколько месяцев< 3) на благое дело, то вас очень сильно ждут @maxalekv
Читать полностью…Сайга-Гемма
Или переходим на обучение в axolotl.
Изначально идея этого эксперимента была в сравнении axolotl vs unsloth vs hf-trainer для дообучения новой базовой модели, Геммы.
Однако unsloth до сих пор её не поддерживает, а hf-trainer на 24 Гб карточке вылетает по памяти, так что остался только axolotl. Который в итоге всё равно работал только на A100 с 40 Гб.
Обучение было полностью в Колабе на A100: ссылка
Сама модель: ссылка
Училась только Лора, 6 часов.
Плюсы axolotl:
- Все параметры в одном конфиге.
- Очень удобный отладочный режим для просмотра финальной токенизации.
- Быстрая поддержка новых фичей и моделей.
Минусы axolotl:
- Довольно посредственные исходники с кучей багов.
- Как будто бы никакого выигрыша по времени и памяти по сравнению с самописным hf-trainer'ом.
- Нельзя легко сделать новый шаблон промпта (например с родным геммовским <start_of_turn>), поэтому пришлось патчить токенизатор, чтобы переделать шаблон под ChatML.
Проблемы с Геммой:
- Странные OOM'ы на 24 Гб. Я пока не понимаю, как обучение Лоры с batch_size=1 может вылетать по памяти, когда с 13B моделями с теми же настройками всё было в порядке.
- repetition_penalty отличный от 1.0 ломает модель и в HF, и в llama.cpp. Не я один это заметил, см. эту дискуссию.
- GGUF квантизация ниже 8 бит тоже ломает модель, она перестает вовремя генерировать EOS.
- Рандомные баги посреди генерации, отчасти возникающие из-за того, что нельзя поставить repetition_penalty.
Из-за всего этого SbS с Мистралем она заведомо проиграет. При этом в примерах, где багов нет, ответы вполне адекватные.
Модель пока не стоит использовать. Надеюсь через пару недель баги везде пофиксят, и станет лучше. Потенциал в ней точно есть.
Например, её можно дообучать на больших русских корпусах без изменения токенизатора.
Точность в нейминге размера модели критически важна для LLM, поскольку это влияет на справедливость сравнения, воспроизводимость результатов и понимание компромиссов между размером модели и её производительностью.
Решил создать тред на HF. так что поддержать идею о переименовании модели Gemma7B в Gemma-9B можно тут:
👉 https://huggingface.co/google/gemma-7b/discussions/34
А то ресерч-маркетологи ведут себя как на рынке, ну и вообще, камон, округление все в начальной школе проходили.
#чтивонаночь
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
Про RoPE слышали? короче у rotary эмбедов есть проблема - сколько учишь, столько получишь, учишь 2048 - будь добр не суй больше 2048, ppl порветься(ну точнее взорвется)
Rope обычный работает так что Kый токен будет притворяться токеном на позиции которые трансформер в оригинале видел. Конечно такой схематоз надо обучать, но куда без этого. К слову можно учить LoRA, так что все не так плохо.
Что же докидывают microsoft?
Они перебирают разные варианты возможных позиций и подсовывают в модель. Типа работает сильно лучше потому что это подобранная эвристика. Ну и соотвественно с названием это все можно скелйить в 2m токенов(если гпу на инференс хватит)
paper
кода нет, но обещают
Еще подход к оптимизации LLM трейна через копирование слоев с рлем
Раз в несколько итераций трейна спрашивем рльную полиси (маленький MLP) какой слой копирнуть в вышестойщий. В статье этот механизм называется "связыванием", он определяет, когда слои тренируются и копируются. В самом начале тренируется только первый слой. Со временем остальные слои размораживаются через копирование из нижестоящих или тренируются независимо от других (когда полиси сказала, чтобы он был завязан сам на себя). Так понял.
На входе (s) - вектор с размерностью количества слоев в ллмке, где на каждой позиции стоит минимальный индекс "связанного" слоя, с которого веса копируются (когда надо).
Сама полиси тренируется вместе с LLMкой.
reward = -perplexity на батче
Получили:
BERT тратит на 1 эпоху ~ 2 раза меньше времени
GPT2 в пике потребяла ~ 3 раза меньше памяти чем при обычном трейне, но учится чуть дольше
Dynamic Layer Tying for Parameter-Efficient Transformers
https://arxiv.org/abs/2401.12819
Релиз mistral large и обновленных small(апи)
- по бенчам чуть хуже чем gpt4
- раз в 10 дешевле gpt4
- нативная поддержка романской группы(френч, итальянский) и немецкого с английским. Короче крупные европийские языки.
-function calling в апишке
А ещё мистраль теперь коллабиться с azure
Blog
cербия сила! 🇷🇸
тут товарищ выпустил Ft мистраля на южно славянские языки, и получилось вкусно(по бенчам)
ссылка
эм ну, сошлось и слава богу?
католический институт парижа, мастер аи, блин а звучит!
hypertext prompting->config prompting-> turing complete prompting->programing promtping
Читать полностью…🔺 Инструменты для помощи малым языкам
Написал небольшую статью на Хабр про текущие проекты, связанные с языками. Про дообучение LaBSE, про автоматическое извлечение параллельного корпуса этой моделью, про параллельные книги, проект Lingtrain и новый проект SuperMinor, который скоро запущу.
🔸 Весь код тоже выложил. Просьба поддержать, кому это интересно.
👉 Хабр
где то в париже:
ты ебунутый?
ну а что на ruste пописать нельзя?
нет, ты скажи ты ебанутый?
ну пописать нельзя?
ебанутый.
Тут обнимайлицо релизнули candle(с пол года делают, а я только недавно увидел) - что то среднее между torch и transformers, но для Rust.
Поддерживают значительную часть полезных архитектур, все модальности, а еще написаны kernel_ы для большинства железок популярных.
по скорости хуже чем python на 20%, но кому это важно?
ссылка
Сегодня вечером в Ереване будет сходка
/channel/+mXuW1ndJ3kM1YWFi
Адрес будет позже
ZLUDA — поддержка CUDA на видюхах AMD.
Разработчик Андрей Яник пилил для Intel поддержку CUDA на видюхах Arc, но спустя 2 года они решили, что никакого применения у CUDA на их GPU нет и обрубили финансирование без разрешения опенсорсить проект. Андрей пришёл в AMD и какое-то время работал над реализацией под их видюхи, но потом и они решили прикрыть лавочку. Однако в этот раз код разрешили открыть.
Работает где-то быстрее, чем OpenCL, а где-то медленнее или постоянно крашится. Поддержка и совместимость с разного рода софтом пока сильно ограничена.
В FAQ проекта написано, что он заброшен, но учитывая, что на прошлой неделе вышла версия 3, а народ даже опробовал с его помощью гонять llama.cpp на RX 6800, он таки развивается.
Гитхаб
Stable diffusion 3
- 800m до 8b
- генерация текста
- пока нет папиры/хф
- трансфомерные блоки
- flow mathcing(optimal transport диффузия)
ссылка