Ищу кредиты на клауд, и вы хотите поделиться компьютом(порядка сингл ноды(dgx like) на несколько месяцев< 3) на благое дело, то вас очень сильно ждут @maxalekv
Читать полностью…Сайга-Гемма
Или переходим на обучение в axolotl.
Изначально идея этого эксперимента была в сравнении axolotl vs unsloth vs hf-trainer для дообучения новой базовой модели, Геммы.
Однако unsloth до сих пор её не поддерживает, а hf-trainer на 24 Гб карточке вылетает по памяти, так что остался только axolotl. Который в итоге всё равно работал только на A100 с 40 Гб.
Обучение было полностью в Колабе на A100: ссылка
Сама модель: ссылка
Училась только Лора, 6 часов.
Плюсы axolotl:
- Все параметры в одном конфиге.
- Очень удобный отладочный режим для просмотра финальной токенизации.
- Быстрая поддержка новых фичей и моделей.
Минусы axolotl:
- Довольно посредственные исходники с кучей багов.
- Как будто бы никакого выигрыша по времени и памяти по сравнению с самописным hf-trainer'ом.
- Нельзя легко сделать новый шаблон промпта (например с родным геммовским <start_of_turn>), поэтому пришлось патчить токенизатор, чтобы переделать шаблон под ChatML.
Проблемы с Геммой:
- Странные OOM'ы на 24 Гб. Я пока не понимаю, как обучение Лоры с batch_size=1 может вылетать по памяти, когда с 13B моделями с теми же настройками всё было в порядке.
- repetition_penalty отличный от 1.0 ломает модель и в HF, и в llama.cpp. Не я один это заметил, см. эту дискуссию.
- GGUF квантизация ниже 8 бит тоже ломает модель, она перестает вовремя генерировать EOS.
- Рандомные баги посреди генерации, отчасти возникающие из-за того, что нельзя поставить repetition_penalty.
Из-за всего этого SbS с Мистралем она заведомо проиграет. При этом в примерах, где багов нет, ответы вполне адекватные.
Модель пока не стоит использовать. Надеюсь через пару недель баги везде пофиксят, и станет лучше. Потенциал в ней точно есть.
Например, её можно дообучать на больших русских корпусах без изменения токенизатора.
Точность в нейминге размера модели критически важна для LLM, поскольку это влияет на справедливость сравнения, воспроизводимость результатов и понимание компромиссов между размером модели и её производительностью.
Решил создать тред на HF. так что поддержать идею о переименовании модели Gemma7B в Gemma-9B можно тут:
👉 https://huggingface.co/google/gemma-7b/discussions/34
А то ресерч-маркетологи ведут себя как на рынке, ну и вообще, камон, округление все в начальной школе проходили.
Нет gqa у 7в
Огромный словарь
16х ffn dim
Head size 256
В коде для хф модели нет flash attn
7B на самом деле почти 8.2(с эмбедами)
Очень странный релиз
Вышла Gemma - llama от google, огромный токенайзер на 260к токенов, 6T(!) токенов в претрене, хорошая токенизация русского и средний mt перфоманс(на русском на вид средне).
по метрикам что то около mistral 7b для страшей модели(7b) и phi2 для 2b модели
ссылка
Поясните пожалуйста за математику, я правильно понимаю что для 70В модели надо иметь 300+ карт(20к usd каждая, те 11м USD за все). А dgx h100 способный в mp=8 выдавать те же 500т/с стоит 300к USD и при этом может не только инферить модельки но и учить?(для groq нет backward kernels)
Это прекрасный мир будущего с 7т инвестиций или что?
No overall очень крутой врыв для людей из вне, думаю в ближайшем времени мы наконец увидим нормальные цены на cloud computing.
Рекламный буклет
Чат, а никто не работает в general Ai в Microsoft?
Знакомый очень сильно ищемт рефера.
Писать в:
@maxalekv
#чтивонаночь
Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста
Вы думаете я пересказал релизы от 16 февраля?
Нет, это ОДНА китайская моделька!!
alexwortega/c07ry5sAGbP">читать
код
Недавно коллеги из соседнего чата выпустили Vikhr-7b-instruct_0.2 - хорошую, на мой взгляд, русскоязычную instruct модель.
Я сделал квантизацию этой модели, забрать можно на Hugging Face .
@toshoseti
🧠 Сделал нейросеть для генерации пейзажей России. Первая версия обучена на 3500 изображениях из тематических пабликов ВК.
Это LoRA адаптер к SD-XL 1.0. Подписи к изображениям в датасете сгенерированы Kosmos-2.
Затем обучу вторую модель на 20 000+ изображениях и более подробно расскажу об создании нейросети и зачем вообще все это.
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v1.0
Демо - https://hf.co/spaces/0x7o/RussianVibe-1.0
Код - https://github.com/0x7o/RussianVibe
Запись открытой лекции Е.Е. Тыртышникова для лектория МГУ-СБЕР: «Размерность – это проклятие или благо?»
доступна по ссылке.
После лекции прошла интересная дискуссия Евгения Евгеньевича с Альбертом Рувимовичем Ефимовым, Александром Владимировичем Гасниковым и Глебом Геннадьевичем Гусевым.
Напоминаем, что по пятницам начали работу семинары ИВМ-ВТМ-Huawei (дедлайн конкурсов стипендий и сочинений продлён до 1 марта), подробности в группе https://vk.com/vtminmhuawei
Приходите!
Не обзор Sora
- архитектура не понятная, патчи, ссылки на cavit(video vit), диффузии, бульбулятор и непойми еще на что
- про данные известно что их размечали синтетически
- если потратить х16 компьюта модель будет работать лучше. что такое х1 компьюта - одному карпатому известно.
- за счет того что трансформер генерит патчи(?) которые декодируются диффузией можно вместо кучи фреймов генерить 1 и притворяться что у нас text2image, а еще решать кучу задач, ну патчи можно inplace удалять и догенеривать кадры в центре, или продолжать видео. Круто и изящно, но деталей нет
- картинка как комментарий к названию статьи.
Сегодня вечером в Ереване будет сходка
/channel/+mXuW1ndJ3kM1YWFi
Адрес будет позже
ZLUDA — поддержка CUDA на видюхах AMD.
Разработчик Андрей Яник пилил для Intel поддержку CUDA на видюхах Arc, но спустя 2 года они решили, что никакого применения у CUDA на их GPU нет и обрубили финансирование без разрешения опенсорсить проект. Андрей пришёл в AMD и какое-то время работал над реализацией под их видюхи, но потом и они решили прикрыть лавочку. Однако в этот раз код разрешили открыть.
Работает где-то быстрее, чем OpenCL, а где-то медленнее или постоянно крашится. Поддержка и совместимость с разного рода софтом пока сильно ограничена.
В FAQ проекта написано, что он заброшен, но учитывая, что на прошлой неделе вышла версия 3, а народ даже опробовал с его помощью гонять llama.cpp на RX 6800, он таки развивается.
Гитхаб
Stable diffusion 3
- 800m до 8b
- генерация текста
- пока нет папиры/хф
- трансфомерные блоки
- flow mathcing(optimal transport диффузия)
ссылка
260к токенайзер это довольно много, мало языков которые модель не видела, вероятно базовый перфоманс будет неплохой.
но то на чем тренили вызывает вопрос, почему то авторы акцентируют внимание на том что они выразил child abuse content. Я вообще впервые такое вижу
⚡️ RussianVibe XL 2.0
Завершено обучение второй версии нейронной сети для генерации пейзажей России. На этот раз набор фотографий был почти в 6 раз больше, чем в версии 1.0!
Такое увеличение датасета существенно повлияло на качество модели:
- Улучшилась геометрия зданий. Теперь они больше похожи на привычный вид из окна)))
- Сцены стали более сложными.
- Цвета стали более разнообразными и насыщенными.
Но качество базового вывода сильно ухудшилось. Это связано с тем, что большинство фотографий из набора данных были сделаны на обычный телефон, из-за чего нейросеть генерирует слегка размытые изображения. Исправить это достаточно просто - добавьте тег low quality
к negative_prompt.
Чуть позже я напишу статью на Хабре с более подробным техническим описанием того, как это работает и зачем это все вообще нужно :)
Онлайн демонстрация - https://hf.co/spaces/0x7o/RussianVibe
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v2.0
Датасет - https://hf.co/datasets/0x7o/RussianVibe-data
GitHub - https://github.com/0x7o/RussianVibe
@hikonon
Мужской депрессии не существует.
Любой мужчина когда у него что то плохо работает: stack more layers
Вот кому и зачем нужен 97gb text encoder? Чтобы что?
alexwortega/c07ry5sAGbP" rel="nofollow">https://teletype.in/@alexwortega/c07ry5sAGbP
Читать полностью…🎙 Стрим с авторами Impact of Tokenization on LLaMa Russian Adaptation https://arxiv.org/abs/2312.02598
Когда: вторник 20 февраля в 19:00 по Москве
Где: видеочат в @natural_language_processing
Запись будет
Что обсудим:
- Сохранилось ли качество на английском
- Достаточно ли обновить первый и последний слои, какие еще подходы
- Как оценивали: RSG, SbS; какие результаты/выводы
Приходите комментировать, задавать вопросы
Дошли руки начать переводить openorca.
Перевожу через gpt3.5, поэтому может занять продолжительное время. Первый кусок на 10к сэмплов, планирую перевести 60-80k.
он не фильтрованный, позже будет фильтрованный, поэтому там есть сэмплы без перевода и None.
ссылка
Все инструкт модели оверфитнуты на: парки и зоны отдыхи, офис, друзья. В качестве универсального совета что посмотреть вечером
Читать полностью…папиры в 2020-22: вот такая архитектура, вот такой оптимайзер, вот такой датасет
2024: если модель учить, она учиться