Нет gqa у 7в
Огромный словарь
16х ffn dim
Head size 256
В коде для хф модели нет flash attn
7B на самом деле почти 8.2(с эмбедами)
Очень странный релиз
Вышла Gemma - llama от google, огромный токенайзер на 260к токенов, 6T(!) токенов в претрене, хорошая токенизация русского и средний mt перфоманс(на русском на вид средне).
по метрикам что то около mistral 7b для страшей модели(7b) и phi2 для 2b модели
ссылка
Поясните пожалуйста за математику, я правильно понимаю что для 70В модели надо иметь 300+ карт(20к usd каждая, те 11м USD за все). А dgx h100 способный в mp=8 выдавать те же 500т/с стоит 300к USD и при этом может не только инферить модельки но и учить?(для groq нет backward kernels)
Это прекрасный мир будущего с 7т инвестиций или что?
No overall очень крутой врыв для людей из вне, думаю в ближайшем времени мы наконец увидим нормальные цены на cloud computing.
Рекламный буклет
Чат, а никто не работает в general Ai в Microsoft?
Знакомый очень сильно ищемт рефера.
Писать в:
@maxalekv
#чтивонаночь
Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста
Вы думаете я пересказал релизы от 16 февраля?
Нет, это ОДНА китайская моделька!!
alexwortega/c07ry5sAGbP">читать
код
Недавно коллеги из соседнего чата выпустили Vikhr-7b-instruct_0.2 - хорошую, на мой взгляд, русскоязычную instruct модель.
Я сделал квантизацию этой модели, забрать можно на Hugging Face .
@toshoseti
🧠 Сделал нейросеть для генерации пейзажей России. Первая версия обучена на 3500 изображениях из тематических пабликов ВК.
Это LoRA адаптер к SD-XL 1.0. Подписи к изображениям в датасете сгенерированы Kosmos-2.
Затем обучу вторую модель на 20 000+ изображениях и более подробно расскажу об создании нейросети и зачем вообще все это.
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v1.0
Демо - https://hf.co/spaces/0x7o/RussianVibe-1.0
Код - https://github.com/0x7o/RussianVibe
Запись открытой лекции Е.Е. Тыртышникова для лектория МГУ-СБЕР: «Размерность – это проклятие или благо?»
доступна по ссылке.
После лекции прошла интересная дискуссия Евгения Евгеньевича с Альбертом Рувимовичем Ефимовым, Александром Владимировичем Гасниковым и Глебом Геннадьевичем Гусевым.
Напоминаем, что по пятницам начали работу семинары ИВМ-ВТМ-Huawei (дедлайн конкурсов стипендий и сочинений продлён до 1 марта), подробности в группе https://vk.com/vtminmhuawei
Приходите!
Не обзор Sora
- архитектура не понятная, патчи, ссылки на cavit(video vit), диффузии, бульбулятор и непойми еще на что
- про данные известно что их размечали синтетически
- если потратить х16 компьюта модель будет работать лучше. что такое х1 компьюта - одному карпатому известно.
- за счет того что трансформер генерит патчи(?) которые декодируются диффузией можно вместо кучи фреймов генерить 1 и притворяться что у нас text2image, а еще решать кучу задач, ну патчи можно inplace удалять и догенеривать кадры в центре, или продолжать видео. Круто и изящно, но деталей нет
- картинка как комментарий к названию статьи.
папиры еще нет, есть только короткое: модель это гибрид трансформера и диффузии.
Ставки, потом посмотрим что внутри:
- отдельные эмбединги кадров генерятся трансформером
- эмбеды из трансформера идут в диффузию с доп. кондишеном на время
- возможно LCM дистиляция диффузии(?)
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
невероятного размера контекст, сота на всех бенчах, видео по 40 минут в модель, что там внутри одному Брину известно.
Я фотошопил эту картинку столько же сколько полезной для ресерча информации в статье.
Это модели зелибобы, которых заабортили сегодня во время обучения. Еще градиенты не успели проброситься все… Это чьи-то модели, они нужны чтобы сделать задачи. И те мрази, которые забирают у нашей квоты гпушки, будут болтать с недообученными моделями в аду. Шойгу! Герасимов! Где гпушки???
Читать полностью…260к токенайзер это довольно много, мало языков которые модель не видела, вероятно базовый перфоманс будет неплохой.
но то на чем тренили вызывает вопрос, почему то авторы акцентируют внимание на том что они выразил child abuse content. Я вообще впервые такое вижу
⚡️ RussianVibe XL 2.0
Завершено обучение второй версии нейронной сети для генерации пейзажей России. На этот раз набор фотографий был почти в 6 раз больше, чем в версии 1.0!
Такое увеличение датасета существенно повлияло на качество модели:
- Улучшилась геометрия зданий. Теперь они больше похожи на привычный вид из окна)))
- Сцены стали более сложными.
- Цвета стали более разнообразными и насыщенными.
Но качество базового вывода сильно ухудшилось. Это связано с тем, что большинство фотографий из набора данных были сделаны на обычный телефон, из-за чего нейросеть генерирует слегка размытые изображения. Исправить это достаточно просто - добавьте тег low quality
к negative_prompt.
Чуть позже я напишу статью на Хабре с более подробным техническим описанием того, как это работает и зачем это все вообще нужно :)
Онлайн демонстрация - https://hf.co/spaces/0x7o/RussianVibe
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v2.0
Датасет - https://hf.co/datasets/0x7o/RussianVibe-data
GitHub - https://github.com/0x7o/RussianVibe
@hikonon
Мужской депрессии не существует.
Любой мужчина когда у него что то плохо работает: stack more layers
Вот кому и зачем нужен 97gb text encoder? Чтобы что?
alexwortega/c07ry5sAGbP" rel="nofollow">https://teletype.in/@alexwortega/c07ry5sAGbP
Читать полностью…🎙 Стрим с авторами Impact of Tokenization on LLaMa Russian Adaptation https://arxiv.org/abs/2312.02598
Когда: вторник 20 февраля в 19:00 по Москве
Где: видеочат в @natural_language_processing
Запись будет
Что обсудим:
- Сохранилось ли качество на английском
- Достаточно ли обновить первый и последний слои, какие еще подходы
- Как оценивали: RSG, SbS; какие результаты/выводы
Приходите комментировать, задавать вопросы
Дошли руки начать переводить openorca.
Перевожу через gpt3.5, поэтому может занять продолжительное время. Первый кусок на 10к сэмплов, планирую перевести 60-80k.
он не фильтрованный, позже будет фильтрованный, поэтому там есть сэмплы без перевода и None.
ссылка
Все инструкт модели оверфитнуты на: парки и зоны отдыхи, офис, друзья. В качестве универсального совета что посмотреть вечером
Читать полностью…папиры в 2020-22: вот такая архитектура, вот такой оптимайзер, вот такой датасет
2024: если модель учить, она учиться
Опен аи релизнули text2video
- папиры нет
- информации нет - Learn more in our technical paper (coming later today).
- демки отвал жопы
https://openai.com/sora
пример
Митап Победителей в Лотерею 27 февраля!
Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀
🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.
На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟
Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)
Обязательная регистрация по ссылке
📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения
ODS Moscow
я обычно игнорирую высказывания в духе: "сфера дайсона за 5 лет", но мне нужно запостить этот текст
Читать полностью…