Запись открытой лекции Е.Е. Тыртышникова для лектория МГУ-СБЕР: «Размерность – это проклятие или благо?»
доступна по ссылке.
После лекции прошла интересная дискуссия Евгения Евгеньевича с Альбертом Рувимовичем Ефимовым, Александром Владимировичем Гасниковым и Глебом Геннадьевичем Гусевым.
Напоминаем, что по пятницам начали работу семинары ИВМ-ВТМ-Huawei (дедлайн конкурсов стипендий и сочинений продлён до 1 марта), подробности в группе https://vk.com/vtminmhuawei
Приходите!
Не обзор Sora
- архитектура не понятная, патчи, ссылки на cavit(video vit), диффузии, бульбулятор и непойми еще на что
- про данные известно что их размечали синтетически
- если потратить х16 компьюта модель будет работать лучше. что такое х1 компьюта - одному карпатому известно.
- за счет того что трансформер генерит патчи(?) которые декодируются диффузией можно вместо кучи фреймов генерить 1 и притворяться что у нас text2image, а еще решать кучу задач, ну патчи можно inplace удалять и догенеривать кадры в центре, или продолжать видео. Круто и изящно, но деталей нет
- картинка как комментарий к названию статьи.
папиры еще нет, есть только короткое: модель это гибрид трансформера и диффузии.
Ставки, потом посмотрим что внутри:
- отдельные эмбединги кадров генерятся трансформером
- эмбеды из трансформера идут в диффузию с доп. кондишеном на время
- возможно LCM дистиляция диффузии(?)
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
невероятного размера контекст, сота на всех бенчах, видео по 40 минут в модель, что там внутри одному Брину известно.
Я фотошопил эту картинку столько же сколько полезной для ресерча информации в статье.
Это модели зелибобы, которых заабортили сегодня во время обучения. Еще градиенты не успели проброситься все… Это чьи-то модели, они нужны чтобы сделать задачи. И те мрази, которые забирают у нашей квоты гпушки, будут болтать с недообученными моделями в аду. Шойгу! Герасимов! Где гпушки???
Читать полностью…Вы думали Тиктоки странные? Позвольте представить вам дискорд-видео
Тут больше:
https://www.reddit.com/r/discordVideos/top/?t=year
Тут вышло геймпленое демо индики: игра про монашку в стимпанковой Российской империи 19века, с физическими загадками и демоническими трипами.
видео
Кстати, прямо сейчас проходит
Large Language Model Capture-the-Flag (LLM CTF) Competition @ SaTML 2024
Как я понял из описания продлится до 3 марта.
Кнопочка регистрации команды активна
https://ctf.spylab.ai/
Ежик в тумане, 2024
Stable Video Diffusion очень неплохо имитирует поведение природных явлений - воды, огня, тумана, облаков. а также вполне четко считывает объем и улавливает предполагаемую динамику в кадре: без особого управления хорошо двигает камеру обычно в 2 случаях из 5
поэтому пайплайн чаще всего выглядит так: закинул картинку и жмешь 2-3 раза на генерацию, выбираешь лучший вариант
шевелить объекты не очень любит но иногда умеет. главное не переборщить с таким оживлением, иначе объекты ломаются
и к сожалению главное ограничение - всего 25 кадров за раз
картинки - mj
анимация - SVD 1.1
музыка - suno.ai
@тоже_моушн
Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.
Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.
Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.
Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm
. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True)
, и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.
Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.
папиры в 2020-22: вот такая архитектура, вот такой оптимайзер, вот такой датасет
2024: если модель учить, она учиться
Опен аи релизнули text2video
- папиры нет
- информации нет - Learn more in our technical paper (coming later today).
- демки отвал жопы
https://openai.com/sora
пример
Митап Победителей в Лотерею 27 февраля!
Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀
🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.
На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟
Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)
Обязательная регистрация по ссылке
📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения
ODS Moscow
я обычно игнорирую высказывания в духе: "сфера дайсона за 5 лет", но мне нужно запостить этот текст
Читать полностью…- Высшее образование нужно чтобы получать 10k USD за месяц, а не за ночь
- экономика у тебя ебаная если честно
-- Господа, давайте построим agi за пять лет и 7Т usd
-- Да что вы, поручик, у нас таких денег нет.
Поручик, задумчиво:
-- ну тогда хотя бы Ai waifu ?
Я один замечаю как растут эстимейты? В прошлый раз было 5 лет до agi, в этот раз стало 7Т USD и построить фабы по всей планете ...
Let Your Graph Do the Talking: Encoding Structured Data for LLMs
[arXiv]
Что мы делаем в 2024? Правильно, засовываем всё, что плохо лежит 🗑, в большие языковые модели. У нас в команде плохо лежат графы, так что в нашей новой статье они отправляются напрямую в PaLM2. 👮♂️
Конечно, граф нужно как-то закодировать. У коллег была статья на ICLR'24 (или будет? конференция-то будет в мае), где граф трансформируют в текст простыми способами: как список вершин и рёбер. Вместо этого мы бахнули графовую нейросетку, которая трансформирует граф в набор токенов, которые кормятся LLMке. Поскольку нам хотелось полностью погрузиться в LLM-безумие, напрямую от задачи графовая сетка градиенты не получает – только через языковую модель. Назвали модель GraphToken. 👌
Поскольку мы работаем с графами, мы можем сгенерировать их все. На 8 вершинах существует 11117 связных графов, вот на них мы и тестировались. Тестсет – так уж на все точки пространства – чего мелочиться. ✨
В статье мы показываем, что GraphToken умудряется генерализоваться как in-distribution с 1000 тренировочных примеров, так и out-of-distribution – на новые задачи, очень слабо связанные с предыдущими.
P.S. в названии – отсылка к песне Aerosmith. 😎
Grandmaster-Level Chess Without Search by deepmind
Yet another alpha* like paper -идея в том что давайте возьмем кучу партий, разметим их через Stockfish(шахматный движок на основе сетки для перевзвешивания + поиск по дереву ходов)
+ хитрые лоссы чтобы учиться на лучших стейтах и предсказывать дополнительно хорошесть хода.
Результататы конечно крутые, но вопросы есть(нахуя и почему gpt3.5)
paper