папиры еще нет, есть только короткое: модель это гибрид трансформера и диффузии.
Ставки, потом посмотрим что внутри:
- отдельные эмбединги кадров генерятся трансформером
- эмбеды из трансформера идут в диффузию с доп. кондишеном на время
- возможно LCM дистиляция диффузии(?)
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
невероятного размера контекст, сота на всех бенчах, видео по 40 минут в модель, что там внутри одному Брину известно.
Я фотошопил эту картинку столько же сколько полезной для ресерча информации в статье.
Это модели зелибобы, которых заабортили сегодня во время обучения. Еще градиенты не успели проброситься все… Это чьи-то модели, они нужны чтобы сделать задачи. И те мрази, которые забирают у нашей квоты гпушки, будут болтать с недообученными моделями в аду. Шойгу! Герасимов! Где гпушки???
Читать полностью…Вы думали Тиктоки странные? Позвольте представить вам дискорд-видео
Тут больше:
https://www.reddit.com/r/discordVideos/top/?t=year
Тут вышло геймпленое демо индики: игра про монашку в стимпанковой Российской империи 19века, с физическими загадками и демоническими трипами.
видео
Кстати, прямо сейчас проходит
Large Language Model Capture-the-Flag (LLM CTF) Competition @ SaTML 2024
Как я понял из описания продлится до 3 марта.
Кнопочка регистрации команды активна
https://ctf.spylab.ai/
Ежик в тумане, 2024
Stable Video Diffusion очень неплохо имитирует поведение природных явлений - воды, огня, тумана, облаков. а также вполне четко считывает объем и улавливает предполагаемую динамику в кадре: без особого управления хорошо двигает камеру обычно в 2 случаях из 5
поэтому пайплайн чаще всего выглядит так: закинул картинку и жмешь 2-3 раза на генерацию, выбираешь лучший вариант
шевелить объекты не очень любит но иногда умеет. главное не переборщить с таким оживлением, иначе объекты ломаются
и к сожалению главное ограничение - всего 25 кадров за раз
картинки - mj
анимация - SVD 1.1
музыка - suno.ai
@тоже_моушн
Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.
Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.
Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.
Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm
. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True)
, и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.
Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.
Привет! Нашел твою статью на openreview — это не будет работать) Вечером что делаешь?
Читать полностью…Опен аи релизнули text2video
- папиры нет
- информации нет - Learn more in our technical paper (coming later today).
- демки отвал жопы
https://openai.com/sora
пример
Митап Победителей в Лотерею 27 февраля!
Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀
🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.
На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟
Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)
Обязательная регистрация по ссылке
📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения
ODS Moscow
я обычно игнорирую высказывания в духе: "сфера дайсона за 5 лет", но мне нужно запостить этот текст
Читать полностью…- Высшее образование нужно чтобы получать 10k USD за месяц, а не за ночь
- экономика у тебя ебаная если честно
-- Господа, давайте построим agi за пять лет и 7Т usd
-- Да что вы, поручик, у нас таких денег нет.
Поручик, задумчиво:
-- ну тогда хотя бы Ai waifu ?
Я один замечаю как растут эстимейты? В прошлый раз было 5 лет до agi, в этот раз стало 7Т USD и построить фабы по всей планете ...
Let Your Graph Do the Talking: Encoding Structured Data for LLMs
[arXiv]
Что мы делаем в 2024? Правильно, засовываем всё, что плохо лежит 🗑, в большие языковые модели. У нас в команде плохо лежат графы, так что в нашей новой статье они отправляются напрямую в PaLM2. 👮♂️
Конечно, граф нужно как-то закодировать. У коллег была статья на ICLR'24 (или будет? конференция-то будет в мае), где граф трансформируют в текст простыми способами: как список вершин и рёбер. Вместо этого мы бахнули графовую нейросетку, которая трансформирует граф в набор токенов, которые кормятся LLMке. Поскольку нам хотелось полностью погрузиться в LLM-безумие, напрямую от задачи графовая сетка градиенты не получает – только через языковую модель. Назвали модель GraphToken. 👌
Поскольку мы работаем с графами, мы можем сгенерировать их все. На 8 вершинах существует 11117 связных графов, вот на них мы и тестировались. Тестсет – так уж на все точки пространства – чего мелочиться. ✨
В статье мы показываем, что GraphToken умудряется генерализоваться как in-distribution с 1000 тренировочных примеров, так и out-of-distribution – на новые задачи, очень слабо связанные с предыдущими.
P.S. в названии – отсылка к песне Aerosmith. 😎
Grandmaster-Level Chess Without Search by deepmind
Yet another alpha* like paper -идея в том что давайте возьмем кучу партий, разметим их через Stockfish(шахматный движок на основе сетки для перевзвешивания + поиск по дереву ходов)
+ хитрые лоссы чтобы учиться на лучших стейтах и предсказывать дополнительно хорошесть хода.
Результататы конечно крутые, но вопросы есть(нахуя и почему gpt3.5)
paper
DeepSeek
Всегда найдется китайский бакалавр который сделает лучше
- учили на Fill in the middle и next token prediction
- дефолтный 32к токенайзер + ROPE + GQA(для 33B модели), а еще китайцы написали себе свой deepspeed, но я не разбирался чем он лучше блог
- По бенчам значимо лучше чем 3.5 и хуже чем gpt4
paper
models
Мы открыли набор на весенний семестр Deep Learning School!
В этом семестре мы возвращаемся к привычному формату — запускаем сразу оба потока обучения:
- часть 1 (введение в DL + CV)
- часть 2 (NLP)
В этом семестре мы почти полностью обновили программу второй части, а также перезаписали несколько лекций и семинаров в первой. Подробную информацию об организации курса и программы обучения можно найти тут.
❗️Наша школа всегда была и остается бесплатной для всех. Но теперь для первой чати курса есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Обратите внимание, что для успешного прохождения второй части курса нужны знания из первой (основы DL и CV). Поэтому мы рекомендуем записываться на вторую часть после прохождения первой.
Регистрация продлится до 17 февраля. Старт обучения на первой части — 10 февраля, на второй — 17 февраля. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).
Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.
Ждем вас в чатике курса в новом семестре! =)