Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Визуальные Эмбеддинги от Nomic: SOTA в мультимодальном поиске
Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.
А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства 🖼️🔎
Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.
Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.
В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)
Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0
✨MET map
📃Пост
🌐Repo
🤗v1.5
Интересный, даже не концепт, а реально работающая тулза для скетчинга шагающих машин.
Кроме привычных инструментов, RobotSketch позволяет прототипировать ваши нарисованные идеи, как если бы вы реально построили настоящего робота и обучали его ходьбе.
Очень сложно на ранних этапах понять, как будут взаимодействовать части и сочленения машин, насколько она будет устойчивой и способной. Поэтому прототипирование — это один из самых важных этапов производства. Прикрученный ML модуль помогает вам прогнать итерации и посмотреть, как ваш гомункул учится ходить.
В демке есть также приятный бонус в виде VR мода для тех, кому этот вид кажется удобным. Для Джурабаева, видимо.
Робототехника — это новый приятный мятно-латтевый аромат завода, повышенные зарплаты на ближайшие 20 лет, а потом забвение. Подробнее вы можете прочитать в (Player Piano) Курта Воннегута.
Видео
FastHTML
Чюваки из fast.ai \ answer.ai в очередной раз упоролись и выкатили фронтенд на питоне.
Наконец-то мы, питонисты, сможем делать свои всратые интерфейсы напрямую, без этих ваших градио и реактов!
В конце концов, you cannot spell html without ml 🥲
Fastht.ml
В Таиланде нашли кафе, в котором идеально обслуживают удалёнщиков. По пятницам им меняют кофе на пиво.
Выезжаем.
Слили список видео, на которых тренировали Runway GEN-3.
Спойлер: конечно же, там куча пиратского контента. Также выкачивали красивые блогерскик видео с Ютуба.
Хз, правда кого в 2024-м можно этим удивить.
404media ссылается на бывшего сотрудника, который слил целый документ со ссылками на избранные плейлисты и каналы в ютубе для парсинга видео в датасет. Кроме того, документ содержит ссылки на сайты с пиратскими фильмами.
Примечательно, что такие сливы обычно опираются на "чьи-то слова" и притянутые за уши примеры похожих генераций, а тут прям целый документ с конкретными ссылками и тегами.
Смешно, что до обращения 404media runway спокойно генерала видосы с именами Ютуберов в промпте, а сейчас говорят, отказывается работать, лол.
Интересно, чем этот скандал закончится. Я не удивлюсь если и OpebAI тркнились на видео из Ютуба, и поэтому сейчас они особенно боятся давать доступ к SORA (вы ещё помните, что такая была?).
Источник
Документ
@ai_newz
Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсов. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.
Запустить ламу на домашнем кластере
@ai_newz
Новая порция звезд с собой из прошлого
Сделано в Kling
Kling генерации
⭐️ Приятное видео воссоединения одного и того же человека в молодости и в старости.
🧠 Все это сделано в Kling видеонейронке. Предварительно сшив две фотографии из разного возраста звезд в одну картинку и похоже подав с промптом на обнимание. 🐈⬛Доступ к видеонейронке только с валидным китайским номером.
☺️ Хотя с таким же подходом можно подать видео в Dream machine
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе.
Как это вышло?
➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12).
➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов.
➖ Завезли Group Query Attention, который раньше в таких моделях не использовался.
➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее.
Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий:
➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же.
➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте.
➖ Сначала считать слои в обычном порядке, а потом задом наперёд.
Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз).
В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет.
Пейпер
Код
@ai_newz
WestWorld intensifies, kurwa!
Ну что, зловещая долина, посоны? Анатомически корректные аниматронные руки от поляков из clonerobotics
by CloneRobotics
На случай, если вы вдруг искали возможность сделать липсинг для видео или фото (для сгенерированных тоже подойдет).
Можете попробовать этот тутор для ComfuUI через LivePortait.
Линки, где качать и как устанавливать, есть в описании к видосу.
Тут
Нас ждет абсолютно новый геймдев. Зацените, что делают ребята, которые сидят на жестких гауссиан сплатах.
Одна картинка и целый мир готов. В целом генерация таких 3D сцен — это не новость, но вот в риалтайме еще никому не удавалось. На генерацию одной полной сцены уходит 10 секунд на A6000 GPU. Это, конечно, не ультра скорость, но учтите, что даже в играх никто не рендерит во все 360. Можно считать, что это просто мир прогружается, а потом спокойно бегать.
Картинка номер 2 в общем-то вполне наглядно объясняет принцип работы. Здесь у нас солянка из добротных быстрых гауссиан сплатов, карт глубины и аутпейнтинга.
Берут изначальную картинку, из нее извлекают карту глубины, как в обычном контролнете при аутпейнтинге генерируют мир вокруг изначальной картинки. Но с тем отличием, что карту глубины как бы упрощают и берут ограниченное количество "глубин" в целях оптимизации. Тренируют салаты по картинке.
Наслаждаемся и ходим по новоиспеченной сцене.
А если к этому еще и прикрутить PhysDreamer ой-ой-йой... (это который позволяет физически взаимодействовать со сплатами)
Когда там уже нейрорендер станет мейнстримом? Где мой риалтайм сгенерированный мир в 120 fps или ещё лучше как в нашей статье 1000fps?
Ветка про Gaussian Splatting:
- 3D Gaussian Splatting ликбез
- NerfStudio, ну а вдруг пригодится,
- мерджим картинки,
- Infinite Realities
- PhysDreamer
Project page, там даже есть демо, правда, заранее сгенерированное, просто погулять. Но сам рендеринг сцены прямо в браузере, придется немного подождать.
Бумага
Код (скоро)
@ai_newz
Вышла 4o у нас дома, стриминг аудио в обе стороны, перебивает и только английский.
Играться тут
Анонс
La République est maniaque, опять ребята из Франции
Для flux начали появляться первые робкие контролнеты!
Hf
Tweet
@derplearning
Помните был такой алгоритм Deepdream? Если его картинки подавать на вход в Gen 3, она очень стильно трипует 🐑
Читать полностью…Немного лумы и клинга на сон грядущий
Пираты аджарского моря великолепны, конечно.
Stretching Each Dollar: Diffusion Training from Scratch on
a Micro-Budget
Демократизация обучения text2image трансформеров во все поля!
Чюваки из Sony AI и University of California упоролись и сократили косты на обучение в 14 раз по сравнению с текущим SOTA-подходом и aж в 118 раз по сравнению с затратами на обучение StableDiffusion 2.1
Для сравнения:
их подход - $1890, 60 8xH100- часов
текущий SOTA - $28000, 18000 A100-часов
SD2.1 - 200000 A100-часов
Сделали они это просто потренив не на а100, а на h100 с помощью маскировки 75% патчей при обучении.
FID, конечно, немного притянут. Если уж два дня тренили, чего еще два дня не потренили, все равно фора огромная.
В целом тренд на демократизацию опенсорсного ИИ мне по душе, теперь и GPU-poor посоны (8xH100) смогут ворваться в мир диплерненга! Ура товарищи!
paper
Design and Control of a Bipedal Robotic Character
Пейпер года конечно (по уровню милоты)
Paper
Отец знакомого работает в Microsoft. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать всю технику и бежать в магазин за драйверами на две недели. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...
Читать полностью…Помню мне как-то предлагали вакансию "водитель фуры-рефрижератора по вашему резюме 3д-визуализатор"
Читать полностью…Пока OpenAI всё тянет с релизом обещанной модельки, гугл потихоньку разворачивает киллер-фичи от Gemini, в том числе Vids.
Vids — это новая тулза от гугл, которая должна помось создавать видосы на скорую руку. Из функционала:
- Генерация скрипта
- Текста для видео
- Подбор стоковых видео
- Генерация видео (наверное через Veo)
- Подбор фоновой музыки
- Генерация текста для озвучки
- Генерация самой озвучки
И всё это в один шаблон.
Короче, полноценный агент для создания дешёвых промо роликов. (Ну а что, Спилберг тоже не с Голливуда начинал)
Чтобы проверить, есть ли у вас доступ к функциям Workspace Labs, откройте документ в Google Docs. Слева [у меня была справа] найдите раздел "Help me write".
Всегда работающий приём — взять что-то очень новое и смешать со старым, или лучше с очень старым.
Например, взять модную шмотку, крашеные волосы, пирсинг, татухи и смешать с чтением книг, экспертностью в вине и слушаньем музыки на виниле или, ладно, кассетах.
Или делать поиски в латентном пространстве с помощью MIDI-контроллера в реальном времени.
Технологии будут совсем неотличимы от магии, если замешать всё это на химические элементы, колбы и пипетки, я полагаю.
Красота крутится на SDXL Turbo и тулките для интерактивных выставок Lunar Tools
gpu.cpp - a lightweight library that makes portable GPU compute with C++ simple
Тем временем парни из answer.ai (ex fast.ai) упоролись и выкатили gpu-agnostic фреймворк на WebGPU для С++.
Теперь один и тот же код можно крутить на всем, где есть Vulkan, Metal, или DirectX.
При этом тащить 100500гб CUDA для hello world больше не надо.
/ Ну и маководы снова в деле! :D
git
x-уит
answer.ai
@derplearning
In the age of AI, dating a model is not a brag anymore
#wordplay
@Sickipedia
На этом видео PoV Джо Байдена, когда он покидает сцену.
Читать полностью…Ну все, художников теперь заменят еще и аниматронные коты.
Читать полностью…