🔥Stable Diffusion 3 на подходе!
Stability.ai наконец публично анонсировали, то о чем я говорил в этом посте.
Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.
- За счет этого модель умеет круто генерить текст.
- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.
- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно линейные траектории между шумом и реальными картинками.
@ai_newz
SVD-ControlNets
В ноде Advanced-ControlNet в ComfyUI появилась поддержка моделей control net для Stable Diffusion Video.
Теперь вы можете лучше управлять направлением картинки, закидывая нужный референсный видеоряд и вытаскивая оттуда либо линии, либо карту глубины, а может и оба варианта для лучшего контроля.
Ожидаем позы для персонажей и творить станет еще проще.
Здесь есть стрим-урок на английском по карте глубины. (Урок еще до поддержки в Advanced-ControlNet)
Depth ContolNet SVD 🔄
LineArt ControlNet SVD 👀
Depth Anything (25M q8) теперь и в transformers.js
Можно делать это ваше псевдо-3д-шевеление картинок прямо в браузере.
Мелкая моделька звезд с неба не хватает, но 27 мегабайт - это 27 мегабайт.
Вариации модели побольше тоже есть, но вряд ли вы будете каждый раз добровольно тянуть 300мб :D
tweet
github
demo
@derplearning
Классный пост от Антона, про то как он принял участие в соревновании по расшифровке древних свитков уничтоженных Везувием (тот вулкан, что уничтожил Помпеи и соседние города в 79 году).
Антон хоть пока и не выиграл главный приз, но выиграл промежуточный:
/channel/repushko_channel/1953
…пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.
Очень люблю такое – сочетание передовых технологий и исторических материалов, это единственный способ заглянуть в наше, человеческое, прошлое
Запустили с командой новый продукт LittleStory:
AI-генератор длинных и (относительно) интересных сказок для детей.
Пользователь регистрируется, добавляет на сайт описание ребенка (характер, возраст) и получает возможность с пары кликов сгенерировать историю и иллюстрации, где сам ребенок — главный герой, а сказка строится вокруг какой-то позитивной темы — здорового питания, хорошего поведения или простым языком рассказывается сложный научный концепт, аля квантовая физика для самых маленьких (сложность языка сказки подстраивается под возвраст).
Из прикольного — можно прописать любимую вселенную для сказки, игровую, книжную или из мультика. Ну и само собой каждая генерация тщательно проверяется на «безопасность темы» для детей.
Все работает на GPT4, поэтому бесплатно дать генерации пока что не можем — но зато мы нагенерировали сотни бесплатных сказок на разные темы, можно почитать и оценить качество.
Уже сейчас есть шесть языков (Английский, Хинди, Русский, Традиционный Китайский, Украинский, Голландский) и скоро доведем до 11+, еще планируем фичи вроде озвучки сказок или копирования голоса родителя для чтения этих самых сказок (небольшое вложение в SciFi от нас ☕️).
Это первый запуск нашей команды на Product Hunt, так что если у вас есть аккаунт, буду рад фидбеку там (комменты не на английском там удаляют 👍):
https://www.producthunt.com/posts/littlestory-io
Сайт проекта:
https://littlestory.io
(если мы ничего не сломали — а мы могли, то сразу откроется правильный язык)
P.S. Когда-нибудь расскажу как мы намучились с другими языками и gpt4 как переводчиком и с промптами размером с девятиэташку
P.P.S. Если вдруг решите поддержать проект и попробовать, то вот промо-код на 10% скидку при первой покупке WELCOME10
Какой на самом деле саундтрек играл в демо-видосе из этого поста
Ну что, кто уже заказал все запчасти для DIY-сборки, скачал клип известной группы, и с нетерпением ждет возможности обучить эту несчастную железку действительно социально полезным навыкам? :D
Кажется 2024 год начнется со скандала между Midjourney и владельцами копирайтов на которых натренирована их последняя v6 модель 🍿
«Вас заметили» moment
Слухи, что MJ тренируют на фильмах я слышал еще год назад от каких-то челов из долины, но я честно думал они с нормальной лицензией фильмы используют
И суд точно будет, за 2023 год MJ заработало почти 300 миллионов долларов
Революционное открытие в материаловедении: ИИ от DeepMind обнаружил миллионы новых кристаллов
Вдохновившись (и набравшись опыта) AlphaFold, DeepMind запускают новую революцию. На этот раз в материаловедении. ИИ-инструмент GNoME от DeepMind открыл 2.2 миллиона новых кристаллов.
Современные технологии, такие как компьютерные чипы и батареи, зависят от неорганических кристаллов. Стабильность этих кристаллов критична.
Инструмент GNoME использует глубокое обучение для предсказания стабильности новых материалов, ускоряя и упрощая процесс их открытия. Он предсказал 2.2 миллиона новых кристаллов. Из них 380 000 - стабильны (а значит и многообещающи кандидаты для экспериментального синтеза).
Среди этих стабильных кристаллов, было найдено 52 000 новых слоистых соединений, аналогичных графену, которые могут произвести революцию в электронике.
Это открытие демонстрирует потенциал ИИ в области поиска и разработки новых материалов. GNoME не только предсказывает структуру новых, стабильных кристаллов, но и помогает ускорить их открытие, повышая эффективность предсказания стабильности материалов с 50% до 80%.
Благодаря GNoME нас ждет более устойчивое будущее, с более эффективными технологиями и материалами для электромобилей и вычислительной техники.
🥳 Блог-пост
🔮 Статья
ComfyUI Stable Diffusion Video
ComfyUI теперь поддерживает Stable Diffusion Video и при этом инференс влезает в 8GB VRAM, что позволит генерить даже на T4.
Некоторые пояснения к параметрам:
— video_frames: количество генерируемых видеокадров. (В зависимости от моделей от 1 до 24)
— motion_bucket_id: чем выше число, тем больше движения будет в видео.
— fps: чем выше частота кадров, тем менее прерывистым будет видео.
— augmentation level: количество шума, добавляемого к начальному изображению. Чем оно выше, тем меньше видео будет похоже на исходное изображение. Увеличьте его для большего движения.
— VideoLinearCFGGuidance: этот узел немного улучшает выборку для этих видеомоделей, он линейно масштабирует cfg по разным кадрам.
Качество генераций очень нравится, еще бы поддержку ControlNet и Lora, и станет заменой AnimateDiff.
Если возникнет ошибка при генерации связанная с xformers, то при запуске добавить параметр:
--use-pytorch-cross-attention
В комментах скидываю два .json для ComfyUI.
PhysGaussian: Интеграция физики в 3D Gaussians для генеративной динамики
📕 PhysGaussian - это инновационный метод симуляции и визуализации для создания физических динамик и фотореалистичных изображений. Он интегрирует ньютоновскую динамику в 3D Gaussians для синтеза высококачественного движения, используя специализированный Material Point Method (MPM). Этот метод обогащает 3D-гауссианы кинематической деформацией и атрибутами механического напряжения в соответствии с принципами механики сплошных сред и обеспечивает бесшовную интеграцию физической симуляции и визуальной визуализации.
😳 Процесс включает две фазы:
— 3D Gaussian splatting реконструкция сцены
— физически интегрированный синтез нового движения
🥶 Новый подход демонстрирует универсальность в различных материалах, включая эластичные тела, пластичные металлы, неньютоновские жидкости и гранулированные материалы. Подход позволяет гибко управлять динамикой через параметры материалов, демонстрируя свою способность создавать разнообразный визуальный контент.
В целом вы и сейчас сможете зайти в Блендер и через множество нод заставить сцену двигаться, рассыпаться и течь, но это потребует множества знаний и времени.
INFO—PAPER—GITHUB(кода пока нет)
До слёз
Sama — в CEO.
Bret Taylor, ex-CEO Salesforce и создатель Google Maps — станет председателем совета директоров.
Larry Summers, президент Harvard University с 2001 по 2006 — получит место за столом директоров.
Adam D'Angelo — сохранит своё место за столом директоров.
Остальные детали появятся позже.
Sam Altman не вернется на пост генерального директора в OpenAI
несмотря на усилия руководителей компании вернуть его, сообщил сотрудникам в воскресенье вечером соучредитель и член совета директоров Ilya Sutskever.
Пост временного генерального директора займет Emmett Shear, соучредитель сайта потокового видео Twitch. LINK
GPTs на твиче?
(Хотя полной уверенности, что это все происходило пока нет)
А я набрал смешных мемов, часть сам сделал, часть взял из твиттера.
Читать полностью…
Greg написал, что они с Sam всё ещё пытаются понять, что произошло. Sam накануне получил приглашение на рабочий созвон с Ilya Sutskever на полдень. Там при поддержке совета директоров было анонсировано решение об увольнении. 28 минут спустя был опубликован твит со ссылкой на страницу компании с публичным анонсом.
Greg получил приглашение на созвон в 12:19, где он узнал про своё понижение (Brockman не был уволен) и увольнение Sam в 12:23 (то есть первый разговор продлился меньше 20 минут).
В твите также указывается, что «насколько мы [прим.: Sam and Greg] знаем, Мира узнала про это накануне вечером».
Также, по информации источников журналистики Kara Swisher, в Microsoft про процесс увольнения ничего не знали, и были уведомлены буквально за несколько минут до публичного релиза.
Согласно изданию TheInformation, OpenAI также покинули:
— Jakub Pachocki, director of research
— Aleksander Madry, руководитель отдела оценки рисков AI (помните, я писал про него, он ещё из MIT ушёл на время?)
— Szymon Sidor, ведуший исследователь, проработавший в OpenAI 7 лет
🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning
Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.
Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.
Архитектура, грубо: мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.
На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.
Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.
Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.
Сайт проекта
Демо-результаты
@ai_newz
SORA: генерация видео от OpenAI
Я не был настолько взбудоражен со времён выхода GPT-2! Им удалось опять втайне ото всех совершить чудо!
Пишут, что это гибрид диффузии и GPT, то есть они вернулись к авторегрессионной генерации (как первый DALL-E)
We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT
Выкатили новый тул для нейролава «Logo Generator»
Поскольку щебень – официально самая скучная вещь в мире, сделал для щебня логотипов, вдруг поможет.
Работает тул просто: пишите название и описание бренда, а инструмент возвращает вам 50 логотипов.
Из фич:
– Можно сделать текст частью лого (поддерживается только английский пока что)
– Выбрать цветную или монохромную палитру
– Выбрать стили (cartoon мой любимый 🫶)
– Картинки в результате не векторные, а растровые
– Права на лого тоже ваши
Что под капотом: это связка Dalle 3 и GPT 4, поэтому инструмент сразу платный.
Ссылка:
https://neural.love/ai-logo-generator
Если захотите попробовать, вот скидка для подписчиков канала на 20%, на первый месяц:LOGOMAKER20
инструмент – я именно так делал логотип для littlestory.io, это оказалось намного быстрее – сделал 50 идей, команда проголосовала за лучший вариант, отдали лого дизайнерке на отрисовку в векторе, заняло все дня два ☕️
P.S. Почему вообще начали делать этот
P.P.S. Ну и покажу финансы по нему через полгода, я знаю, всем интересно
🌐 VOYAGER: одна из первых действительно агентных систем.
В октябре прошлого года команда исследователей из NVIDIA, Калифорнийского технологического института, UT Austin, Стэнфорда и UW Madison представила VOYAGER, агента ИИ, который обучается и автономно исследует миры Майнкрафта. Давно хотел про него написать.
На картинке выше 👆 сравнение различных агентных систем, как можно увидеть из графика, VOYAGER (оранжевый) открыл самое больше количество инструментов и быстрее всех адаптировался к игровому миру.
Появление VOYAGER плюс минус совпало с поворотным моментом в развитии ИИ (DevDay от OpenAI). Речь идет о потенциале и возможностях, которые он представляет для будущего (настоящего) агентных систем:
1. Надежное обучение: Благодаря автоматическому составлению учебных планов и библиотеке навыков, VOYAGER демонстрирует, как ИИ может вырабатывать сложные модели поведения с течением времени (и мы видим такое повеление в более прикладных системах)
2. Адаптивный интеллект: Способность агента учиться у своего окружения и итеративно совершенствоваться - это значительный шаг к более динамичным и персонализированным системам ИИ (как например сделали сами OpenAI).
3. Устойчивые инновации: Проведенное в безвредной 3D-среде, это исследование подчеркивает насколько невероятное будущее нас ждёт с приходом более менее работающих роботов.
Даже спустя полгода VOYAGER служит образцом для будущих анкетных систем, способных обучаться и адаптироваться в режиме реального времени без вмешательства человека.
📰 Проект
🧱 Minedojo
У Little Story кастомный стиль артов
Планирую дальше развивать его и перенести эти миры в 3D не без помощи Блендера и textTO3d моделей.
А пока поглядите варианты, который я отдельно отобрал — уютные генерации из Little Story мира.
Безумно рад видеть столько контента про роботов
Небольшая история из детства:
В то далекое время я мечтал строить свои миры, гуляя по родному городу с другом всегда вел беседу как построить идеальный город, но так чтобы половину средств не своровали и качество было достойным. Еще когда создаешь нечто грандиозное важно не угробить время и жизни строителей. При всех этих условиях — решения кроме автономных систем на ум мне не приходило.
С тех времен я мечтал о роботах и автоматизации, но не делал сильных шагов в силу понимания сложности процессов и сколько времени/средств займет обучение. Смирился и лишь иногда следил за новостями из робототехнике.
С приходом нейронок я вновь стал мечтать и даже понимать, что кажется робототехнику возможно будет освоить таким как я в 2024 году.
Надеюсь доживу до момента, когда буду создавать такие картины в реальности на далеких планетах с помощью флотилий автономных систем. А если не доживу, то хотя бы постараюсь вложить идею в автономные системы, а они уже сами лет через 500 воплотят эту мечту.А пока MJ v6 вытаскивает из моей головы наброски этих миров, с помощью старых моих работ и новых аугментаций.
Когда-то давно OpenAI занимались направлением Robotics, но его пришлось закрыть. Ilya Sutskever говорил, что основной преградой были данные — реальные или синтетические — для обучения роботов. В последнее время всё больше и больше прорывов случается именно в этой области — я уже писал и про RT-X, и про работу из Berkeley, и вот даже вчерашний пост был про обучение навыкам из 50 демонстраций.
Вчера DeepMind дропнули блогпост «Shaping the future of advanced robotics», где описывают сразу 3 (!) работы, которые лягут в основу следующей Foundational Model. Мне захотелось поделиться с вами одной очень интересной.
AutoRT: Harnessing large models to better train robots
AutoRT — система, использующая существующие модели для масштабируемого развертывания флота роботов в совершенно новых сценариях с минимальным контролем человека (💀 может не надо?). Давайте по порядку:
1. Робот катается по месту и снимает окружение на камеру
2. Vision-Language-Model (VLM) делает описание пространства
3. LLM генерирует текстовое описание задачи, с которой роботу нужно справиться
4. LLM описывает пошаговый процесс выполнения задачи
5. Описание подвергаются критике со стороны другой LLM, использующей — ВНИМАНИЕ — конституцию, обеспечивающую более безопасное поведение. И да, часть конституции — это пересказывание Законов Азимова (но также добавляется и описание робота, что у него одна рука — поэтому критик будет убирать задачи, требующие двух робо-кутяп)
6. Прошедшие критику и автоматически отобранные задачи передаются роботу на исполнение
7. Данные собираются в общий пул, который может использоваться для дообучения роботов (а пока просто оценивается разнообразие датасета)
Система предусматривает, что для малой части задач может вмешаться человек (скажем, отсматривать 10% задач), но это необязательный компонент.
Как вы понимаете, система не зависит от количества роботов, и может запускаться параллельно на огромном флоте — в случае DeepMind это было всего лишь 20 машинок. Можно оставить 100500 роботов на складе на полгода — и появятся и грузчики, и прорабы, и (наверное) халтурщики, коротающую смену в кафе.
Очень жду RT-3, обученную на десятках тысяч разных задач — ведь из прошлых работ мы знаем, что это существенно увеличивает качество и поднимает планку «понимания» роботом ситуаций и инструкций. Ну и ждём симметричного ответа от Tesla до конца. 2024 🙂
Кулибины из Stanford University x DeepMind из говна и палок собрали робота за $32k
Он управляется нейросеткой с ноутбука с GPU 3070TI и способен обучаться сложным задачам всего за 50 демонстраций. «Демонстрацией» тут называется последовательность действий, осуществляемая человеком со специальными контроллерами в руках (см. тут и на видео). Авторы тестировали робота на многих задачах, и в целом в более чем 50% случаев у него всё получается после шага обучения «подражанию» людям.
Делает ну буквально всё: готовит, заправляет стиралку, подметает, заправляет подушку в наволочку, протирает мебель... был бы у меня такой робот — я б может и не женился 🍷
Инструкция «собери сам» доступна тут, в основе лежат покупные робо-детали и распечатанные на 3D-принтере компоненты.
Больше демок: тут, тут, тут и тут. Тем, кто досмотрит приложенное видео до конца — бонус с нарезкой людей фейлов бота при готовке. Тут платформой управляет человек (пока), то есть происходит та самая демонстрация.
———————————
Начинаем 2024й год в AI с хороших новостей для сотрудников фастфуда☕️
GNoME: на шаг ближе к технологической сингулярности.
Думаю, все уже успели услышать про новую работу гугловского DeepMind.
Если кратко, их SoTA модель GNoME предсказала over 2 000 000 теоретически стабильных кристаллов, из которых 380 000 - наиболее стабильны и пригодны для синтеза.
Но главное в этом даже не количество спрогнозированных материалов (по сравнению с 28 000, открытыми за последнее десятилетие), а в том, что теперь эти гипотетические кристаллы автоматически синтезируются в A-Lab в Беркли.
То есть, фактически, мы получили систему полного цикла, от гипотезы до синтеза, действующую без участия человека. Осталось только масштабировать количество и мощности таких лабораторий и уповать на милосердие AGI :D
пост дипмайнда
пейпер в журнале Nature Футуре
@derplearning
Pikalabs анонсировали Pika 1.0
Видимо дискорд бот был только разогревом и сбором информации, желаний пользователей.
Подать заявку можно на сайте pika.art
Функционал поддерживает три взаимодействия:
— text2video
— img2video
— video2video
— inpainting video
— expanding video (uncrop)
На рекламном ролике качество невероятное, движение персонажей, лиц, эмоций. Runway c Gen-1, Gen-2 такого качество пока не дает. Хотя возможно это дикие аугментации и черрипик, точнее понять можно только потестив новую модель.
В их блог посте есть информация, что они уже собрали $55 миллионов.
Декабрь кажется будет месяцем видео и 3D, судя по новостям с textTO3d и imgTo3d моделями.
Получается в этом году еще успеем нагенерить красивого визуала?
Помните в Рик и Морти было ТВ и других миров? Вот спасибо Runway, у нас теперь есть: https://www.runway.tv/
Просто бесконечный стрим коротких txt2vid фильмов 🌈
Когда посмотрел весь сериал c OpenAI, но AGI как персонаж не появился...
Зато появился Stable Diffusion Video!
OpenSource генерация видео от StabilitiAI. На данный момент анонсировано два варианта генераций: img2video и text2video(здесь пока кода нет для инференса).
Есть два чекпоинта:
SVD —14 кадров генерации и 576x1024px разрешение
SVD-XT — 25 кадров генерации и 576x1024px разрешение
Я потестил пока img2video (в посте пример мем) для генерации брал этот reference. Жрет 40+ gb VRAM, что ограничивает на данные момент многих, хотя можно арендовать кластеры или A100 (80gb)/H100 для тестов. Хотя умельцы в ближайшее время возможно оптимизируют.
Так же ожидаем внедрение в A1111 и ComfyUI.
INFO—PAPER—GITHUB—HF_DEMO—COLAB(не мой, брал с просторов дискорда, он упоротый, но работает)
остальные свои примеры генерации кидаю в комменты под постом
еще допом линк, тест вариант как с помощью SVD генерят референсы для супер качественного 3d. — LINK
Генерации получаются качественные из-за крутой консистенции кадров, намного круче Gen-2
Make Pixels Dance: High-Dynamic Video Generation (PixelDance)
📕 PixelDance сочетает инструкции изображения для первого и последнего кадров с текстовыми инструкциями для генерации видео. Этот метод отличается от предыдущих моделей, которые в основном зависели от text-to-video генерации и часто приводили к видео с ограниченной динамикой движения.
🤔 В архитектуре модели три ключевые инструкции: текст, первый кадр и необязательный последний кадр. Эти инструкции позволяют создавать видео со сложными сценами и детальными движениями. ControlNet Canny c готовым действием например запихнуть в последний кадр, чтобы действие к нему пришло.(AnimateDiff уже так может)
PixelDance в примерах действительно выглядит лучше аналогов в моменте создании динамичных видео с сложными сценами и действиями.
🔝 Судя по всему модель будет давать возможность точнее настраивать желаемую картинку для пользователя. Хотя не так эффективно, как сейчас позволяет AnimateDiff. Кстати про него в Paper ничего не написано.
🐈⬛ Пока не понятно будет ли в opensource, но движения действительно очень резвые в сравнение с Gen-2, Pikalabs
Ожидаем..
INFO—PAPER—DEMOVIDEO(3min)
История с увольнением оказалась намного глубже, особенно реакция рядовых сотрудников OpenAI. Многие из них выразили готовность покинуть компанию вместе с Сэмом, если он не вернётся в OpenAI. Это не только может замедлить развитие компании, но и существенно повлиять на её работоспособность.
Мне в этой истории особенно понравилось отношение руководства к сотрудникам. Здесь мы видим настоящую ценность CEO, который умеет понимать проблемы персонала, выслушивать и помогать в их решении. Такой подход, основанный на заботе и внимании, редко встречается в крупных IT-проектах и играет ключевую роль в формировании корпоративной культуры.
Ситуация в OpenAI наглядно демонстрирует, как сильно влияние лидера может распространяться на всю команду. Уход такого лидера может вызвать не только эмоциональный, но и профессиональный разрыв в коллективе, что, в свою очередь, может повлечь за собой потерю ключевых навыков и знаний, критически важных для инновационных процессов в компании.
Таким образом, мы ожидаем решений и новостей от OpenAI и с интересом будем следить за тем, кто придёт на работу в понедельник в OpenAI. История про такую любовь к своему CEO хорошо взбодрила меня. Начну почаще выкладывать новинки в нейронках для артов.
🥺
Sam Altman departs the company
https://openai.com/blog/openai-announces-leadership-transition
Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.
Альтман написал, что они временно перестали принимать новые платные подписки в ChatGPT.
Вдумайтесь в это, компания добровольно отказывается от денег, потому что у нее временно кончились вычислительные ресурсы 😵
Нечасто такое увидишь в ИТ-секторе