Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Wan 2.1 + Vace
Для к гиков. Похоже, что эта связка далеко пойдет. Опенсорсный (с кодом) контролНет для видео.
Про Vace писал вот тут.
Я удивлен, как он дорисовал глаза, ведь на исходнике они закрыты.
Проблема в тайминге. Wan не умеет в длинные видео.
Но я скора запощу про того, кто умеет в бесконечные видео.
Сурс
@cgevent
Раньше я больше писал про нейрофизиологию, мозг и разные научные штуки. Сейчас, каюсь, немного утонул в череде новых продуктов, фич и красивых картинок с видосами. Обещаю вернуться, есть три поста про психологию.
Кому хочется не бегать по верхам, а залезть вглубь — к основаниям разума, мышления, сознания — есть канал, который тихо копает в эту сторону: @eternalmind.
Там нейробиология, книги, статьи, лекции, старые забытые концепции, редкие находки. Всё, что может быть кирпичиками на пути к сильному ИИ - если подходить к делу не как к гонке, а как к философскому конструктору.
Автор идёт по следам Хокинса, Лекуна, и дальше - туда, где ещё даже нет тропинок. Канал для тех, кто хочет не просто смотреть на то, как обучают модель, а понять, как вообще работает разум.
Пообщались с Павлом, я еще вернусь к его постам, ибо сам не успеваю залезть вовнутрь.
Заходите на @eternalmind
Ладно, прекращаю ломать chatGPT (o4-mini).
Вот вам последний бесполезный (но не факт, что воспроизводимый) трюк с генерацией нескольких картинок.
Говорю, сделай мне видео cat in the hat
Не могу, грит, видео, могу GIF.
Довай!
Тут она, как псих, начинает генерить полноразмерные картинки безумных котов, причем одни квадратные, другие стоячие. Браузер нагревается, она не успокаивается. В рассуждениях у нее "надо сделать 6-8 картинок". Делает 9 штук. В рассуждениях пишет "чо то бардак с именами файлов". Думает, и выдает мне потрясную гифку. Она в следующем посте.
Но результатом - 9 консистентнейших бесполезных котов.
Три последних, это попытка сохранить лицо и все-таки сделать гифку. После чего пишет
I’m currently hitting the platform’s rate limit for generating images and can’t produce new frames right now.
Довел до истерики все-таки.
@cgevent
Рендер или видео?
Если вы все еще сторонник рендера, то это полностью опенсорсный(!) рендер.
Комплектующие, CAD-исходники и все спецификации есть на GitHub
Весь SDK доступен тут.
Называется эта тварь Фурье N1, весит 38 кг, ростом всего 1.3 метра, но бегает уже со скоростью 3.5 км/ч.
Коль скоро исходники открыты, каждый может сделать себе Дзюбу.
Битвы робатов не за горами, а фильм Real Steel становится все ближе.
@cgevent
А Пика отвечает с помощью Pika Twists
Манипуляция любым персонажем или объектом на видео, сохраняя все остальное нетронутым.
Ну, за композеров. По десятому кругу...
@cgevent
Огненный Китайский Липсинк и не только.
Я уже писал про Дримину, как китайскую ответочку Креа и Фрипик. И единственное место, где можно попробовать тот самый Omni Human.
Оказывается, если зайти туда штатовским ВПНом, то кнопка с липсинком становится доступна! Бесплатно!
В общем, это больше похоже на китайскую Хедру - загружаешь портрет, аудио или текст, и жмешь Сгенерить.
И надо сказать, генеративная Марго Робби получилаcь отлично. С первого раза.
Дальше я, конечно, попытался это сломать. Присунув ей двух анимэ персонажей с широко открытыми ртами в одном кадре (T-поза для липсинка - слегка открытый рот).
Ну что сказать, получилось. Но все равно она выкрутилась. Смешно наблюдать как вход один, а рта - два. Синк на лицо\лице.
Там, кстати, цензура на звук. Отрывок из Laid Back: If you wonna be rich, you gotta be a bitch не пропустила из-за последнего слова.
Пробуем тут, я логигился капкатовским аккаунтом, а в капкате логинился гуглом. Без смс и оргий.
https://dreamina.capcut.com/ai-tool/video/lip-sync/generate
Штатовский впн.
@cgevent
Вот так выглядит голосовой режим и Draft Mode в Midjourney V7.
Я возможно придираюсь, но вот это вот "добавь единорога на задний план" полностью меняет картинку и композицию. Это как бы не редактирование картинки, а редактирование промпта.
Просто мы тут уже насмотрелись на реальное редактирование картинок в chatGPT и Gemini. Ну и зажрались.
@cgevent
Фридра! Выдра? Тьфу, Хедра!
Хедра анонсировала Фридру - ну то есть возвращение 400 бесплатных кредитов в месяц.
Не стал бы писать, но в чате люди отчаянно продают квартиры жгут кредиты на видеогенерациях. Но к сожалению, генерация в Veo2, Kling и Minimax на сайте недоступна для бесплатных пользователей.
Но аватары у них стали отличные.
https://www.hedra.com/app/video
@cgevent
Krea.ai не соврали: новый апдейт.
Теперь они идут в 3Д-генерацию...
Завтра изучаем их сетки.
@cgevent
А чтобы вам лучше не спалось и было поменьше свободного времени, держите еще свежеистренированный Igeogram 3.0
Уже на сайте и в аппе для айфона.
Кто умеет читать - сюда:
https://about.ideogram.ai/3.0
@cgevent
OpenAI выпустила обновления для Advanced Voice Mode, чтобы "сделать ИИ-ассистента более индивидуальным и реже прерывать пользователей."
Немного странный способ коммуникаций - через Short на Ютюбе...
https://www.youtube.com/watch?v=mm4djPNO8os
@cgevent
DeepSeek только что выпустил последнюю версию своей огромной модели DeepSeek-V3-0324.
Лицензия — MIT (предыдущая версия DeepSeek v3 имела специальную лицензию), а общий объем файлов в релизе составляет 641 ГБ, в формате model-00035-of-000163.safetensors.
Модель вышла всего несколько часов назад, а разработчик MLX Авни Ханнун уже запустил ее со скоростью более 20 токенов в секунду на M3 Ultra Mac Studio с 512 ГБ (9499 долларов) с помощью mlx-lm и 4-битной версии, размер на диске до 352 ГБ.
Новая модель также представлена на OpenRouter, можно пробовать.
Пишут, что лучше, быстрее, сильнее.
Подробнее:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
https://simonwillison.net/2025/Mar/24/deepseek/
@cgevent
Безлимитная Сора.
А почему все молчат?
Я залогинился в sora.com под своим chatGPT Plus аккаунтом, и Сора пишет - никаких более кредитов. Творчество не кредитуется!
Полез в обновленный сегодня FAQ, а там:
Understanding Unlimited Usage
ChatGPT Pro and Plus plans offer unlimited access to Sora
https://help.openai.com/en/articles/10245774-sora-billing-faq#h_5a4892aa77
Плюсовики, налетай!
@cgevent
Народ пилит лоры персонажей на SD и, используя шаблон Microwave в PixVerse (кручения объекта с картинки в микроволновке), создаёт 360 обзор персонажа по одному изображению.
Дальше оно собирается и редактируется в Metashape и Postshot для получения 3D сцены, которую можно крутить как хочешь.
Твит
Сайт
3Дай Студио
Сегодня у нас 3Д-марафон. На дворе GDC, много апдейтов.
Для начала принес вот такой комбайн. Он сегодня еще будет фигурировать в тестах 3Д генераторов, как один из лучших.
Тут ребята развернулись не на шутку. 3Д-вьюпорт, text-to-3D, image-to-3D, Remesh AI и даже упоминания про Video AI.
И прямой коннект с Блендором.
Выглядит действительно неплохо, хороший конкурент Rodin Pro.
Бесплатного плана нет, а базовый выглядит дороговато 40 центов за одну генерацию (16 евро в месяц за 40 генераций).
Ремешер я не смог попробовать, хотя он как бы бесплатный, нужно навалить кредитов на баланс, чтобы появился Экспорт.
И у них свои 3Д-нейромодели из который Prism выглядит как самая продвинутая.
В общем, еще один игрок на рынке закрытых 3Д-генераторов.
https://www.3daistudio.com/
@cgevent
Купон на 20 баксов на fal.ai
Можно генерить видео.
Ещё работает:
https://t.co/EgEcrNuWh3
Для гиков. Крафтовые нормали на видео.
Композеры и те, кто в опен-сорсе оценят.
Выше пример вытаскивания нормалей из видео, сгенеренного Сорой. Выглядит очень гладко и не кипит.
По ссылке есть код, веса и даже демо:
https://normalcrafter.github.io/
И много примеров.
@cgevent
Немного примеров из нового Клинга 2.0
Все отмечают нормальную динамику и уход slow-motion движения на видео, которым грешили все генераторы прошлого года. Тут Клинг скорее в роли догоняющего, но это все равно отлично, ибо эпоха слоу-моушен-трейлеров уходит.
@cgevent
Джеймс Камерон про датасеты, авторские права, обучение на чужих работах и про это вот все.
"Каждый человек - это модель. Вы создаете эту модель по мере того, как идете по жизни".
"Проверку на плагиат должен проходить мой output, а не мой input".
"Никто не имеет права говорить мне куда идти, на что смотреть и на чем обучаться."
Короче, норм мужик.
@cgevent
Доктор Виваго и ХайДрим.
Вы будете смеяться, но у нас новый генератор картинок, опенсорсный притом.
Есть такой не сильно известный коммерческий сайт для генерации картинок и видео. Это китайцы из Гонконга.
https://vivago.ai/
Но пару дней назад они бахнули в опенсорс свою foundation model для генерации картинок. И что самое удивительное, она обошла всех на Artificial Analysis Image Arena, включая Flux Pro, Ideogram 3 и REVE!
Давайте я сделаю серию постов про нее, чтобы разобраться.
Во-первых, это некий зоопарк из уже существующих решений:
The VAE is from FLUX.1 [schnell], and the text encoders from google/t5-v1_1-xxl and meta-llama/Meta-Llama-3.1-8B-Instruct
Во-вторых, эта шняга НЕ влезет ни в одну видеокарту без квантования и плясок. У меня она ест 62GB VRAM на A100/H100.
В-третьих, она воще небыстрая. 50 сек на 1024х1024 на A100. Мы уже отвыкли от таких скоростей.
В-четвертых, есть демо на HF (и не одно), но во всех демо - сильно пожатая модель.
В-пятых, моделей ТРИ - fast, dev и full. Жрут одинаково. Скорость измерю позже.
В-шестых, уже есть кванты, которые влазят в 16GB, но имейте в виду, что там качество будет падать.
Ну и последнее в этом посте, все эти Image Arena - не очень хороший источник информации, лучше генерить самим.
Я взял картинки с арены (сравнения с другими генераторами) и прогнал все это через модель full.
Текст она генерит реально хорошо. А про остальное - следующий пост.
Забираем все отсюда:
https://github.com/HiDream-ai/HiDream-I1
Накидайте пару сотен звезд, посмотрю, что там с цензурой.
@cgevent
И как вам такой Ghibli Character?
Объяснялки и промпт в следующем посте.
@cgevent
Audio2Audio в Udio
Звучит как заклинание, но тем не менее: теперь вы можете подать на вход любой свой\чужой трек и сказать "сделай на том же вайбе".
И это не Remix или Extend как раньше. Styles помогают "попадать в звук".
"Из предоставленного вами трека или клипа Udio извлекает "представление стиля", в котором собраны все его ключевые стилистические элементы, а затем использует его для создания новых песен с похожим звучанием. Представления стиля содержат гораздо больше информации, чем традиционные текстовые подсказки, позволяя точно улавливать и воспроизводить специфические звуки, которые трудно описать"
И да, можно делать Extend существующего трека в новом стиле из загруженного файла.
Только для подписки PRO. Во всех режимах: Create, Edit, Extend, and Remix.
Есть рулька Styles Similarly и вроде как нет цензуры, то есть проверки авторского контента в загружаемых треках.
Вот, послушайте, как звучат вариации:
https://www.udio.com/playlists/260290ac-eadd-4c32-a60c-f985eac72f76
@cgevent
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting
Адобченко насмотрелся на демо OpenAI и срочно бахнул свежую работу именно по редактированию изображений
Там гибридный подход с сегментацией, инпейнтом и тренировкой.
Удаление объектов не выглядит революционно, а вот переодевание и добавление деталей смотрится интересно.
Акцент на том, что удаляются или вставляются не только сами объекты, но их тени, отражения и пр.
Прям обещают код, хотя это Adobe.
Ну и конечно, вопрос цензуры. Одевать - не раздевать.
OmniPaint - фреймворк, который переосмысливает удаление и вставку объектов как взаимозависимые задачи, а не изолированные подзадачи. Используя предварительно обученные диффузионные суждения (в данной работе применяется FLUX), мы оптимизируем параметры LoRA на основе собранных небольших парных образцов реального мира, обеспечивая при этом легкое переключение задач с помощью обучаемых текстовых вкраплений. Для реалистичного удаления объектов наша модель обеспечивает семантическое удаление замаскированных элементов переднего плана с одновременным устранением их физических эффектов. Для вставки объектов мы выходим за рамки простого смешивания и добиваемся гармоничного синтеза с учетом геометрии сцены и идентичности ссылок с помощью предложенного нами механизма CycleFlow.
https://www.yongshengyu.com/OmniPaint-Page/
@cgevent
Помните говорил, что эмсипишки - это новые джипитишки.
Ну что, пошла жара и вирусы.
Держите 4450+ MCP серверов для всего, что шевелится у вас на компе или в облаке.
Проблема, как обычно, одна - отсутствие модерации. Тут могут быть и вирусы, и просто шлак и редкие жемчужины.
Пользуйте на ваш страх и риск.
https://mcp.so/
@cgevent
Я наконец-то добрался до Google Veo 2.
Это txt-to-video.
Версия для Ютуба, если кому надо.
Похоже, что MCP сорвал джек-пот.
Проснулись и танцуют все.
Вот, смотрите, интеграция Cursor, Blender и Tripo3D.
Тут как бы и десктопный Клод не нужен.
Но нужен Курсор, настройка которого не всем покажется простой.
После чего вы просто открываете окно Курсора и ну вайб-тридешить в Блендоре на стероидах ИИ-генерации и анимации.
Но во все этой истории с MCP есть пара моментов.
1. Думаю, появятся MCP с вирусами, будьте внимательны. MCP могут иметь полный доступ к вашим файлам с разрешением на запись. Помните историю с Комфи? А написать и выложить MCP может любой.
2. Гляньте сюда - https://zapier.com/mcp
Это уже мета-уровень автоматизации, который не ограничен решениями, имеющими API. Это уже доступ прямо в приложения. Вот тут наверное уже можно говорить про конструктор агентов. Думаю make и n8n скоро подтянутся.
@cgevent
😌 Тут какие-то гении запустили новый картинкогенератор - https://preview.reve.art/app
Пока полностью бесплатен, но есть лимит на количество генераций в день.
Из плюсов, что успел заметить:
- без цензуры, быстрый
- качество где-то на уровне идеограма, то есть норм в граф- и концепт арт, но по красивости ближе к миджорни
- может в текст
- может в нормальных роботов, кровь, зомби, православные иконы
- может в российский автопром, да и вообще в автопром без лор
- женские лица хороши, нет одного и того же, как во флакс и миджорни
- есть img2img (без промпта), что-то типа переноса стиля похоже
- промпт можно править
Минусы:
- мало генераций на пробу (новые почты решают)
- так себе UI
- иногда тупит с размерами
- все картинки в одной ленте, нет сортировки
В комментариях как работает img2img.
Эксперты по нейросетям соберутся вместе онлайн, чтобы поделиться опытом и инсайтами
19 апреля пройдет конференция «Уральский промпт» — масштабное событие для всех, кто использует или только планирует внедрять нейросети в свою работу.
Участвуйте из любой точки мира и получите доступ ко всем докладам и материалам конференции.
💻 Онлайн-формат — максимум знаний без поездок и лишних затрат
🎟 Доступный билет — от 4900 р
Среди тематик конференции:
— как делать крутой нейроконтент без нервных срывов, завышенных ожиданий и бессмысленных затрат
— человек vs нейросеть: кто лучше понимает пользователей?
— как связать нейронки и Google Таблицы и автоматизировать рутинные задачи по щелчку.
🔥 Три потока докладов: креатив, технологии, управление — для специалистов, руководителей и владельцев бизнеса.
Все подробности на сайте.
#промо
Итак, лайфхак для Семицветика в Гемини.
Pencil drawing of flower with exactly seven petals.
Получаем 8 штук. Если повезёт, тут ключевое - drawing, чтобы гемини не копировала ромашки.
Скачиваем, даём на вход эту картинку.
"Сколько лепестков видишь?"
Семь!
Закрываем чат, сжигаем и выбрасывем подальше
Открываем новый. Загружаем картинку.
Скоко?
Восемь!
Change number of petal to exactly seven.
Готово!
@cgevent