13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
WiFi DensePose
Да-да, предсказывание поз с помощью WiFi.
https://github.com/ruvnet/wifi-densepose
В Davinchi Resolve оказывается есть клонирование голоса.
Сама программа бесплатная и что интересно, голос считается нейронкой на вашей машине локально.
Кроме того, он сохраняет исходный ритм и стиль речи, просто применяя звучание обученного голоса.
Конечно совпадение не идеальное, но как бесплатное решение вполне может сгодиться.
Тут можно глянуть тутор.
@CGIT_Vines
Ого, в Комфи завозят Automatic1111 Simple Mode!
Не прошло и много лет, как в Комфи заподозрили, что вся эта ацкая лапша плохо заходит в потребителей нормальных интерфейсов.
Уже были проекты-нашлепки над Комфи, которые вытаскивали основные параметры в окно со слайдерами. Теперь Комфи сами взялись за это.
Встречайте - Simple Mode. В которой на экране остается одна финальная картинка (видео?), а справа появляется панель с основными параметрами типа Seed, Steps, Prompt, разрешение, CFG, Sampler, Scheduler, Имя модели с выбором(о, боги, да!), негативный промпт, количество генераций.
Более того, теперь вот такие "упрощенные" форкфлоу можно шарить (на деле просто шарится воркфлоу), чтобы другие юзеры открывали и пользовались (ха, представляете сколько конфликтов будет вылезать).
Мысль очень хорошая. Я года два назад писал, что интерфейс для генерации должен строиться вокруг огромной картинки (как в Фотошопе) - все кнопочки и педалечки не должны отжирать UI-пространство у самой картинки.
Ну примерно как в Invoke AI. Inpaint, маски, выборы - все на самой полноразмерной картинке. Просто потому что Адобченко уже всех приучил за 40 лет. Щас вот до Комфи дошло.
Осталось побороть CUDA–PyTorch mismatches или tensor size mismatches, которые будут валить с ног новых пользователей.
@cgevent
У нас новый GPT-image!
Альтман и co. в погоне за бананами наконец-то починили отвратительную желтизну и непостоянство объектов, а ещё — в четыре раза ускорили генерацию и улучшили понимание промта.
Идём тестировать.
Разыскиваются террористы: претрейн датасетов, разъеб лидербордов, ваншот литкодов, вайбкод дашбордов, анУс логотипов, наеб инвестфондов, подьем раУндов, админ каналов, адвайз стартапов
Докидывайте в комментах
Таки докатили до опен беты сервис для стилизации\трансформации видео и vfx, идейного наследника warpfusion.
Загружаете видос, обрабатываете ключевые кадры в банане не отходя от кассы, запускаете рендер.
Все в интерфейсе, приближенном к видеоредакторам. С проектами, треками, покадровым скробблингом, сравнением до 4х видео.
Тыкать тут - app.mago.studio
Папищекам возможна скидка в комментах 🐐
https://downdetectorsdowndetectorsdowndetectorsdowndetector.com/
Modern problems require modern solutions
я пожалуй оставлю тут видео с роботом unitree g1 которые в свободной продаже + имеют открытый апи
Читать полностью…
Ладно, ради этого я готов быть порабощен машинами
Читать полностью…
Продолжение тестов Nano Banana Pro
Модель здорово работает с большим количеством персонажей (в тестах перечислял по 30 штук), с героями наших мультфильмов справилась не идеально, зато с диснеевскими вообще никаких проблем (результат в комментах).
Знает Васю Ложкина, но не особо знает Альберто Мьельго (причем, сгенерированные картины Ложкина больше похожи на Ложкина, чем сам Ложкин. Еще пара примеров в комментах).
Steam machine в восточной Европе через секунду после покупки
Читать полностью…
И анимированная версия (со звуком)
Animate it as heroes of might and magic castle interface, add heroes 3 music and christmas sounds
veo3 i2v fast
@derplearning
Qwen-Image-Edit-2511: теперь и у Qwen есть своя Nano Banana
Умеет всё то же, что и аналоги от Google, OpenAI и Flux. Клёво, что Qwen тоже не отстаёт от гонки, причём их релиз вышел под лицензией Apache 2.0. Это обновление старой Qwen Image Edit, версии Qwen Image вдохновлённой Flux Kontext.
Главная фишка релиза — возможности популярных LoRA (например, для улучшения освещения или смены ракурса), интегрированы здесь прямо в базовую модель. Отдельно так же дообучили на полезные для реального дизайна фичи, такие как генерация изометрических проекций и замена материала. С этим в целом и банан явно справляется, но квен все-таки локальная и главное открытая моделька.
Модель с первого дня поддерживается LightX2V, с ускорением в 1.4 раза. А в комбинации с дистилляцией и FP8 обещают ускорение до 42-х раз.
Результаты нужно смотреть на практике, но сам факт появления сильного опенсорс-конкурента — это отлично.
Демо Hugging Face
Демо Qwen Chat
Пейпер
Обнимающее лицо
Гитхаб
@ai_newz
Flash portrait
Кому ещё один оживлятор портретов? С кодом.
Главная фишка - он типабыстрый. Ускорен в 6 раз, но не реалтайм.
Генерит говорящие головы неограниченной длительности.
Теперь плохая новость.
40 гиг vram.
И это нашлепка над wan 2.1 14b.
https://github.com/Francis-Rings/FlashPortrait
@cgevent
TurboDiffusion
Обещают ускорение Wan 2.1 T2V / 2.2 I2V аж до 100x-200x
Сравнивали, видимо, с ванильными Wan без causevid/turbo лор, которые и так генерят нормально за 5-10 шагов.
Sparse-Linear Attention, q8, rCM
hf
git
техрепорт
Выкатили новую версию three.js
Все эти штуки можно крутить прямо в браузере.
Берете ллм по вкусу, даете гитхаб, просите юзать
r182
ченжлог
We’ve officially rolled into open beta: a video stylization / transformation & VFX service — the spiritual successor to WarpFusion (discord with sassy mods included)
You upload a video, tweak the keyframes right there in Banana on the spot, hit render — and let it cook 🍌🔥
Everything lives in a video-editor-style interface:
projects, tracks, frame-by-frame scrubbing, and side-by-side comparisons of up to four videos at once. Yes, four. Because we can.
👉 Break it here: app.mago.studio
And for the OG goats, a promo code may mysteriously appear in the comments 🐐😏
Ну, за Marvelous Designer.
На первом видео я попросил Gemini 3 (Thinking) сделать мне симулятор одежды
Промпт:
Create a single HTML file containing a realistic cloth simulation using HTML5 Canvas and JavaScript. The cloth should be a grid of points connected by constraints using Verlet integration. Implement gravity and mouse interaction: the user should be able to click and drag particles to tear the cloth. The physics must remain stable without exploding.
/channel/NeuralShit/7008
Вспомнился анекдот:
- вот наш новый робот парикмахер, идеально стрижет
- но ведь у всех людей разная форма головы
- да, но только до первой стрижки
Вышел релиз кандидат transformers v5
C этой репы начался huggingface, который до этого делал тамагочи с ллм.
Вот это я понимаю, пивот здорового человека.
github
- Has a nose ring
- Goes to therapy
Wow, I guess this really is hyper realism
Built with Nano Banana Pro + Google Veo 3.1
Китайцы выпустили игру года — в их новой рпг Where Winds Meet можно использовать хаски в качестве быстрого передвижения. Собаки будут просто тянуть вас за собой.
Гениально
r/#Asmongold
Китайские братушки в очередной раз побили рекорд: в городе Лиюян около 16 000 дронов одновременно приняли участие в световом шоу.
надеюсь, что когда-нибудь увижу подобное шоу вживую (и желательно не на фронте).
видео отсюда