psy_eyes | Unsorted

Telegram-канал psy_eyes - Psy Eyes

6851

Креатив + AI + Web3... и мемы Личная страница @AndreyBezryadin Купить рекламу: https://telega.in/c/Psy_Eyes Без наценки Telegain и c индивидуальными датами — в личке.

Subscribe to a channel

Psy Eyes

Делаем дипфейк за 2 часа
30 ноября 12:00–14:00

📌 Для мастер-класса вам понадобятся:
▫️Pinokio
▫️FaceFusion (устанавливается через Pinokio)
▫️видеокарта Nvidia, желательно серии RTX — её можно арендовать на Runpod

❗️ Спикер пояснит, как это всё устанавливать

Андрей Безрядин, AI-режиссёр, нейрокреатор и ресёрчер, проведёт мастер-класс «AI-актёр за 2 часа: создаём дипфейк-видео в FaceFusion»

Самый простой способ освоить нейросети — учиться у профессионала. Андрей использует нейросети как для реализации коммерческих запросов, так и для воплощения своих творческих идей.

📌Ссылка на событие: AI-актёр за 2 часа: создаём дипфейк-видео в FaceFusion

Скидка 20% по промокоду PSYEYES20

Даже если вы не сможете присутствовать, вы получите запись мастер-класса

Конференция нейрокреаторов 29-30 ноября. Подписаться и следить за новостями

Читать полностью…

Psy Eyes

Использование Speculative Decoding на примере Qwen3 32B в связке с маленькой Qwen3 0.6B для предсказания очевидных токенов.

Было 10.80 ток/сек и 3:45 мин на
рассуждения с неверным ответом в конце.

Стало 11.88 ток/сек, время 2:25 мин, и ответ правильный (двоюродная племянница). Прогнал два раза.

Потребление VRAM увеличилось на 1,4 ГБ (c 18,8 до 20,2 ГБ).

Сайт LM Studio
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Админам других каналов.

Если у вас настроен автопостинг в Дзен через бота и вы публиковали рекламу с уговором на 24 часа, имейте ввиду, что при удаление с телеги в Дзен она остаётся висеть. Особенно важно если на вас лежит отчётность по erid. Поиска в Дзене по своим постам нет, если публикуете много рекламы — удачного гринда.

Читать полностью…

Psy Eyes

Alibaba: выпустили языковую модель Qwen 3 с гибридным режимом работы: обычный и рассуждение.

Часть серии ллм включает в себя обычные модели 0.6B // 1.7B // 4B // 8B // 14B // и 32B. Версия на 0.6B может работать на телефоне, для 14B поместится в 24 ГБ VRAM, а 32B надо будет запускать уже с выгрузкой в RAM. Модели 0.6B - 4B имеют контекст 32к (можно кормить книжки), остальные 128к (небольшая библиотека).

Также 0.6B может использоваться для ускорения больших моделей посредством предсказывания очевидных токенов. Задаётся через настройку speculative decoding в боковой панели LM Studio или llama.cpp.

Другая часть это экспертные модели (MoE) 30B-A3B и 235B-A22B, у которых количество параметров 30B и 235B соответственно, а активных 3B или 22B. Тут у всех контекст 128к. Эти модели уже для запуска на серверах.

По бенчам бьёт другие опенсорсные модели и закрытые вроде Gemini 2.5 Pro, Grok 3, и o3-mini. Хорошо себя показывает как в креативном копирайтинге, так и написании кода и математике.

Как и прежде русский язык поддерживается. Режим размышлений можно выключать или задать бюджет на это (thinking budget), что может ускорить ответы.

Уже завезли в ollama и можно гонять в OpenWebUI. Или просто скачать LM Studio и прямо там в интерфейсе подберется оптимальная модель под ваше железо.

Для получения оптимальных результатов рекомендуется: при рассуждениях ставить настройки Temperature=0.6, TopP=0.95, TopK=20, и MinP=0, а при обычном режиме Temperature=0.7, TopP=0.8, TopK=20, и MinP=0. Я сначала прогнал свой тест на родственные связи (правильный ответ — двоюродная племянница) без этих настроек и результат был хуже, а где-то модель уходила и вовсе в мыслительный лимб.

Модели 0.6B и 1.7B можно будет гонять на смартфоне, например, через PocketPal. А я решил помимо промежуточных вариантов ещё попробовать запустить у себя самый крупняк в самом простом варике весом 111 ГБ... Штош, оно запустилось, съело и почти все 24 ГБ VRAM и 128 RAM, а ответ занял 34 минуты и не сказать, что впечатлил.

Меньшие размеры были и пошустрее и поточнее с ответом:
❌ 0.6B (Q8_0) — 307.44 ток/с // 4,26 сек
❌ 8B (Q8_0) — 82.37 ток/с // 23,19 сек
✅ 32B (q3_k_l) — 10.67 ток/с // 5 мин 26 сек
✅ 30B-A3B — 131.53 ток/с // 8,25 сек

Демо (хаггинг)
Демо (сайт)
Приложение (Android // iOS).
Анонс
Гитхаб
Хаггинг
Ollama
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

В PyTorch 2.7 завезли оптимизацию генерации через Fast FP16.

Заявляется ускорение на 20%, без сильного влияния на качество. У меня на тестах в комфи показывается в районе 10%. Можно скрестить с SageAttention для ускорения в 2 раза, но сильно упадёт качество.

В последней портативной сборке comfy есть отдельный скрипт для запуска fast fp16. У меня при запуске комфи менеджер начал жаловаться на недостающие ноды, но при их установке через сам менеджер зависал. Поставил вручную с гитхаба в папке custom nodes, и тогда оно жаловаться перестало.

Воркфлоу в комментах.

У вас какие показатели?
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

WildGS-SLAM: трекинг и удаление объектов на видео с помощью сплатов.

Исследователи создали специальную карту неопределённости на основе DINOv2, которая показывает, где в кадре есть движение или неясные данные. При построении трёхмерной сцены и рендеринга эти данные используются, чтобы обновить сплат без объектов.

Благодаря этому, в отличие от подобных систем, WildGS-SLAM хорошо работает с динамичными движениями камеры, и следует за объектами для их удаления.

Явных артефактов подход не оставляет и чистит в том числе и тени.

Сайт
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

🎸 ЗВУК 🎸

sync.: выпустили Sync Studio для полноценной работы с липсинком.

OuteAI: дропнули TTS (генератора речи) Oute 0.3 в размерах до 1B, с фокусом на контроле произношения пунктуацией.

MoonshotAI: выпустили Kimi-Audio для распознавания речи, чата по ней, генерации подписей, и не только.

Yandex: Яндекс Браузер научился передавать оригинальные голоса и интонации при переводе видео.

Nvidia: выпустили Canary 1B, модель для распознавания речи и перевода между 4 языками: английский, испанский, немецкий, французский.

ElevenLabs: добавили бесшовный переход при голосовом общении с AI-агентами, имеющими доступ к общей базе знаний.

Heygen: теперь можно делать своего говорящего аватара на основе и фото и видео. Также добавили загрузку брендинга, возможность направлять взгляд в камеру, и запустили новый MCP сервер.

Dia: опенсорсная альтернатива NotebookLM для клонирования голоса, а также генерации озвучки и диалогов с эмоциональностью. Демо // Гитхаб // Pinokio

Tavus: выпустили Hummingbird, модель для zero-shot липсинка.

🤖 ЧАТЫ 🤖

PyTorch: обновился до V 2.7.0. Появилась поддержка CUDA 12.8, карт 50-й серии Nvidia, ускорение через fp_16_fast, инференс через FlexAttention, улучшена работа на Intel GPU, и не только. Гитхаб.

OWUI: в V 0.6.5 опенсорсного UI для чата с языковыми моделями (LLM) добавили детальную настройку доступа к голосовому режиму, копирование сгенерированного контента с форматированием, улучшения в работе с RAG, итд.

Ollama: ускорен запуск ллм, дефолтное контекстное окно 4к, исправлена потеря памяти, повышена производительность ollama create, добавлена поддержка ламы 4, DeepdCoder, IBM Granite 3.3, итд.

LM Studio: добавлена поддержка Nvidia 50xx и CUDA 12.8, обновился UI системного промта, улучшился вызов инструментов, в превью появилась возможность шарить с сообществом пресеты системных промтов и параметров модели.

Google: выпустили Gemini 2.5 Flash (компактная и эффективная версия Pro), а также опубликовали примеры для работы с Gemini API и квантизированную Gemma 3 27B для запуска на 3090.

Xenova: адаптировали ллм SmolLM2 1.7B и ризонер Zyphra-ZR1 1.5B для запуска в браузере через WebGPU.

Anthropic: в Claude Code теперь можно вкидывать картинки, а также закидывать таски в очередь. Ещё они опубликовали гайд как лучше работать с AI-агентами для написания кода.

OpenAI: выпустили для разработчиков GPT-4.1 и выложили в опенсорс Codex Cli (аналог Claude Code) — ассистента для программирования естественным языком. Также обновили GPT-4o, удвоили лимиты, открыли бесплатным пользователям лайтовый доступ к deep research, и сделали o3 и o4-mini доступными по API.

Grok: теперь можно дать ему доступ к камере и получать ответы в реалтайме на нескольких языках. Также Grok 3 стал доступен по API, и был запущен Grok Studio для генерации кода, документов, игр, и отчётов.

Qwen
: выпустили мобильную апу (Android // iOS).

Alibaba: опубликовали GME модели для работы эмбеддингами на основе Qwen2-VL.

MoonshotAI: релизнули Kimi-VL-A3B, серию опенсорсных визуальных языковых моделей (VLM) для чата по тексту, картинкам и видео.

Запрещёнка выкатила мультимодальную ламу 4 в размерах: Scout (109B), Maverick (400B), Behemoth (2Т (триллиона)). Все модели работают с текстом, картинками и видео, и имеют 10М контекст. Локально такое не погоняем. Там ещё и выяснилось, что запрещёнка схитрила на бенчах.

Skywork: опубликовали мультимодальную рассуждающую модель Skywork-R1V2-38B, показывающую хорошее понимание визуала.

Bytedance: выпустили опенсорсного AI-агента UI-TARS-1.5 для выполнения задач в GUI и играх.

Nvidia: дропнули модель DAM для генерации описаний картинок и видео.

Microsoft: как использовать AI-агентный режим в VS Code.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Wan: выпустили модель FLF2V с контролем по 2 кадрам, добавили на сайт бесплатную генерацию в Relax режиме (но генерит долго). Сообществом была адаптирована модель UniAnimate для анимации персонажей, и контроль кадра в Wan VACE через референс, v2v, или маску. Версия WanGP для слабых видюх теперь работает с FLF2V, управлением камерой от Recam Master, и может генерить длинные видео от SkyReels DF.

Comfy: добавилась поддержка Wan Fun, Wan FLF2V, Wan VACE, HiDream, pytorch 2.7+cu128, и не только.

Stability: в коллабе с AMD оптимизировали работу SD на Ryzen AI APU. До этого была оптимизация под видюхи Radeon.

Zluda: в CUDA для видюх AMD добавилась поддержка paddleocr.

Runway: добавили генерацию видео на основе нескольких рефов со стабильными персонажами и объектами (как в Kling, Wan или SkyReels). Пока доступно конкурсантам Gen48. Также Gen-4 теперь появился на мобиле (iOS).

Luma: представили пресеты движения камеры и сделали их доступными по API. А также организовали MCP сервер для десктопного Claude. Ещё видеомодель Ray 2 теперь добавлена в Adobe Firefly.

Pika: дропнули PikaTwists для реалистичного манипулирования персонажами или объектами на видео.

Kling: выпустили видеогенератор Kling V2 Master с улучшенным качеством изображения, следованием промту и движениями камеры. С помощью Multi-elements можно комбинировать объекты в кадре по рефам. Также выпустили KOLORS 2 для генерации/редактирования картинок или смены стиля. Помимо сайта Kling V2 доступен в Krea, Flora, итд. (спс @JohnDoe171)

Krea: сделали инструментарий для сборки сцен в 3D на основе картинок и текста для последующего рендера видео или изображений. Также организовали экспорт 3D сцен в Blender.

Adobe: выпустили генератор картинок Firefly Image Model 4, плюс версию Ultra с повышенным реализмом.

Bytedance: показали t2i модель Seedream 3 для генерации изображений в 2к на сайте + генератор видео Seaweed. Ещё выпустили Uno для композиции изображений по нескольким рефам. Гитхаб // Pinokio

Midjourney: обновили UI редактора, добавили редактирование по слоям, смарт-выделение, новый промт-бар, параметры weird / tile / remix добавили в V7, и не только.

Invoke: в этот опенсорсный фоторедактор завезли улучшенную поддержку Flux Redux, уменьшенное потребление VRAM, обновлённый лаунчер, который сам разбирается с зависимостями, и не только.

CraftsMan3D: Kijai наваял веса для этого генератора 3D.

ArtList: платформа для генерации картинок и видео. Хорошо слушается промта, выдаёт норм качество. Есть 5 бесплатных генераций.

SuperSplat: появилось выделение сплатов боксом, рендер выбранных областей, контроль цвета и фреймрейта.

PlayCanvas: улучшение в обработке теней сплатов, чтобы они не смотрелись оторванными от сцены и ускорился их рендер.

Brush: браузерный фреймворк на основе WebGPU для тренировки сплатов.

Three.js: добавили поддержку мультивью для WebGPU.

Diffusers.js: поддержка новых генераторов видео и картинок (Wan, Хуньянь, Sana), remote vae для разгрузки своего железа, оптимизация для инференса, итд.

Chrome: интеграция WebGPU с WebXR теперь доступна для тестирования разработчиками на Windows и Android. Сократилось время компиляции шейдеров.

Nerfstudio: выпустили gsplat 1.5, позволяющий тренировать сплаты быстрее и потреблять меньше памяти. И добавили в gsplat экспорт в форматах: .ply, .splat для вьюера antimatter, и сжатого ply.

Mesh2Splat: конвертер 3D мешей в сплаты.

Читать полностью…

Psy Eyes

Bytedance: выпустили ID-Patch для групповой персонализации фото.

Демка работает с 2 персонами, но примеры есть и с 8. Закидываем фотки требуемых людей (порядок загрузки влияет на порядок в кадре), загружаем реф с позой, задаём промт + настройки, и генерим контент.

По скорости и качеству есть ощущение, что под капотом что-то вроде SD. Лица шакалит даже если человек на фото прямо смотрит в камеру.

До этого они дропнули Infinite You (InfU) для генерации картинок с одной персоной.

Больше, чем с одним человеком в кадре работает ещё, например, InstantID.

Демо
Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Wan: Alibaba выпустили обновлённый V 1.1 Fun контролнет для WAN.

Повысилось качество, стало больше динамики, и меньше артефактов. Помимо контроля видео по 2 кадрам, Canny, Depth, Pose, MLSD и траектории, теперь есть работа с референсным изображением, например, для анимации аватаров.

Также появились отдельные модели для управления камерой. Движения базовые (влево / вправо / вверх / вниз), но их можно комбинировать.

Натренировано выдавать до 81 кадра на 16 fps в разных разрешениях (512, 768, 1024). Минимум нужно 12 ГБ VRAM, для модели 1.3B. Для 14B лучше иметь 24ГБ+ VRAM.

Гитхаб
Хаггинг
Comfy
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Hailuo: добавили персонализацию (Subject reference) для генерации изображений. До этого оно работало только для видео.

Можно загрузить фото целевой персоны, создать несколько кадров, и понравившийся сгенерить в видео.

От одного фото многого ожидать не стоит, если только персоны уже не было в тренировочном датасете Hailuo. Если вы вкинули фото под углом, модель по умолчанию будет тянуть отобразить персонажа под тем же углом. Шаг в сторону и она начнёт терять пропорции, ибо не знает реальных данных персонажа. Ситуация ухудшается с отдалением от камеры.

Если они предложат тренировку на своём датасете по фото или видео, это может измениться.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Higgsfield: выпустили Turbo версию своего генератора видео. Она в 1.5 раза быстрее базовой модели, на 30% дешевле, и генерации имеют приоритет в очереди.

Качество изображения на высоком уровне, а по реалистичности и динамике где-то даже превосходит конкурентов. Text-2-vid выдаёт 720p в 30fps, но на фантастичных сюжетах далёких от тренировочных датасетов легко словить шумы и артефакты. Для более стабильных результатов стоит использовать картинки, которые можно кормить разных размеров. Следованию промту хорошее (пусть и не без косяков) и есть улучшатель. Судя по черрипикам цензура лайтовая.

Отдельного внимания заслуживают пресеты движения камеры (похожее есть в Luma) и эффекты как в Pika. Их можно комбинировать и вес каждого менять ползунком как в Krea. Многие результаты на сайте и в твиттере выглядят довольно реалистично.

Сейчас они добавили 7 новых пресетов/эффектов:

* FACE PUNCH — удар в лицо, и не обязательно кулаком
* ARC (left/right) — облёт слева/справа
* JIB (up/down) — подъём/опускание камеры
* DOUBLE DOLLY — наезд или отъезд с изменением фокусного расстояния
* STATIC — статичная камера

Пресеты можно запускать без промта, но он не помешает. Я задал ARC RIGHT вокруг кота, а камера стала крутиться влево. Kling с этим справился ловчее, в том числе в плане качества.

Бесплатного аккаунта хватит на два видео и пару картинок. Одно видео генерится минут 10. Подписка от $9.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

JEN: этот музыкальный генератор выкатил фичу StyleFilter, позволяющую применить к сгенерированному на платформе треку стиль артиста из библиотеки. При этом музыкант получает выплаты. Я писал, что подобное будет, и вот мы уже здесь.

Работает это через маркетплейс, где ты выбираешь артиста и конкретный трек, стиль которого надо применить. Дальше, покупаешь фильтр либо со слабым следованием стилю за $4.99 либо с сильным за $7.99. Сколько с этого получает артист, каким образом, и в какие сроки неизвестно.

Подключается фильтр кнопкой в интерфейсе генерации рядом с Jenerate. Дальше пишем промт, слушаем превью как это будет звучать, и генерим. Применить можно максимум на 90 минут музыки.

Из артистов на данный момент доступна только Imogen Heap (подгружать свою музыку и тренировать лору нельзя). Плохо, что не дают менять стиль уже сгенерированных треков, или хотя бы услышать пусть и в зашакаленном превью как это могло бы быть, чтобы подстегнуть к покупке. При этом на странице фильтра внизу можно послушать треки, к которым фильтры уже применили, но без возможности переключить в оригинал это мало о чём говорит.

Собственно Riffusion, Suno, Udio уже наложение стиля предлагают по загруженным рефам. Причём Riffusion идёт дальше, позволяя персонализировать AI под свой стиль. А там глядишь и свои лоры тренировать дадут с монетизацией.

Проблема JEN остаётся прежней — плохое качество генерируемого материала (скорее всего из-за ограниченности датасета лицензионным каталогом). Пока они это не решат массовая аудитория не придёт.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Там на Runpod завезли 5090. Цена $0,89/час.

Отличный вариант потестить видюхи, чтобы не ломать голову стоят ли они своих денег, и будут ли они тянуть ваши задачи. Собственно на ранподе я и сравнивал бок о бок 3090 и 4090 в генерации контента перед покупкой.

Runpod
Анонс
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Jawset: обновили до V 0.6 Postshot, софт в котором можно рендерить 3D объекты и сцены из фото/видео в виде сплатов. Релиз включает в себя некоторые фичи, мелькавшие в пре-релизах.

Что нового:
* Новый профиль тренировки Splat3 с высокой детализацией
* Фокусирование трени на конкретном регионе, чтобы ускорить процесс и сэкономить память
* Добавлено сглаживание (anti-aliasing)
* Новые инструменты для управления камерой и очистки сплатов
* Поддержка Nvidia 50-й серии
* Много мелких исправлений и улучшений.

Сайт
Анонс
Скачать
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Пару недель назад заметил у тётушки небольшую шишку на спине с черной точкой. А вокруг неё набухлость твёрдая. Причём она её вообще не чувствует и само собой не видит. Говорит это наверное угорь, выдави. Но я-то вижу, что не похоже на угорь, и как-то не по себе такое выдавливать.

Сделал пару фоток и закинул в Perplexity, Grok, ChatGPT, чтобы те сделали именно исследование как я уже практиковал, а не просто беглый поиск.

Нейронки сошлись в предварительном диагнозе, что это атерома (не буду портить вам аппетит фотками — кому надо нагуглит). В общем это закупорка сальной железы, под которой скапливается гной. И её действительно ни в коем случае нельзя пытаться выдавить самостоятельно.

Хорошо, теперь следующий вопрос: к какому врачу идти? Нужно ли идти к дерматологу или сразу к хирургу? Стоит ли предварительно сделать анализ крови, чтобы хирург на месте мог решить касательно операции? Нейронка сказала, что можно сразу идти к хирургу, а касательно анализов мы уже сами решили пойти как есть.

В итоге вот сегодня утром съездили в медицинский центр. Подтвердилось, что это атерома и операцию быстро сделали на месте. Причём мы вовремя приехали, ибо гноя много и надо будет ещё вернуться завтра. Мне останется только перевязки ей делать в ближайшую неделю.

Так что +1 в пользу нейронок.

Читать полностью…

Psy Eyes

На основе Qwen 3 уже собрали QwenSite — аналог DeepSite для вайбкодинга веб-приложений.

К слову DeepSite менее, чем за месяц насобирал 1 млн пользователей. Можно прямо в нём публиковать полученные веб-апы на Хаггинге и даже есть галерея. Или можно воспользоваться их гайдом по локальному запуску. Посмотрим куда вырулит QwenSite.

QwenSite на моём тесте создания музыкального плеера пока показала себя не очень. Возможно стоит поиграться с промтом или дать разрабам подстроить модель под апу. DeepSite тоже на релизе не справился с этим, а сейчас вполне неплохо. Grok 3 всё ещё в топе на эту тему, но опенсорс не даст заскучать.

DeepSite
QwenSite

Читать полностью…

Psy Eyes

Freepik + Fal: выпустили генератор картинок F-Lite.

Имеет 10B параметров и натренирован на 80 млн картинок свободных от копирайта и SFW контенте. Лицензия Apacehe 2 разрешающая коммерческое использование.

Модель идёт в двух вариантах:
* F-Lite — базовая версия для генераций в широком спектре тем.
* F-Lite-Texture — версия с более богатыми текстурами и улучшенными деталями.

Freepik предоставляют сразу два комфи для запуска: Simple и Advanced. Оба они максимально минималистичные, состоят из пары нод. Отличие лишь в том, что Advanced лучше работает с детальным промтом и может разворачивать короткий промт в длинный.

Решил погонять просто F-Lite. Кижаевские ноды у меня были, плюс я поставил ComfyUI-Custom-Scripts. Но у меня как я ни пробовал не получилось найти F-lite ноду. Пришлось запускать в cli через Diffusers.

Потребляет 20-21 ГБ VRAM и на тестах выдаёт 1,5 сек/ит. На одну картинку 1024х1024 в 30 шагов уходит ~45 сек. Я после видеогенераторов и забыл, что такое скорость.

Без улучшения промта (я пользовался Grok 3), качество ад. И приходится деталь много подходов, чтобы сгенерить что-то путное. Хотя всё равно в фантастичных сюжетах получается мрак. на более-менее рекламном контенте фотосеты на пляже, 3D рендеры, и можно как-то выехать. Но с трудом. Надо будет потом запустить F-Lite Texture.

Ну если где-то есть F-Lite, то на сайте Fal есть F-Standard. А там глядишь и F-Large/Heavy подтянется.

Демо Lite (хаггинг)
Демо Lite (Fal)
Демо Texture (хаггинг)
Хаггинг
Гитхаб
Comfy
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

FramePack: появилась лора для поворота персонажа на 360 градусов.

В онлайн демке ограничение в 3 секунды.

Будет появляться что-то новое по этой теме — добавлю.

Демо
Хаггинг
Comfy (Kijai)
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Riffusion: выкатили генератор музыки FUZZ-1.0. До этого на сайте висела версия 0.9.

Идёт в двух версиях: Mini доступна всем безлимитно в relax режиме, и Pro с улучшенной проработкой звука и доступом к дополнительным инструментам по подписке. На бесплатном акке остался только базовый инструментарий.

На сайте не отображается какой версией FUZZ что сгенерировано. Но если по дефолту сейчас стоит Mini, то по качеству звука она всё также на уровне между Suno 3.5 и 4. Есть пример звучания Pro.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

HiDream: выпустили редактор картинок текстом E1 на основе своей модели HiDream Full.

Загружаем изображение, задаём промт с нужными изменениями + шевелим настройки по желанию, и генерим.

Результаты пока не впечатляют. Отрабатывает поверхностно, в лучшем случае теряя детали. Причём, как с включенным улучшателем промта, так и без. Пока можно использовать для быстрых драфтов и компоновки мудборда.

Демо
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Nvidia: выпустили стабильный релиз 3DGRUT и добавили профиль MCMC для рендера сплатов, а также оптимизацию SparseAram, и работу с масками на изображениях. Также подружили сплаты с Vulkan.

VivagoAI: выпустили новый генератор картинок HiDream-I1. Имеет 17B параметров, есть 3 версии Full, Dev, и Fast, генерящие в 50, 28 и 16 шагов соответственно. Промту следует неплохо и хорошо работает с портретами и надписями, но картинка шумновата, особенно в фантастических сюжетах. Тем не менее благодаря лицензии MIT, позволяющей коммерческое использование может прижиться в сообществе. Демо // Гитхаб // Comfy (спс @WaveCut)

VAST-AI
: дропнули HoloPart для декомпозиции 3D объектов на составные части.

PixelFlow: модель, генерирующая картинки прямо в пиксельном пространстве, а не в латентном.

MAGI:
новый опенсорсный видеогенератор с 24B параметрами, натренированный работать в режиме стриминга. 24B призывают гонять на 8xH100, а в конце апреля обещают 4.5B версию. На черрипиках качество высокое, но на сайте у них очень нестабильные результаты выдаются как с улучшайзером промта, так и без. Но лицензия Apache 2, разрешающая коммерческое использование — посмотрим как примет сообщество.

InstantX
: релизнули InstantCharacter для генерации картинок с целевой персоной в нужном стиле. Гитхаб // Comfy.

Cobra: колоризация лайн-арта.

Flux обзавёлся Union Pro 2 с улучшенным качеством и контролем генерации картинок. А также в Forge довезли поддержку Flux Tools.

NormalCrafter: получение карты нормалей видео.

LayerAnimate: генерация анимации по слоям.

Phygital+: добавили Gemini для редактирования картинок промтом, Character и Style Reference в Midjourney, ускорили работу Flux, IP-Adapter и SDXL ~4 раза, и не только.

Vidu: выпустили генератор видео Q1, выдающий 1080p, и работающий со звуком и кейфреймами.

Читать полностью…

Psy Eyes

PlayAI: выпустили два продукта:

Audio Cleaner для очистки аудио от шума, Максимальная длина 160 секунд. Можно подгружать сразу видео, но лайв выступления сразу не стоит кормить ибо заточено голос вытаскивать. Похожая фича есть у ElenLabs, или можно использовать Audacity, iZotope RX, или Adobe Audition.

Voice Changer
Замена голоса на аудио или видео. Выбор даётся из библиотеки персонажей, но можно клонировать целевой голос — для этого есть либо Instant режим (достаточно 30 секунд аудио), либо High Fidelity с детальной проработкой (нужно 20минут аудио).

Есть 1000 бесплатных кредитов, чтобы попробовать.

Сайт
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

StepFun: выпустили Step1X-Edit для редактирования картинок текстом. Можно использовать для добавления / изменения / удаления объектов в кадре или смены стиля.

Неплохо справляется, например, с рекламным контентом, где объект хорошо выделен в кадре. С надписями работает хуже, чем KV-Edit.

Чтобы гонять локально без оффлоада в RAM, нужно 43 ГБ или 50ГБ VRAM для работы c разрешением 512 или 1024 соответственно. С оффлоадом 26 ГБ или 29 ГБ. Сообщество уже наваяло fp8 веса: самый лайтовый вариант запуска 18 ГБ VRAM.

Демо
Сайт
Гитхаб
Хаггинг

Читать полностью…

Psy Eyes

OpenAI: запустили генерацию картинок моделью gpt-image-1 через API. Можно попробовать на Playground.

Она может использоваться как для создания новых изображений, редактирования существующих (например, для смены стиля), или композиции разных объектов вместе.

Работает с форматами 1:1 / 16:9 / 9:16 максимум 1024х1024 или 1536x1024. Может выдавать картинки с прозрачным фоном. Есть три режима качества Low, Medium, High, каждый из которых потребляет своё количество токенов. Финальная цена за генерацию = количество входных токенов + токенов на редактирование img2img + выходных токенов.

На генерацию может уйти пара минут. Возможны проблемы с рендерингом текста, стабильностью персонажей, и композицией.

Либо можно воспользоваться платформами, на которые модель уже подрубили:

Comfy
Higgsfield
Krea
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Двойной 3D удар!

CSM: организовали на сайте редактирование 3D объектов чатом. Можно: вытаскивать объекты из сцены для img-2-3D; сегментировать на отдельные элементы чтобы потом собрать вместе, например, в блендоре; менять/удалять объекты, или менять их позу.

Есть 10 бесплатных кредитов в месяц на тесты.

Хуньянь-3D: на сайте обновился до V2.5. Количество параметров увеличилось в 10 раз до 10B. Вместе с этим улучшилась и детализация 3D объектов, появилась поддержка текстур высокого качества, и авториг (похожее недавно опенсорснули Tripo в UniRig)

В опенсорс в отличие от V2 модель не пошла (по крайне мере пока). Более детальный взгляд на релиз у Сергея в 4 постах.
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Pika: теперь эффекты можно применять не только к картинкам, но и к видео.

На данный момент доступно 4 опции:
* It's Alive — оживление вещей
* Duplicate it — дублирование объектов в кадре
* Wizard Cat — шапка волшебника
* It's Computer — когда не прошёл капчу

Видео должно быть минимум 5 секунд длиной.

PS: Remade уже поди начали печь опенсорс версии версий для Wan и LTXV.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

Tenstorrent — новый конкурент Nvidia в потребительском и серверном сегменте GPU.

У истоков компании Джим Келлер, архитектор микропроцессоров Apple, AMD, и Tesla, занимающийся этим уже 40 лет. Он был ведущим разработчиком чипа для автопилота Tesla, а также процессоров Athlon и Ryzen, позволивших AMD забрать у Intel ощутимую часть рынка.

Tenstorrent выпускают GPU на основе открытой модульной архитектуры RISC-V, с возможностью расширения набора инструкций под задачи и оптимизации разных AI моделей для запуска на их железе. Также эти GPU используют технологию network on chip для обмена данными между разными частями микросхемы с помощью сетевой архитектуры, что позволяет ускорить обработку данных и легко масштабироваться.

В отличие от Nvidia, аппаратные решения которых являются закрытыми для разработчиков, Tenstorrent полностью открывают в опенсорс программный стек, позволяя разработчикам получить доступ к железу на всех уровнях. Есть SDK для работы на софтверном уровне (TT-Buda), аппаратном (TT-Metalium), а также компилятор TT-Forge для работы с разными ML-фреймворками.

Продукты:

* Blackhole p100 ($999) — 28 ГБ GDDR6 // TDP 300 Ватт // активное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 120 Tensix ядер // без входа Ethernet.

* Blackhole p150 ($1399) — 32 ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 140 Tensix ядер // есть 4 Ethernet порта для объединения памяти нескольких видюх в общий пул.

* Wormhole n150 (от $999) — 12ГБ GDDR6 // TDP 160 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 72 Tensix ядра // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* Wormhole n300 (от $1399) — 24ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 128 Tensix ядер // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* TT-Quietbox Blackhole ($11 999) — рабочая станция с жидким охлаждением на базе 4 Blackhole p150 для запуска неквантованных 80B моделей или множества мельче. Внутри 128 ГБ GDDR6 // 48 RISC-V ядер и 480 Tensix ядер // 256 ГБ DDR5 // CPU AMD EPYC 8124P // 10 Гбитные Ethernet порты // 4 TB NVMe SSD.

* Есть ещё рабочая станция TT-Quietbox Wormhole ($15 000) с жидким охлаждением на базе 4 Wormhole n300 c 96 ГБ VRAM и TT-LoudBox тоже с 96ГБ VRAM, но воздушным охлаждением. Для корпоративных клиентов им имеется сервер Tenstorrent Galaxy с 32 Wormhole n150 (384 ГБ VRAM) и рэковая стойка из 6 таких (2304 ГБ VRAM).

Можно погонять в облаке на Koyeb. Пока доступны только Wormhole n300 (24 ГБ) или 4xn300 (96 ГБ), причём ограниченное количество времени бесплатно. Но команда вручную апрувит доступ к ним на 2 недели, так что придётся подождать.

Есть живое сравнение n150 и 4090 на ламе 3.1 от Стаса. n150 выдаёт 26 токенов/сек, а 4090 уже 58 ток/сек, но цена первой $999, а второй значительно выше $2000 у него на видео. Так что по соотношению цена/токен получается весьма неплохо. И это ещё нет публичных тестов n300 и Blackhole серии. Надо кстати ещё иметь ввиду, что драйвера пока есть только на Ubuntu.

Из нейронок на данный момент в основном поддерживаются разные языковые модели (DeepSeek, QwQ, лама, итд). Я спросил в их дискорде про генерацию видео и картинок: сказали в тестовом режиме поддерживают SD 3.5... Так себе вариант конечно, но посмотрим что будет дальше. Список готовых к запуску моделей у них на портале.

Сайт
Гитхаб
Дискорд

Читать полностью…

Psy Eyes

Suno: добавили возможность загружать видео для замены дефолтной обложки.

Чтобы загрузить видео идём в библиотеку, через три точки открываем меню трека, наводим на Song Editor, выбираем Song Details. Появляется окно загрузки видео.

Требования:
* Вертикальный формат 9x16
* Как минимум 720px по высоте
* MP4, MOV
* Длина ограничена 10 секундами. Для шортсов/тиктоков пойдёт.

Также это означает, что у Suno начинает накапливаться датасет на основе видео. Быть может через некоторое время увидим от них возможность и генерить полноценные музыкальные клипы заодно. Или хотя бы загружать видео и генерить под него музыку.

Сайт
Твит
Про Suno V4
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…

Psy Eyes

SkyWorks: выпустили в опенсорс версию V2 своего видеогенератора SkyReels. Писал о них ранее.

В тираж пошли две модели: большая на 14B параметров и мелкая на 1.3B. Выдают видео в разрешении 540p (544 х 960) или 720p (720 x 1280). Позже в опенсорс прибудет промежуточная модель на 5B параметров и модель для управления камерой. 1.3B и 5B могут генерить видео длиной до 97 кадров, а 14B до 121 кадра.

При этом фичей данного релиза является Infinite Length или Diffusion Forcing — возможность создавать видео любой длины. Работает как отдельная модель с приставкой DF, которая может брать на вход как текст, так и картинки. Пока только в 540p. Можно играться с количеством кадров идущих внахлест, но может упасть качество. Потенциально у нас может быть ещё один генератор длинных видосов как FramePack.

Под капотом используется мультимодальная языковая модель, которая которая описывает полное видео в общих чертах, а также остро-заточенные мелкие эксперты, описывающие кадры. Разрабы выпустили отдельно модель для аннотирования видео данных — SkyCaptioner-V1.

Для генерации видео с разрешением 540P с помощью модели 1.3B требуется около 15 ГБ VRAM, а для видео с тем же разрешением с помощью модели 14B около 52 ГБ VRAM.

Судя по 30 сек примерам с твиттера качество хорошее, и динамичность на длинной дистанции удерживается неплохо. Но при этом все репостят одни и те же видео, а на сайте не пишется генеришь ты в V2 или предыдущей модели.

Kijai уже наваял веса. Хотел погонять на винде на 4090, но выяснилось, что нужен triton. Поставил его, но всё равно не завелось. У кого линь скиньте в комментах, что у вас получилось.

Если появится онлайн демка пришью к посту.

Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Читать полностью…
Subscribe to a channel