37768
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
📺 Облачный провайдер Cloud.ru запустил телемагазин в стиле нулевых
Только не про чудо-технику, а про облачные и AI-сервисы. В коротких роликах комик Илья Макаров в роли ведущего с юмором рассказывает про то, как:
- настраивать умный поиск на RAG
- вайб-кодить с AI
- ускорять разработку приложений
- создавать корпоративных AI-агентов
Выбирайте простые и удобные AI-сервисы, не вставая с дивана!
Гугль тизерит какие невероятные возможности Veo3.1
Какая-то ВидеоНанаБанана.
Поглядите видосы, я пока не понимаю, как они добавляют или удаляют объекты с имеющихся видео. Ингредиенты?
Отправляют всех желающих почитать вот такой вот док:
Introducing Veo 3.1 and advanced capabilities in Flow
А в ноябре ждем Нанабанану 2.
@cgevent
Нейропрожарка
На этот раз от самого Доброкотова, известного в миру как АI molodtca
Бригада, но это аниме опенинг.
Уже пятый в серии. Делал где-то месяц в свободное от студийных проектов время (и да, пришлось пересмотреть сериал целиком — освежить ключевые моменты).
Звук
Я всегда начинаю с музыкальной темы — она даёт нужную структуру. Поэтому написал черновой текст, через Claude адаптировал на японский и пошёл в Suno. В этом опенинге хотелось сделать именно кавер на оригинальную мелодию (она важна для вайба), поэтому с помощью Cover сделал около 50 версий, пока не нашлась вишенка.
Картинки
Дальше начинается высокофункциональный аутизм — генерация стиллшотов. Благо теперь есть нано банан, абсолютное величие. Без него бы сошёл с ума: делать лоры на каждого персонажа, инпейнтить их в сцены и заниматься другой первобытной дикостью.
В процессе открыл для себя, что бананой довольно удобно итерационно пользоваться не только в нативном чате, но и в нодовой системе — большая часть шотов сделана шаг за шагом в Фиджитал+.
Видео
Если раньше в анимацию могла только Luma 2 (где и делал все прошлые опенинги), то сейчас все модели это умеют. НО — часть моделей (например, Veo-3) превращает 2D в квази 3D. Поэтому если делаете анимацию — ваша остановочка это Minimax 2 и новый Kling 2.5. В последнем сделана бóльшая часть шотов, а кадры с start-end frame — в Минимаксе. Потрачено где-то по 6к кредитов в каждом.
Монтаж
Для личных приколдесов использую платный CapCut. Весёлый и заряженный.
Да вот и всё, жарьте, бандиты! 🐺
@cgevent
Знаю тут многие пользуются Дипсиком.
У них вот такое обновление - DeepSeek-OCR, модель для перевода картинок в текст\маркдаун.
Распознает даже химические формулы и конвертит их в SMILES формат.
- Состоит из 2 компонентов - DeepEncoder (380M) и DeepSeek MoE (3B, 570M активных)
- Нативные разрешения - 512×512, 640x640, 1024x1024, 1280×1280
Распознает картинки с очень низким качеством и большой компрессией.
https://github.com/deepseek-ai/DeepSeek-OCR
@cgevent
Когда анекдоты перестают быть анекдотами
Новости технологий: изобретен аппарат автоматического бритья:
- Бросаешь рубль, суешь голову в прорезь
и он тебя автоматически бреет.
- Но ведь у всех разные лица!?!?
- В первый раз да ...
@cgevent
FlashVSR
Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
Точно не лучший апскейлер видео, но зато опенсорсный, раз уж в коментах были вопросы.
Есть и код:
https://github.com/OpenImagingLab/FlashVSR
И ноды для комфи:
https://github.com/smthemex/ComfyUI_FlashVSR
Ест много памяти, как все апскейлеры.
Использует Block-Sparse Attention, который будет капризничать на слабых видеокартах.
@cgevent
Anthropic запустили Claude Skills – способ научить Claude делать специфические задачи именно так, как нужно вам.
Суть простая: вы создаёте папку с инструкциями, скриптами и файлами, а Claude сам подгружает нужный скилл, когда это релевантно задаче. Никакого ручного выбора – модель сама определяет, что нужно.
Что умеют скиллы:
- Взаимодействуют друг с другом – Claude сам понимает, какие навыки нужны, и комбинирует их
- Работают везде одинаково – создали один раз, используете в веб-приложении, Claude Code и через API
- Могут включать исполняемый код для задач, где нужна генерация и расчеты.
Примеры довольно рабочие:
Box использует скиллы для трансформации файлов в презентации и документы по корпоративным стандартам.
Canva планирует встраивать скиллы в агентов для создания дизайнов.
Включается в настройках (Settings - Features - Skills). Для создания есть встроенный "skill-creator" – он сам спросит про ваш воркфлоу и соберёт структуру.
Подробности: https://www.anthropic.com/news/skills
Примеры скиллов: https://github.com/anthropics/skills
Видео: https://youtu.be/IoqpBKrNaZI
Sora Storyboard:
- режет ровно как вы описали. это позволяет задавать ракурсы сильно точнее
- в рамках одной scene позволяет нагружать деталями. vfx, стиль.
- готовый ролик можно вернуть к редактированию (back to storyboard)
- по умолчанию 15 сек, но если нажать модель сора, выбрать 25 и переключиться в pro - сделает честно 25.
Промты для карточек ролика выше:
https://docs.google.com/document/d/1QKTBDK3tKghp-d0pKEZThp6DEWNpkNsEjPZJ0M5G_r0/edit?usp=sharing
Veo 3.1 появился на wavespeed.ai и flowith.io
Разрешение 1080р, но длительность по прежнему 8 секунд.
Вечером ждем анонса от Гугла.
Промпт:
Context: A Panda named Bamboo and a Red Fox named Tweed host a casual, witty podcast called "Quantum Quibbles."
Task: Write the absolute shortest, most punchy opening exchange for an episode on quantum entanglement. Focus only on quick introductions and the topic title.
Panda (Bamboo): "Welcome to Quantum Quibbles! I'm Bamboo."
Red Fox (Tweed): "And I'm Tweed!"
Panda (Bamboo): "Today: Quantum Entanglement!"
Red Fox (Tweed): "Let's dive in."
@cgevent
Gemini 3.0 (обещают в октябре).
Пишет с одной попытки код Windows, которая работает в браузере.
Prompt: Design and create a web os like windows os full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block
Разработай и создай веб-ОС, подобную ОС Windows, с полным набором функций: от текстового редактора, терминала с Python и редактором кода до игры, файлового менеджера, программы для рисования, видеоредактора и всего важного предустановленного программного обеспечения ОС Windows. Используйте любые библиотеки, чтобы выполнить эту задачу, но убедитесь, что я смогу вставить все в один HTML-файл и открыть его в Chrome. Сделай это интересным и очень детализированным, покажи детали, которых никто не ожидал, прояви всю свою креативность и красоту в одном блоке кода.
Полученный код:
https://codepen.io/ChetasLua/pen/yyezLjN
Ждем 3.0 в октябре, а пока можете поглядеть, как она пишет код Веб-Макоси:
https://x.com/chetaslua/status/1977866953705316571
@cgevent
Segment Anything 3 тихо появился на ICLR в виде статьи
Первая версия SAM позволяла щелкнуть по объекту, чтобы сегментировать его.
В SAM 2 были добавлены видео и память.
Теперь SAM 3 говорит: просто опишите, что вы хотите - «желтый школьный автобус», «полосатый кот», «красное яблоко» — и он найдет и сегментирует каждый экземпляр этого объекта на изображениях или в видео.
Это как будто сегментация наконец-то научилась языку, но в обоснованной, минимальной форме, просто оперируя концепциями.
Короткие существительные, образцы изображений или и то, и другое.
Вы озвучиваете объект, он понимает, что вы имеете в виду, и рисует границу везде, где она появляется.
За этим стоит огромный механизм обработки данных: 4 миллиона уникальных концепций, 52 миллиона проверенных масок, созданных людьми и LLM, проверяющими работу друг друга.
Результат: примерно в 2 раза лучше, чем SAM 2, распознавание, близкое к человеческому, на тестах с открытым словарем и скорость в реальном времени.
https://openreview.net/forum?id=r35clVtGzw
@cgevent
Vivix, the World's first Real-time Long Video Model
Звучит как кликбейт, но они действительно генерят пятисекундный видос за три секунды. Но есть моменты.
Реальный кликбейт тут: Vivix Turbo — создавайте видеоролики длиной до 1 минуты менее, чем за 3 секунды, с 9 вариантами сразу.
9 вариантов вам предложат только на платном тарифе.
Но на бесплатных генерациях (а мне насыпали сразу 260 кредитов и одна генерация - 10 кредитов), он работает как обещано - за три секунды генерит одно видео в 5 секунд.
Дальше начинаются игрищща - он пишет на видео длительность в 15 или даже в 50 секунд, и после того, как вы кликаете на видео, начинает его долго генерить (я не дождался).
Качество приподшакальное, 512р.
Но Вилл Смит втянул макаронину как положено.
Умеет только в image2video.
Наверное в таком случае проще использовать Grok Imagine
https://vivix.ai/labs/turbo
@cgevent
Нейропрожарка
Свежая работа от Паши Нойза "DAY OF THE DAD". Очень советую пересмотреть в версии 4K (ссылка в конце). Помните его клип для Limp Bizkit?
Сюжет:
В мире, где День отца — это дата трагедии, выживший "Король Свалки" отмечает ее кровавым ритуалом мести. Его миссия: прорваться сквозь орду мертвецов, чтобы найти новый подарок для своей погибшей дочери, тем самым сохраняя последнюю, самую важную традицию. Это ультра-насилие, ведомое глубочайшей сентиментальностью.
2. Краткая Идея и Философия
Это ultra-trash-хоррор-боевик в стиле B-movie 80-х, который служит пилотом для моей будущей франшизы THE DEAD RUST.
В отличие от современных, бегущих Зомби фильмов и одинаковых серых зомби, мне нравятся Зомби эстетика 1980s с их индивидуальностью и кино эстетикой .
И я намеренно воскресил философию Джорджа А. Ромеро—зомби должны быть уникальными, медленными и нести свою прошлую "идентичность”(Зомби моряк или пассажир в такси). Поэтому я воссоздал эстетику таких фильмов как - “День Мертвецов” или “Ночь живых мертвецов”
3. Детали Производства и Бюджет
Flux 1.dev Finetuned и собственный пайплайн для лица главного героя
Midjourney и собственный Moodboard для генерация основной стилистики
Omni Reference для создания консистентых сцен с главным героем
Kling AI - основной генератор
Minimax Fast для Кровавых сцен (хорошо проводит цензуру)
Higgsfield AI & Wan 2.5 для специальных сцен (взрывы)
SeeDance - для Close Up в основном (хороший кино тон у картинки)
Nano Banao & Seedream - для Создания дополнительных кадров и редактуры
Suno v5 - музыка
ElevenLabs = Закадровый голос.
Final Cut Pro был использован для ручного монтажа и SFX (созданных мной).
Topaz Labs использовался для Upscale в 4K
Бюджет и Время: Общая сумма прямых затрат составила всего около 50$ Внебюджетные расходы (CPP): Topaz Labs и Higgsfield AI использовались на условиях партнерских программ и не вошли в прямые расходы.
4. Личное Заявление
Моя цель — доказать, что AI-кино — это мастерство управления эстетикой, а не случайная генерация. Весь проект был задуман и исполнен за 5-дневный спринт.
Этим проектом я бы хотел показать что : AI — это кисть или инструмент. В правильных руках он может воскресить утраченную эстетику (Джорджа Ромеро) и решить ключевые проблемы консистентности благодаря собственным техническим наработкам.
P.S Если есть вопросы спрашивайте отвечу в комментариях или лично.
Смотреть в 4K - https://youtu.be/fKL1gh4i1Cs
@cgevent
Grok Imagine 0.9
Надо повнимательнее приглядеться к нему: сколько вилов смитов дадим?
Мне кажется уже тянет на девяточку.
Я зашел на https://grok.com/imagine/
Регнулся твиттором (можно гуглом или эппле) и получил довольно интересный опыт.
Если пишешь просто промпт, он генерит Бесконечную(!) ленту картинок по твоему промпту.
Ибо он пока не умеет в text2video.
Потом выбираешь (или загружаешь) картинку и он ея оживляет в видео.
Но есть лайфхак, если ему на вход подать чорную картинку и свой промпт, то получится text2video.
Есть липсинк, есть озвучка эффектов, подкладка музики.
Довольно развеселый продукт.
Также есть аппы для айфона и андроида.
@cgevent
Veo3.1
Утечки из твитторa от 8 октября 2025 года указывают на грядущее обновление Veo 3.1 для модели генерации видео от Google, замеченное в списке ожидания Higgsfield AI и во внутренних кодовых базах, таких как Vertex AI. Предполагаемые улучшения включают в себя улучшенную согласованность персонажей, продолжительность роликов до одной минуты, конструкторы сцен и кинематографические пресеты. ИИ-сообщество рассматривает их как шаги, призванные бросить вызов Sora от OpenAI, хотя Google не предоставила официального подтверждения.
@cgevent
А в Veo тем временем прикрутили инструмент для аннотаций.
Он и раньше их понимал, но надо было где-то их рисовать, а теперь прямо во Flow для Ingredients or Frames to Video появилась иконка с карандашиком. Там мини Paint с текстом и стрелками.
Обратите внимание на видео, как там пишут промпт "используй инструкции из аннотации, а потом удали ее к буйволу".
А еще во Flow Scenebuilder появилась Portrait Mode.
@cgevent
Krea Realtime 14B: Real-Time Video Generation
Довольно любопытный маркетинговый ход от Krea (внимание, это опенсорс).
Смотрите что они сделали:
Krea Realtime 14B получен путем дистилляции из Wan 2.1 14B T2V с использованием Self-Forcing, техники преобразования диффузионных моделей в авторегрессионные модели. Преобразование, а не обучение(дорого), поэтому и дистилляция.
Тут главная фишка в том, что в обычных диффузионных моделях, надо ждать, когда "проявится\расшумится" все видео. А в авторегрессии, можно получать каждый кадр (пачку кадров) прям в процессе и начинать их стримить (подобно выводу текста в чат), не дожидаясь окончания всей генерации.
Как следствие: юзеры могут изменять подсказки в процессе генерации, мгновенно менять стиль видео и просматривать первые кадры за 1 секунду.
С реалтаймом они отчаянно читерят:
11 кадров в секунду на 4 шагах и гроцессоре NVIDIA B200(!).
Заявляя что это САМАЯ большая реалтаймовая модель видео в мире.
Уже можно попробовать на fal.ai (причем также video2video)
Я попробовал (это Wan 2.1, без иллюзий), щас покажу, а пока смотрите сладкия черрипики от Krea и читайте тех отчет тут:
https://www.krea.ai/blog/krea-realtime-14b
Есть код: https://github.com/krea-ai/realtime-video
Модель тут: https://huggingface.co/krea/krea-realtime-video
@cgevent
FlashWorld: High-quality 3D Scene Generation within Seconds
А вот интересная опенсорсная ответочка от Хуньяньского на генерацию миров.
Тут правда под капотом гауссианы и качество среднее, но при этом авторы клянуцца, что генерят 3DGS-сцену на 5 секунда на "single GPU", что в 10-100 раз быстрее предыдущих методов.
Для гиков может быть интересно, код есть:
https://imlixinyang.github.io/FlashWorld-Project-Page/
@cgevent
Нейропрожарка
Автор: Павел Жигарев | Noizlab
4K версии : 1 и 2
Telegram
🎬 Эксперимент: создание AI-кино трейлеров на open-source модели Flux ⏱️ Срок: 8 недель в совокупности. 💡 Как началось: пришла идея а можно ли сделать «настоящее» КИНО с актерами в их «прайм» форме и без цензуры, Midjourney и все остальные нейронки не позволяли этого из-за цензуры и прав ,да и консистентность от кадра к кадру оставляет желать лучшего .. — поэтому тут было решено - только кастомные решение , только хардкор!. Взял самую сложную задачу: «молодой» Арнольд в образе Конана с полной экипировкой под эстетику 80-х. Так же у меня есть своя “кино” модель Flux обученная на нескольких тысячах кадров из фильмов что сделало картинку более “киношной”
✅ Где было сложно : Ручной inpaint/upscale каждой детали костюма (ремни, бляхи, мех, шнуровка) — чтобы ничего не «плавало». Полировка лица на проблемных кадрах. Без этого консистентность разваливается.
Сделал около 3000 генераций видео чтобы отобрать самые лучшие дубли.. это очень долго и муторно..
🚀 AI Стек:
Prompts - мой ChatGPTs
SwarmUI - Основной Хост.
Finetuned Flux.dev + Kohya_SS (Dreambooth для finetuning)
ComfyUI - Batch Second Pass Upscale
Editing: Krea Flux.dev (быстро дешево)
VideoGen - Higgsfield AI, Kling 2.1 start/end. Hailuo-02 (action), Seedance Pro (статика)
Final Cut Pro + Плагины
Face Fusion (полировка лица)
Topazlabs (Upscale 4K)
ElevenLabs - диктор озвучка
Музыка - Custom
Музыка и звук:
Отдельное внимание было к саунду так как в осноном все забивают на это Музыку для обеих роликов писал сам. Более того это был мой первый опыт написания классической и трехмерной мызыки а так же SFX тоже был собран с нуля. Так же классно получилось имплементировать заглавную тему Конана от маэстро Безила Полидуриса.
🎯 Финал:
Не претендую на 100% консистентность, но старался сделать Конана как можно ближе к оригиналу . Этим видео хочется показать: в умелых руках ИИ-инструменты + насмотренность + креативные навыки 12 профессий в одном хе-хе + выдержка дают превосходный результат — шаг к настоящему кино на open-source стеке, от омоложения актёров до возрождения франшиз.
Если интересны подробности о проекте и как AI становится рабочим инструментом, а не генератором мемов — присоединяйтесь мы про ИИ Кино и чуть-чуть про мемы )
@cgevent
Will Smith в Veo 3.1
Мне кажется, это уже AGI...
Тут и звук, и макарон на.
Сколько Виллов Смитов дадим?
@cgevent
Нейропрожарка
Мне всегда нравился жанр роад-муви — дорожное приключение, как правило, двух друзей или напарников. Когда вышел сериал "Настоящий детектив" с Макконахи и Харрельсоном я параллельно читал «Одноэтажную Америку» Ильфа и Петрова. И как-то так меня вдохновили две эти вселенные плюс другие подобные фильмы и сериалы, что я написал короткий сценарий. А точнее синопсис, как бы мог выглядеть такой мэшап. Сейчас одним предложением его можно охарактеризовать так: советские писатели оказываются втянуты в игру спецслужб, где есть место и высоким технологиям, и мистическим культам США 1930-х. Написал пару листов и забыл, так как таких набросков было не мало.
Периодически по работе моушн-дизайнером и для своих творческих проектов я создавал либо мультяшные истории со скелетной анимацией, либо какие-то коллажные ролики в стилистике перекладной анимации в After Effects и Adobe Character. Делал клипы, мультики по типу Масяни и тд, но быстро к ним охладевал, так как не было обратной реакции, а времени и сил уходило немало. Думаю многим знакомо это чувство. И вот ура, появились нейросети и увидеть воплощение своей идеи занимает пару нажатий (по крайней мере так думают заказчики). И вот как я делаю эти пару нажатий: пишу сценарий в чате gpt, опираясь на первоисточники. Там же делаю промты на шоты, которые генерирую во freepik.com. С подпиской премиум+ дается безлимит на генерацию картинок, а я в 99% случаев использую i2v. Также обучил характеры своих персонажей, но при генерации они получаются хуже, чем просто прикрепить фото как реф и в промте ссылаться на него. Видео с диалогами делаю Veo 3. Есть артефакты и моменты брака, например слова в ударениях или где-то неправильно буква произносится. В общем, что-то типа 6 пальца, который искушенный человек не пропустит. Но я сознательно не трачу время и кредиты на эти доработки, потому что мне важнее реализовать максимум проекта с качеством 90%, чем один эпизод с качеством 100%. Поэтому если после 2-3 попыток Veo выдает все же брак по голосу - иду в hedra или sync и пытаюсь переозвучить там, поэтому голоса у персонажей "гуляют". Знаю, что можно обучить свою голосовую модель, но пока интонации звучат пресно. Часто сгенерированные картинки редактирую в Фотошопе, так получается быстрее, чем той же нанабананой. Но если нужен поворот предмета, другой ракурс, то есть пересобрать сцену - она прям радует. Ну и общая сборка в Premier Pro - монтаж, работа со звуком, субтитры. Во время монтажа меняется и сценарий зачастую, но на то он и монтаж. На самом деле, никаких хитрых приемов, а скорее уже базовый набор инструментов для дизайнера и концепт-художника. Меня самого сильно привлекают вирусные ролики на повседневные бытовые темы - котики, кассиры, бабульки. Вот как сейчас активно бомбят интернет ролики, сделанные в сора 2. Но моя мечта это делать сложные исторические или фантастические большие проекты. И в будущем вижу ИИ как неотъемлемую часть кинопроцесса.
Для нейропрожарки я прикрепил, слитые в одно видео 6 эпизодов, а вообще они выходят по 1 минуте примерно раз в неделю без строгого графика. По времени 1 эпизод примерно 1-2 рабочих дня (учитывая написанный сценарий) и день на доработку и саунд-дизайн на свежую голову + релиз на площадки, а это тоже время. Всего запланировал 18 эпизодов. Следить можно на всех ресурсах с адресом @vshtatskom
@cgevent
Ха, сейчас ИИ создает больше статей, чем люди!
Шах и мат, кожаные авторы.
В качестве утешения в статье приводится вот такой вывод:
Хотя после запуска ChatGPT количество статей, созданных с помощью ИИ, резко возросло, мы не наблюдаем продолжения этой тенденции. Напротив, доля статей, созданных с помощью ИИ, оставалась относительно стабильной в течение последних 12 месяцев. Мы предполагаем, что это связано с тем, что специалисты обнаружили, что статьи, созданные с помощью ИИ, не показывают хороших результатов в поиске, как показано в отдельном исследовании.
Ну то есть Иишные статьи плохо индексируются в поиске и в выдаче болтаются внизу.
До времени, до времени.
Пока ИИ не овладел нормально поиском.
https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans
@cgevent
Sora 2 Pro Storyboard
Для олигархов и баяр с планом PRO вышел Сториборд для Соры.
25 секунд как с куста. Как тебе такое Veo3.1?
Смотрим подробности и пример борда ниже:
⬇️⬇️⬇️⬇️⬇️
@cgevent
Нейропрожарка
Шоурил от Дмитрия, где он попытался охватить несколько тематик и показать возможности нейросетей на длинных сценах.
На самом деле нейросети закрывают лишь малую часть работ, основное зависит от человека, который учитывает все детали монтажа и постобработки. Даже самые плохие кадры можно спасти, а самые красивые можно угробить.
Рынок АИ контента за этот год сделал качественный прыжок, и я уверен, что в следующем году нас ждет нечто большее, но это не заменит человеческий фактор, так как это не просто создать картинку и нажать на кнопку. За каждым кадром стоит кропотливая работа, благодаря чему ролик начинает жить.
Я любитель работать с длинными сценами, чтобы соединять кадры между собой, иногда, чтобы это было неожиданно и гармонично. И в этом ролике я продемонстрировал все чему я научился за этот год с нуля.
Процесс создания:
- Сценарий
- Отрисовка ключевых кадров (Seedream4, Nanobanana, Reve)
- Отрисовка дополнительных через Эдиторы.
- Апскейлы кадров
- Анимация (Минимакс, клинг 2.1 / 2.5)
- Липсинг / озвучка 11labs
- Суно для генерации трека с репом, остальные АртЛист.
- SFX эффекты (библиотека АртЛист / 11labs / mirelo )
- Монтаж / цветокор / пост обработка - Давинчи.
Буду благодарен конструктивной обратной связи. Возможно стоит доработать некоторые детали, которых я не вижу.
@dm_creator369
@cgevent
В NotebookLM (вы же знаете, что это такое?) завезли Нанабанану, которая легко меняет стили для Video Overview.
Напомню, что NotebookLM умеет генерить не только подкасты по входным документам, но и видеопрезентации.
Теперь для них есть 6 стилей (есть еще седьмой - Brief, но он сокращает презу):
Whitepaper
Retro Print
Heritage
Papercraft
Watercolor
Anime (куда ж без него в презентациях-то!)
Посмотрите видео, сразу поймете о чем речь.
Выглядит очень нарядно..
Начинают раскатывать для юзеров плана Pro, позже всем остальным..
А я вообще не понимаю, почему такой продукт еще бесплатный..
@cgevent
Гагарт: Гага-актеры и Гага-ававтары.
Держите китайскую Хедру - GAGA.ART - озвучиватель портретов по фотке и входному тексту\аудио.
Попробовал, потому что дают 200 бесплатных кредитов.
Если честно, выглядит, как китайская под(д)елка: длительность видео 10 секунд (у Хедры минуты), кариес с зубами, статичная камера, ну и в целом так себе интерфейс.
Из плюсов, есть бесплатная генерилка картинок и за Gaga Actor с меня даже кредиты не списали.
Илон Маск сделан именно так.
В Gaga Avatar уже можно присовывать аудио, а не только текст.
Авторы настаивают, что они делают липсинк С УЧЕТОМ эмоций через микродвижения, что бы это не значило.
Попробуйте, может вам зайдет, логин гуглом.
https://gaga.art/
@cgevent
Tiny Recursive Model (TRM)
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
В HeyGen встроили Sora 2
В отличие от многих других агрегаторов они сделали попытку встроить ее как один из элементов ковейера.
Можно просто генерить B-rolls как ассеты внутри HeyGen, которыми потом разбавлять говорящие головы
B-roll - это дополнительный видеоматериал, который дополняет основной материал (A-roll).
Проще говоря, это вставочные кадры, которые помогают сделать видео более живым, динамичным и понятным.
Но есть и режим видеоагента HeyGen с галочкой Sora2: просто пишете промпт, а HeyGen агент генерит и головы, и видосы в Соре, и монтирует все это в один видос.
Интересный пример интеграции, выходящий за рамки "а у нас можно сорой генерить видосы".
@cgevent
Давным давно было замечено, что видеогенераторы весело лажают если попросить их сгенерировать видео с человеком вверх ногами, а после перевернуть это видео на 180 градусов.
Новая сора тоже этим болеет