37769
          
          Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
                    Не так давно писал про Deepseek OCR - перевод изображений в тексты.
Индийские коллеги из Datalab бахнули Чандру. 
Ещё один OCR, который, конечно, побивает Мистраль и Дипсик на разных OCR тестах.
40 языков, формулы, рукописи и пр.
И все это с кодом!
Демо есть тут:
https://www.datalab.to/playground/documents/new
А код тут:
https://github.com/datalab-to/chandra
На видео - оцифровка рукописи 1913 года на Ramanujan language. 
@cgevent
                    Есть и хорошие новости с музыкальных полей.
Китайцам похоже наплевать на UMG и они бахнули MiniMax Music 2.0
Треки по ПЯТЬ минут
Анонсируется точный контроль над музыкальной аранжировкой и инструментами
Акапелла и дуэты (интересно)
Ну и понятно, что "студио кволити и все такое"
Есть на сайте:
https://www.minimax.io/audio/music
И на Фал:
https://fal.ai/models/fal-ai/minimax-music/v2
Но до Суно, как из Китая пешком.
@cgevent
                    FIBO
Вы будете смеяться но у нас новый опенсорсный(!) генератор картинок.
Идея: короткие промпты работают плохо, поэтому давайте натренируем модель на конского размера промптах, а еще лучше на json-промптах.
А как же пользователи, которые двух слов связать не могут в обычной жизни?
А для них при генерации дадим генератор промптов, который раскучерявливает их потуги до структурированных длинных промптов. 
Пишут, что можно использовать встроенный генератор промптов, но рекомендуют указывать Gemini через апи-ключ, тренировали с помощью Gemini.
Идея хорошая, но очень сильно напрягает телега про "тренировали только на лицензионных картинках" - это как бы звучит как "худосочный датасет".
Впрочем, надо пробовать, благо есть демоспейс - тихоновская белка вышла ядреная.
Есть три режима: Generate, Refine(типа редактирование) и Inspire
Гитхаб сделано толково, причем есть полный обвес - демо, концы на Fal.ai и Replicate, готовые комфи ноды.
Все это вы найдете вот тут:
https://github.com/Bria-AI/FIBO?tab=readme-ov-file#-quick-start
Навалитесь, потестируйте, выглядит неплохо...
А уж по их бенчмаркам побивает всех мокрыми тряпками с большим отрывом.
https://github.com/Bria-AI/FIBO?tab=readme-ov-file#prism-benchmark-model-comparison
Демо:
https://huggingface.co/spaces/briaai/FIBO
https://platform.bria.ai/labs/fibo
@cgevent
                    От Иронова до наших дней
Google бахнул убийцу очередной пачки стартапов продукт Pomelli для создания маркетинговых кампаний для брендов.
Речь идет про создание бренд-контента в произвольных масштабах.
Вы даете на вход веб-сайт компании, Pomelli это все пережевывает и выдает наружу пакован брендированного контента, который уже объединен замыслом некой рекламной кампании.
Чего не написано в телеграмчиках, так это то, что создание этого пакована (то есть маркетинговой кампании) можно промптить самому (либо соглашацца на варианты ИИ), а полученные материалы можно править не только в фотошопе, но и Нанабананой. 
Все это отсылает меня в докембрий, когда появился лебедевский генератор логотипов - Николай Иронов. Подумайте, какой путь мы прошли: теперь вы даже можете ничего не писать, а просто вонзить свой веб-сайт на вход, и получите все для смм и маркетинга.
А сайт вам сделал кто? Правильно, ИИ. 
А промпт для генерации сайта написал кто? Правильно, ну .. вы поняли.
Закончим тем, что маркетинг компанию для вас тоже будет делать какой-нибудь ИИ-агент по типа Мануса, и все, что вам остается, это спать и есть еду в голову.
А оно как-то там само..
https://labs.google.com/pomelli/ (впн штаты)
@cgevent
                    Google  представил новую функцию в Gemini Canvas, интерактивном рабочем пространстве внутри Gemini: теперь вы можете создавать целые презентации на основе промпта или загруженного файла.
Напишите «Создать презентацию по [теме]» или загрузите документ, таблицу или исследовательскую работу - Gemini автоматически сгенерирует слайды с текстом, визуальными элементами и целостным дизайном.
 Вы можете экспортировать их в Google Slides, редактировать или дорабатывать.
Доступно для всех стран и аккаунтов, но для Pro будет именно Gemini 2.5 Pro под капотом.
И кстати, не только презентации:
https://gemini.google/overview/canvas/
@cgevent
                    А в Veo тем временем прикрутили инструмент для аннотаций.
Он и раньше их понимал, но надо было где-то их рисовать, а теперь прямо во Flow для Ingredients or Frames to Video появилась иконка с карандашиком. Там мини Paint с текстом и стрелками.
Обратите внимание на видео, как там пишут промпт "используй инструкции из аннотации, а потом удали ее к буйволу".
А еще во Flow Scenebuilder появилась Portrait Mode.
@cgevent
                    Krea Realtime 14B: Real-Time Video Generation
Довольно любопытный маркетинговый ход от Krea (внимание, это опенсорс).
Смотрите что они сделали:
Krea Realtime 14B получен путем дистилляции из Wan 2.1 14B T2V с использованием Self-Forcing, техники преобразования диффузионных моделей в авторегрессионные модели. Преобразование, а не обучение(дорого), поэтому и дистилляция.
Тут главная фишка в том, что в обычных диффузионных моделях, надо ждать, когда "проявится\расшумится" все видео. А в авторегрессии, можно получать каждый кадр (пачку кадров) прям в процессе и начинать их стримить (подобно выводу текста в чат), не дожидаясь окончания всей генерации.
Как следствие: юзеры могут изменять подсказки в процессе генерации, мгновенно менять стиль видео и просматривать первые кадры за 1 секунду.
С реалтаймом они отчаянно читерят:
11 кадров в секунду на 4 шагах и гроцессоре NVIDIA B200(!).
Заявляя что это САМАЯ большая реалтаймовая модель видео в мире.
Уже можно попробовать на fal.ai (причем также video2video)
Я попробовал (это Wan 2.1, без иллюзий), щас покажу, а пока смотрите сладкия черрипики от Krea и читайте тех отчет тут:
https://www.krea.ai/blog/krea-realtime-14b
Есть код: https://github.com/krea-ai/realtime-video
Модель тут: https://huggingface.co/krea/krea-realtime-video
@cgevent
                    FlashWorld: High-quality 3D Scene Generation within Seconds
А вот интересная опенсорсная ответочка от Хуньяньского на генерацию миров.
Тут правда под капотом гауссианы и качество среднее, но при этом авторы клянуцца, что генерят 3DGS-сцену на 5 секунда на "single GPU", что в 10-100 раз быстрее предыдущих методов.
Для гиков может быть интересно, код есть:
https://imlixinyang.github.io/FlashWorld-Project-Page/
@cgevent
                    Нейропрожарка
Автор: Павел Жигарев | Noizlab 
4K версии :  1 и 2
Telegram  
🎬 Эксперимент: создание AI-кино трейлеров на open-source модели Flux ⏱️ Срок: 8 недель в совокупности.   💡 Как началось: пришла идея а можно ли сделать «настоящее» КИНО с актерами в их «прайм» форме и без цензуры, Midjourney и все остальные нейронки  не позволяли этого из-за цензуры и прав ,да и консистентность от кадра к кадру оставляет желать лучшего .. — поэтому тут было решено - только кастомные  решение , только хардкор!. Взял самую сложную задачу: «молодой» Арнольд в образе Конана с полной экипировкой под эстетику 80-х. Так же у меня есть своя “кино” модель Flux обученная на нескольких тысячах кадров из фильмов что сделало картинку более “киношной”
✅ Где было сложно : Ручной inpaint/upscale каждой детали костюма (ремни, бляхи, мех, шнуровка) — чтобы ничего не «плавало». Полировка лица на проблемных кадрах. Без этого консистентность разваливается.
Сделал около 3000 генераций видео чтобы отобрать самые лучшие дубли.. это очень долго и муторно..
🚀 AI Стек:
Prompts - мой ChatGPTs
SwarmUI - Основной Хост.
Finetuned Flux.dev  + Kohya_SS (Dreambooth для finetuning)
ComfyUI - Batch Second Pass Upscale 
Editing: Krea Flux.dev (быстро дешево) 
VideoGen - Higgsfield AI, Kling 2.1 start/end. Hailuo-02 (action), Seedance Pro (статика)
Final Cut Pro + Плагины 
Face Fusion (полировка лица)
Topazlabs (Upscale 4K)
ElevenLabs - диктор озвучка
Музыка - Custom
Музыка и звук:
Отдельное внимание было к саунду так как в осноном все забивают на это  Музыку для обеих роликов писал сам. Более того это был мой первый опыт написания классической и трехмерной мызыки а так же SFX тоже был собран с нуля. Так же классно получилось имплементировать заглавную тему Конана от маэстро Безила Полидуриса.
🎯 Финал:
Не претендую на 100% консистентность, но старался сделать Конана как можно ближе к оригиналу .  Этим видео хочется показать: в умелых руках ИИ-инструменты + насмотренность + креативные навыки 12 профессий в одном хе-хе + выдержка дают превосходный результат — шаг к настоящему кино на open-source стеке, от омоложения актёров до возрождения франшиз.
Если интересны подробности о проекте и как AI становится рабочим инструментом, а не генератором мемов — присоединяйтесь мы про ИИ Кино и чуть-чуть про мемы )
@cgevent
                    Will Smith в Veo 3.1
Мне кажется, это уже AGI...
Тут и звук, и макарон на.
Сколько Виллов Смитов дадим?
@cgevent
                    Нейропрожарка 
Мне всегда нравился жанр роад-муви — дорожное приключение, как правило, двух друзей или напарников. Когда вышел сериал "Настоящий детектив" с Макконахи и Харрельсоном я параллельно читал «Одноэтажную Америку» Ильфа и Петрова. И как-то так меня вдохновили две эти вселенные плюс другие подобные фильмы и сериалы, что я написал короткий сценарий. А точнее синопсис, как бы мог выглядеть такой мэшап. Сейчас одним предложением его можно охарактеризовать так: советские писатели оказываются втянуты в игру спецслужб, где есть место и высоким технологиям, и мистическим культам США 1930-х. Написал пару листов и забыл, так как таких набросков было не мало.
Периодически по работе моушн-дизайнером и для своих творческих проектов я создавал либо мультяшные истории со скелетной анимацией, либо какие-то коллажные ролики в стилистике перекладной анимации в After Effects и Adobe Character. Делал клипы, мультики по типу Масяни и тд, но быстро к ним охладевал, так как не было обратной реакции, а времени и сил уходило немало. Думаю многим знакомо это чувство. И вот ура, появились нейросети и увидеть воплощение своей идеи занимает пару нажатий (по крайней мере так думают заказчики). И вот как я делаю эти пару нажатий: пишу сценарий в чате gpt, опираясь на первоисточники. Там же делаю промты на шоты, которые генерирую во freepik.com. С подпиской премиум+ дается безлимит на генерацию картинок, а я в 99% случаев использую i2v. Также обучил характеры своих персонажей, но при генерации они получаются хуже, чем просто прикрепить фото как реф и в промте ссылаться на него. Видео с диалогами делаю Veo 3. Есть артефакты и моменты брака, например слова в ударениях или где-то неправильно буква произносится. В общем, что-то типа 6 пальца, который искушенный человек не пропустит. Но я сознательно не трачу время и кредиты на эти доработки, потому что мне важнее реализовать максимум проекта с качеством 90%, чем один эпизод с качеством 100%. Поэтому если после 2-3 попыток Veo выдает все же брак по голосу - иду в hedra или sync и пытаюсь переозвучить там, поэтому голоса у персонажей "гуляют". Знаю, что можно обучить свою голосовую модель, но пока интонации звучат пресно. Часто сгенерированные картинки редактирую в Фотошопе, так получается быстрее, чем той же нанабананой. Но если нужен поворот предмета, другой ракурс, то есть пересобрать сцену - она прям радует. Ну и общая сборка в Premier Pro - монтаж, работа со звуком, субтитры. Во время монтажа меняется и сценарий зачастую, но на то он и монтаж. На самом деле, никаких хитрых приемов, а скорее уже базовый набор инструментов для дизайнера и концепт-художника. Меня самого сильно привлекают вирусные ролики на повседневные бытовые темы - котики, кассиры, бабульки. Вот как сейчас активно бомбят интернет ролики, сделанные в сора 2. Но моя мечта это делать сложные исторические или фантастические большие проекты. И в будущем вижу ИИ как неотъемлемую часть кинопроцесса.
Для нейропрожарки я прикрепил, слитые в одно видео 6 эпизодов, а вообще они выходят по 1 минуте примерно раз в неделю без строгого графика. По времени 1 эпизод примерно 1-2 рабочих дня (учитывая написанный сценарий) и день на доработку и саунд-дизайн на свежую голову + релиз на площадки, а это тоже время. Всего запланировал 18 эпизодов. Следить можно на всех ресурсах с адресом @vshtatskom
@cgevent
                    Ха, сейчас ИИ создает больше статей, чем люди!
Шах и мат, кожаные авторы.
В качестве утешения в статье приводится вот такой вывод:
Хотя после запуска ChatGPT количество статей, созданных с помощью ИИ, резко возросло, мы не наблюдаем продолжения этой тенденции. Напротив, доля статей, созданных с помощью ИИ, оставалась относительно стабильной в течение последних 12 месяцев. Мы предполагаем, что это связано с тем, что специалисты обнаружили, что статьи, созданные с помощью ИИ, не показывают хороших результатов в поиске, как показано в отдельном исследовании.
Ну то есть Иишные статьи плохо индексируются в поиске и в выдаче болтаются внизу.
До времени, до времени.
Пока ИИ не овладел нормально поиском.
https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans
@cgevent
                    Sora 2 Pro Storyboard
Для олигархов и баяр с планом PRO вышел Сториборд для Соры.
25 секунд как с куста. Как тебе такое Veo3.1?
Смотрим подробности и пример борда ниже:
⬇️⬇️⬇️⬇️⬇️
@cgevent
                    Нейропрожарка
Шоурил от Дмитрия, где он попытался охватить несколько тематик и показать возможности нейросетей на длинных сценах. 
На самом деле нейросети закрывают лишь малую часть работ, основное зависит от человека, который учитывает все детали монтажа и постобработки. Даже самые плохие кадры можно спасти, а самые красивые можно угробить. 
Рынок АИ контента за этот год сделал качественный прыжок, и я уверен, что в следующем году нас ждет нечто большее, но это не заменит человеческий фактор, так как это не просто создать картинку и нажать на кнопку. За каждым кадром стоит кропотливая работа, благодаря чему ролик начинает жить. 
Я любитель работать с длинными сценами, чтобы соединять кадры между собой, иногда, чтобы это было неожиданно и гармонично. И в этом ролике я продемонстрировал все чему я научился за этот год с нуля. 
Процесс создания: 
- Сценарий 
- Отрисовка ключевых кадров (Seedream4, Nanobanana, Reve) 
- Отрисовка дополнительных через Эдиторы. 
- Апскейлы кадров 
- Анимация (Минимакс, клинг 2.1 / 2.5) 
- Липсинг / озвучка 11labs 
- Суно для генерации трека с репом, остальные АртЛист. 
- SFX эффекты (библиотека АртЛист / 11labs / mirelo ) 
- Монтаж / цветокор / пост обработка - Давинчи. 
Буду благодарен конструктивной обратной связи. Возможно стоит доработать некоторые детали, которых я не вижу.
@dm_creator369
@cgevent
                    В NotebookLM (вы же знаете, что это такое?) завезли Нанабанану, которая легко меняет стили для Video Overview.
Напомню, что NotebookLM умеет генерить не только подкасты по входным документам, но и видеопрезентации.
Теперь для них есть 6 стилей (есть еще седьмой - Brief, но он сокращает презу):
Whitepaper
Retro Print
Heritage
Papercraft
Watercolor
Anime (куда ж без него в презентациях-то!)
Посмотрите видео, сразу поймете о чем речь.
Выглядит очень нарядно..
Начинают раскатывать для юзеров плана Pro, позже всем остальным..
А я вообще не понимаю, почему такой продукт еще бесплатный..
@cgevent
                    Не проще ли сделать эту тварь на колесах, тем более, что у Тойтоты все хорошо с колесами.
Но, говорят, этот стул-паук может карабкаться по лестницам.
Только вот навернуться с лестницы очень не хочется. 
Больше зоопарка для робатов!
@cgevent
                    Нейропрожарка 
Клип от Николая.
 Идея сделать этот клип родилась из идеи сделать цифровую группу и начиналась с шуточной песни в Suno со своим текстом, но потом обрела форму в виде создания полноценного мини альбома в стиле отечественного инди поп рока, который был успешно выпущен на всех стриминговых музыкальных площадках. Так родилась группа "Яркие огни". (https://music.yandex.ru/artist/24699041). Но хотелось  выпустить не просто нейросетевое творчество, а создать полноценную виртуальную группу с их образами и конечно же клипом. После увиденных возможностей нанобананы понял, что время пришло.  Идея клипа лежит в тексте самой песни "Надо просто поговорить" - про порой сложные отношения между любящими людьми, так знакомые каждым у кого такие отношения есть, что иногда надо немного сбавить обороты, отнестись к ситуации проще, претворившись мультяшками и разрешить все проблемы просто поговорив. 
Работа с клипом была крайне трудоемкой и заняла порядка 100-150 часов работы (полтора месяца свободного времени). Было сделано порядка 3000-3500 футажей для последующего оживления. Для оживления были перепробованы наверное все модели, что есть на рынке, но в итоге из основных были использованы в порядке применимости - Pixverse 5.0 (вся история и часть выступления группы), Kling 2.1/2.5 (Группа и вся мультяшная часть), Veo 3 (Часть выступления группы и инструментальные планы), Wan 2.1 animate/2.2 (часть мультяшек и некоторая анимация игры на музыкальных инструментах).
Липсинк в основном Dzine, Openart и Veo 3. Апскейл до 4К весь в Topaz AI. Монтаж, цветокор и доп эффекты - всё в Capcut pro. 
Бюджет  - учитывая, что это первое моё глубокое погружение в нейросетевое творчество со множеством , в том числе неудачных, экспериментов, на подписки и доп. кредиты составил порядка 30 т.р.
@cgevent
                    Адобченко поднимает веки. Генерация и редактирование по слоям.
Много новостей прилетело изподадоба. На пару постов.
Прежде всего они выпустили Firefly Image Model 5 и там есть редактирование и слои.
Картинка генерится сразу со слоями, каждый слой можно перегенерировать, таскать по картинке, вращать, масштабировать - перегенерация почти мгновенная.
А как он бьет на слои, спросите вы?
А примерно также как в Reve.art - сегментацией картинки на объекты внутри общей композиции. Сколько нашел, cтолько слоев и сделал. Влиять на это нельзя.
Также можно заметить, что при перегенерации\редактировании слоя-объекта он чуть шевелит остальные "слои", что в принципе малозаметно и в пределах погрешностей редактирующих генераторов. Круто, что тени и отражения отрабатываются с учетом "отношений" между объектами.
В общем у Адобченко теперь своя Нанабанана со своим интерфейсом (это не отменяет того факта что гугловая Нанабанана также присутствует в списке "прочих моделей" уже некоторое время).
На видео заметно, что с текстом вообще-то беда. Но в любом случае, чем больше редактирующих моделей, да еще и с хорошим UI\UX - тем лучше.
@cgevent
                    Релизнули веса Minimax M2
Агентный ризонер от китайцев, по бенчам это SOTA среди открытых моделей (Artificial Analysis подтвердили). По размерам моделька на удивление компактная — 230B, из которых всего 10B активных параметров. Конкуренты, при худшем перформансе, минимум в полтора раза больше по количеству параметров в целом и в 3 раза по активным.
Кроме релиза весов, минимакс ещё дают бесплатно попользоваться их API до 7 ноября. После этого цена будет $0.3/$1.2 за миллион токенов. Это дороже DeepSeek 3.2, но заметно дешевле других конкурентов.
Веса
@ai_newz
                    📺 Облачный провайдер Cloud.ru запустил телемагазин в стиле нулевых
Только не про чудо-технику, а про облачные и AI-сервисы. В коротких роликах комик Илья Макаров в роли ведущего с юмором рассказывает про то, как:
- настраивать умный поиск на RAG
- вайб-кодить с AI
- ускорять разработку приложений
- создавать корпоративных AI-агентов
Выбирайте простые и удобные AI-сервисы, не вставая с дивана!
                    Гугль тизерит какие невероятные возможности Veo3.1
Какая-то ВидеоНанаБанана.
Поглядите видосы, я пока не понимаю, как они добавляют или удаляют объекты с имеющихся видео. Ингредиенты?
Отправляют всех желающих почитать вот такой вот док:
Introducing Veo 3.1 and advanced capabilities in Flow
А в ноябре ждем Нанабанану 2.
@cgevent
                    Нейропрожарка 
На этот раз от самого Доброкотова, известного в миру как АI molodtca
Бригада, но это аниме опенинг.
Уже пятый в серии. Делал где-то месяц в свободное от студийных проектов время (и да, пришлось пересмотреть сериал целиком — освежить ключевые моменты).
Звук
Я всегда начинаю с музыкальной темы — она даёт нужную структуру. Поэтому написал черновой текст, через Claude адаптировал на японский и пошёл в Suno. В этом опенинге хотелось сделать именно кавер на оригинальную мелодию (она важна для вайба), поэтому с помощью Cover сделал около 50 версий, пока не нашлась вишенка.
Картинки
Дальше начинается высокофункциональный аутизм — генерация стиллшотов. Благо теперь есть нано банан, абсолютное величие. Без него бы сошёл с ума: делать лоры на каждого персонажа, инпейнтить их в сцены и заниматься другой первобытной дикостью.
В процессе открыл для себя, что бананой довольно удобно  итерационно пользоваться не только в нативном чате, но и в нодовой системе — большая часть шотов сделана шаг за шагом в Фиджитал+.
Видео
Если раньше в анимацию могла только Luma 2 (где и делал все прошлые опенинги), то сейчас все модели это умеют. НО — часть моделей (например, Veo-3) превращает 2D в квази 3D. Поэтому если делаете анимацию — ваша остановочка это Minimax 2 и новый Kling 2.5. В последнем сделана бóльшая часть шотов, а кадры с start-end frame — в Минимаксе. Потрачено где-то по 6к кредитов в каждом.
Монтаж
Для личных приколдесов использую платный CapCut. Весёлый и заряженный.
Да вот и всё, жарьте, бандиты! 🐺
@cgevent
                    Знаю тут многие пользуются Дипсиком.
У них вот такое обновление - DeepSeek-OCR, модель для перевода картинок в текст\маркдаун.
Распознает даже химические формулы и конвертит их в SMILES формат.
- Состоит из 2 компонентов - DeepEncoder (380M) и DeepSeek MoE (3B, 570M активных)
- Нативные разрешения - 512×512, 640x640, 1024x1024, 1280×1280
Распознает картинки с очень низким качеством и большой компрессией.
https://github.com/deepseek-ai/DeepSeek-OCR
@cgevent
                    Когда анекдоты перестают быть анекдотами
Новости технологий: изобретен аппарат автоматического бритья:
- Бросаешь рубль, суешь голову в прорезь
и он тебя автоматически бреет.
- Но ведь у всех разные лица!?!?
- В первый раз да ...
@cgevent
                    FlashVSR
Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
Точно не лучший апскейлер видео, но зато опенсорсный, раз уж в коментах были вопросы.
Есть и код:
https://github.com/OpenImagingLab/FlashVSR
И ноды для комфи:
https://github.com/smthemex/ComfyUI_FlashVSR
Ест много памяти, как все апскейлеры.
Использует Block-Sparse Attention, который будет капризничать на слабых видеокартах.
@cgevent
                    Anthropic запустили Claude Skills – способ научить Claude делать специфические задачи именно так, как нужно вам.
Суть простая: вы создаёте папку с инструкциями, скриптами и файлами, а Claude сам подгружает нужный скилл, когда это релевантно задаче. Никакого ручного выбора – модель сама определяет, что нужно.
Что умеют скиллы:
- Взаимодействуют друг с другом – Claude сам понимает, какие навыки нужны, и комбинирует их
- Работают везде одинаково – создали один раз, используете в веб-приложении, Claude Code и через API
- Могут включать исполняемый код для задач, где нужна генерация и расчеты.
Примеры довольно рабочие:
Box использует скиллы для трансформации файлов в презентации и документы по корпоративным стандартам.
Canva планирует встраивать скиллы в агентов для создания дизайнов.
Включается в настройках (Settings -  Features - Skills). Для создания есть встроенный "skill-creator" – он сам спросит про ваш воркфлоу и соберёт структуру.
Подробности: https://www.anthropic.com/news/skills
Примеры скиллов: https://github.com/anthropics/skills
Видео: https://youtu.be/IoqpBKrNaZI
                    Sora Storyboard:
- режет ровно как вы описали. это позволяет задавать ракурсы сильно точнее
- в рамках одной scene позволяет нагружать деталями. vfx, стиль.
- готовый ролик можно вернуть к редактированию (back to storyboard)
- по умолчанию 15 сек, но если нажать модель сора, выбрать 25 и переключиться в pro - сделает честно 25.
Промты для карточек ролика выше:
https://docs.google.com/document/d/1QKTBDK3tKghp-d0pKEZThp6DEWNpkNsEjPZJ0M5G_r0/edit?usp=sharing
                    Veo 3.1 появился на wavespeed.ai и flowith.io
Разрешение 1080р, но длительность по прежнему 8 секунд.
Вечером ждем анонса от Гугла.
Промпт:
Context: A Panda named Bamboo and a Red Fox named Tweed host a casual, witty podcast called "Quantum Quibbles."
Task: Write the absolute shortest, most punchy opening exchange for an episode on quantum entanglement. Focus only on quick introductions and the topic title.
Panda (Bamboo): "Welcome to Quantum Quibbles! I'm Bamboo."
Red Fox (Tweed): "And I'm Tweed!"
Panda (Bamboo): "Today: Quantum Entanglement!"
Red Fox (Tweed): "Let's dive in."
@cgevent
                    Gemini 3.0 (обещают в октябре).
Пишет с одной попытки код Windows, которая работает в браузере.
Prompt: Design and create a web os like windows os full functional features from text editor , terminal with python and code editor and a game that can be played  to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block
Разработай и создай веб-ОС, подобную ОС Windows, с полным набором функций: от текстового редактора, терминала с Python и редактором кода до игры, файлового менеджера, программы для рисования, видеоредактора и всего важного предустановленного программного обеспечения ОС Windows. Используйте любые библиотеки, чтобы выполнить эту задачу, но убедитесь, что я смогу вставить все в один HTML-файл и открыть его в Chrome. Сделай это интересным и очень детализированным, покажи детали, которых никто не ожидал, прояви всю свою креативность и красоту в одном блоке кода.
Полученный код:
https://codepen.io/ChetasLua/pen/yyezLjN
Ждем 3.0 в октябре, а пока можете поглядеть, как она пишет код Веб-Макоси:
https://x.com/chetaslua/status/1977866953705316571
@cgevent
                    Segment Anything 3 тихо появился на ICLR в виде статьи
Первая версия SAM позволяла щелкнуть по объекту, чтобы сегментировать его.
В SAM 2 были добавлены видео и память.
Теперь SAM 3 говорит: просто опишите, что вы хотите - «желтый школьный автобус», «полосатый кот», «красное яблоко» — и он найдет и сегментирует каждый экземпляр этого объекта на изображениях или в видео.
Это как будто сегментация наконец-то научилась языку, но в обоснованной, минимальной форме, просто оперируя концепциями.
Короткие существительные, образцы изображений или и то, и другое.
Вы озвучиваете объект, он понимает, что вы имеете в виду, и рисует границу везде, где она появляется.
За этим стоит огромный механизм обработки данных: 4 миллиона уникальных концепций, 52 миллиона проверенных масок, созданных людьми и LLM, проверяющими работу друг друга.
Результат: примерно в 2 раза лучше, чем SAM 2, распознавание, близкое к человеческому, на тестах с открытым словарем и скорость в реальном времени.
https://openreview.net/forum?id=r35clVtGzw
@cgevent