cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37767

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

Ну и зачем теперь женицца?

@cgevent

Читать полностью…

Метаверсище и ИИще

3Д-зазеркалье

Поглядите, что народ вытворяет со сканированием и гауссиановыми сплатами.
Прикольно, что это не мир за дверью, куда можно пройти с телефоном и камерой, а мир в зазеркалье.
Понятно, что в зазеркалье все расплывается, но на то оно и зазеркалье.
Я впечатлен.

Если не верите и хотите сами пошастать по зазеркалью, то пажалста:
https://superspl.at/view?id=0feb4c5c

@cgevent

Читать полностью…

Метаверсище и ИИще

Qwen-image-edit 2511, Flux 2.

Тут один мужик в куртке сказал, что новый Qwen-image-edit 2511 будет выпущен на этой неделе.
Понятно, что мы ждем улучшений по качеству и консистентности персонажей, но вот разложение на бесконечные слои звучит крайне прельстиво.
Это означает, что это не только передний, общий и фон, а как бы немного больше слоев.
С другой стороны, это может быть простая сегментация (как сейчас в Reve).
По любому Квену надо что-то ответить банановой истерике. Равно как и Флюксу пора ответить за картиночки в твитторе с намеком на вторую версию (похоже что модель krazy-kangaroo на LMArena - это Флюкс 2).
Там еще Seedream шевелится, но сроки неясны.

Короче, неделя не будет спокойной.

А пока все слушаем песни Бананарамы.

@cgevent

Читать полностью…

Метаверсище и ИИще

Всё под рукой: как единое ИИ-рабочее окно меняет работу с нейронками

Когда мы все привыкли к нейронкам и вроде бы научились пользоваться самыми разными ИИ, казалось бы, что еще может удивить? Чего ещё нам не хватает, чтобы было максимально просто и удобно? Может, все инструменты в одном окне?

На платформе GPTunneL собрана экосистема самых топовых нейросетей, которая работает как единое интегрированное окно. А ещё, все последние обновления нейронок сразу же доступны на платформе. Отслеживать новинки и инструменты удобно в ТГ-канале @gptunnel

В ноябре в сервисе есть скидки до 80% на Veo 3.1, Veo 3.1 и Sora 2 Pro. Их как раз можно использовать через промпты, которые в @gptunnel часто публикуются для создания трендовых креативов. Например, скоро выйдет финал сериала "Очень странные дела", и к нему сейчас можно получить промпт в комментариях

Подписывайтесь на @gptunnel и переходите на платформу GPTunneL - будете в курсе выхода последний версий топовых нейронок.

#промо

Читать полностью…

Метаверсище и ИИще

Alibaba делает ИИ-суперапп на основе Qwen 3.

Пока раскатывают только на Китай (иос, андроид, PC). Потом откроют на мир.

Приложение выходит за рамки чата и предоставляет расширенные возможности типа Deep Research, написание кода, работу с камерой и комп зрение, голосовые вызовы и пр.

Вот это заявление меня вообще удивило: с помощью одной команды он может сгенерировать полный отчет по исследованию и автоматически создать отполированную презентацию PowerPoint из нескольких слайдов за считанные секунды.

Ну то есть Алибаба готовит ответочку всем... OpenAI, Гуглу, Гроку..

Интересна и стратегия продукта. Приложение Qwen позиционирует себя как инструмент для выполнения задач(агент), а не просто как интерфейс для чата.
Реальное преимущество Alibaba - доступ к экосистеме. Карты, доставка еды, бронирование путешествий, электронная коммерция. Вопрос в том, насколько глубоко Qwen App интегрирует эти услуги. Может ли оно понимать контекст на разных платформах? Может ли оно ловко координировать действия?

Если смогут, то китайский агент на стероидах опенсорса может отхватить хорошую долю рынка.

https://www.globaltimes.cn/page/202511/1348381.shtml

@cgevent

Читать полностью…

Метаверсище и ИИще

Depth Anything 3 нереально прокачался.

Самое интересное: The secret? No complex tasks! No special architecture! just a single, plain transformer trained with a depth-ray representation.

Единый трансформер на всё.

И теперь DA3 - это прям трекер геометрии и камеры, который восстанавливает 3Д-сцену и даже делает гауссианы для рендеринга.

Причем на входе любое количество картинок или даже видео.

Еще раз: один простой трансформер (например, DINOv2) достаточен в качестве основы без архитектурной специализации, а единственная цель прогнозирования глубины луча устраняет необходимость в сложном многозадачном обучении.

Неплохо бьется с моими вчерашними постами про генерацию миров и Marble.

Есть всё: и код, и демо, и бумага, и техрепорт.

Все ссылки по ссылке:

https://depth-anything-3.github.io/

@cgevent

Читать полностью…

Метаверсище и ИИще

Открываем много позиций в Gracia

Кажется, мы доказали PMF вольюметрических видео и теперь уже совсем не справляемся с количеством проектов. Приходите к нам сделать новый медиум контента повседневностью!

📍London, UK // можно начать удалённо

В рамках нашего переосмысления привычных ролей, мы добавили в список экспериментальную позицию ИИ-ориентированного продакта. Не уверены, существуют ли уже такие кандидаты, пошерьте её знакомым энтузиастам 👉👈


С++ Core Engineer [GPU Background]

R&D Engineer [Computer Vision / 3DGS Background]

R&D Engineer [GenAI Background]

Product Lead [AI-Oriented]

QA Engineer [Automation]

Marketing Lead [Tech PR Background]

Читать полностью…

Метаверсище и ИИще

chatGPT 5.1 раскатали: у меня вот так выглядит.

"GPT‑5.1 Instant, наиболее используемая модель ChatGPT, теперь по умолчанию стала более теплой и разговорной. Судя по результатам ранних тестов, она часто удивляет людей своей игривостью, оставаясь при этом понятной и полезной."

"Мы также модернизируем GPT‑5 Thinking, чтобы сделать его более эффективным и понятным в повседневном использовании. Теперь он более точно адаптирует время на обдумывание к вопросу — уделяя больше времени сложным проблемам и быстрее отвечая на более простые. На практике это означает более тщательные ответы на сложные запросы и меньшее время ожидания на более простые."


https://openai.com/index/gpt-5-1/

@cgevent

Читать полностью…

Метаверсище и ИИще

А Grok Imagine хорош!

Композом и трехмером можно приподутомиться так сделать...

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну, за разметчиков.

Вот мы читаем "модели распознавания видео". А как это?

А вот так. Довольно залипательный процесс просмотра того, как модель расшифровывает в своих нейромозгах видео в текст. Находка тут в том, что все это в виде чата.

Более того, можете сами попробовать на своих видео или на кожаном лице через веб-камеру.
https://moondream.ai/solutions/analyze-live-video

Я попробовал, он слишком часто определяет улыбку, хорошо детектит зтм, то есть переходы в черное, но когда на экране появляется UI софта, он такой ... эээ.
Ну то есть хорошо натренирован на стримах с кожаными.

P.S. Тут будет отсылка к моему посту про монтаж. Все эти ИИ-монтажеры и новомодные ИИ-фичи для видео действуют на основе текстовых тригеров из расшифровки: ну то есть ИИ-монтаж идет по тексту, а не по картинке. А это все равно, что слепого посадить за монтажку и рассказывать ему голосом, что там происходит. Что-то получится конечно, но до хорошего монтажа будет далеко.

@cgevent

Читать полностью…

Метаверсище и ИИще

Нейропрожарка (MyFilm48)

Stone Eater, студия "Не Канон"

1-е место в категории Про.

Видео создавалось за 96 часов в рамках конкурса «MyFilm48».

Необходимо было следовать заданию:

«Создать трейлер к несуществующему полнометражному фильму. Главный герой получает от загадочного незнакомца конверт с золотым билетом, древней картой и запиской на балийском. Незнакомец исчезает.
Трейлер должен быть связан с о. Бали»

Также было такое требование:

«Трейлер должен быть построен по всем законам профессионального кино: динамичный монтажный ритм, выстроенная драматургия, интрига, эмоциональное воздействие, ощущение гонки со временем.»

Для генерации статики использовали MJ + Banana + Seedream

Анимировали всеми известными инструментами, но очень помог VEO 3.1 (озвучка персонажей + саунд-дизайн) и Sora (динамика + разные планы).

Музыку сгенерировали в Suno

Монтаж - Давинчи

Хочется доработать стилистику, цветокоррекцию и некоторые сюжетные моменты.
Но когда речь идет об ограниченном времени, приходится неизбежно чем-то жертвовать)

За основу была взята балийская легенда о великане Кебо Ива.

Трейлер создан силами студии «Не Канон».

Если вдруг кому-то интересны подробности производства, в ближайшие дни у меня на канале будет эфир с подробным разбором.

@cgevent

Читать полностью…

Метаверсище и ИИще

Еще забавнее. Просто прошел по ссылке из предыдущего поста и просто нажал Run в AI Studio.

Получил, во-первых, глубокомысленный ответ:
"Метаверсище и ИИще, как будто из единой плоти и крови! Вот как это может выглядеть:"
А во-вторых, даже картинку, хотя и не просил об этом. В шапке.

Пора менять аватарку, вестимо. ИИ так видит..

@cgevent

Читать полностью…

Метаверсище и ИИще

Grok Imagine теперь умеет не только Image2Video, но и text2video.

По крайней мере в веб-версии на десктопе.
Но самое забавное следующее: я закинул в него абсолютно черное изображение без промпта и говорю, сделай видео.

Получил вот такое.

Сижу и думаю, это такая новая нормальная рекламная интеграция Самсунга?

А так как сида нет, то воспроизвести невозможно...

https://grok.com/imagine

@cgevent

Читать полностью…

Метаверсище и ИИще

Сожги свою подписку. Free Affinity.

Именно с таким слоганом Canva бахнула обновленную Affinity по цене 0 долларов.
"30 октября 2025 года во время мероприятия Create Canva анонсировала обновленную версию Affinity, объединившую функции редактирования фотографий, векторной иллюстрации и верстки страниц в одном бесплатном приложении".

Чтобы скачать бесплатно, вам надо завести учетку на Canva.
Есть импорт из Фотошопа и ГПУ-ускорение для больших файлов.

https://www.affinity.studio/get-affinity

@cgevent

Читать полностью…

Метаверсище и ИИще

Не проще ли сделать эту тварь на колесах, тем более, что у Тойтоты все хорошо с колесами.

Но, говорят, этот стул-паук может карабкаться по лестницам.

Только вот навернуться с лестницы очень не хочется.

Больше зоопарка для робатов!

@cgevent

Читать полностью…

Метаверсище и ИИще

WorldGen: Больше 3Д-миров Создателю 3Д-миров.

Цукерберг насмотрелся на Marble и Genie и бахнул свой генератор 3Д-миров. И какой!

В отличие от остальных, где есть вид из одной камеры, это реально кусок 3Д-мира, размером 50 на 50 метров, который можно взять и присунуть в Юнити или Анриал.
(Для тех кто задумался про интернет-метры, я полагаю, что это единицы измерения в Юнити).

Метачка описывает WorldGen как современную комплексную систему для генерации интерактивных и навигационных 3D-миров на основе одного текстового промпта использующую цепочку 2D- и 3D-технологий, а не одну единственную модель.

«WorldGen основан на сочетании процедурного мышления, генерации 3D-изображений на основе диффузии и декомпозиции сцены с учетом объектов. Результатом являются геометрически согласованные, визуально насыщенные и эффективные с точки зрения рендеринга 3D-миры для игр, симуляций и иммерсивных социальных сред».

И самое главное, это не сплаты как Марбл или не видео, как в Genie - это честные 3Д-меши (тут я недоверчиво ерзаю на стуле), которые можно вгружать куда угодно.


Пайплайн генерации такой:

(1) Planning
1. Procedural blockout generation
2. Navmesh extraction
3. Reference image generation

(2) Reconstruction
1. Image-to-3D base model
2. Navmesh-based scene generation
3. Initial scene texture generation

(3) Decomposition
1. Part extraction with accelerated AutoPartGen for scenes
2. Data curation for scene decomposition

(4) Refinement
1. Image enhancement
2. Mesh refinement model
3. Texturing model

Теперь плохие новости: продукта пока нет. Метачка работает над скоростью генерации (пока очень медленно) и над бОльшими размерами миров.

Можете посмотреть на проходы по таким мирам тут:
https://www.uploadvr.com/meta-worldgen-ai-generates-3d-worlds/

@cgevent

Читать полностью…

Метаверсище и ИИще

Котопрожарка

Вот что Клинг животворящий делает...

Reddit

@cgevent

Читать полностью…

Метаверсище и ИИще

Gradio Comfy UI

В то время, как все прикручивают ноды, будучи искусанными ComfyUI, есть еще ребята с иммунитетом к нодам.

Minimalistic-Comfy-Wrapper-WebUI - это такой минимальный Automatic1111, который автоматически генерируется для Комфи-воркфлоу и позволяет работать с нормальными элементами интерфейса (поля, слайдеры, картинки) в окне браузера.

Это альтернатива навороченным View Comfy и SwarmUI - при этом вы можете менять что-то в Комфи, а потом просто жать Refresh в этом WebUI и все обновится.

Причем работать будет даже на телефоне.

Дизайн окна (расположение слайдеров, галочек, картинок) определяется довольно остроумным способом - через переименование нод в комфи.

Вы даете им осмысленные имена (titles), которые будут определять их расположение в окне браузера.

Например, тайтл "CFG:advanced:2/2> 1, 10, 0.1" будет означать, что этот слайдер появится в разделе Advanced (после раздела Prompts) во втором столбце и второй строке и будет иметь min, max и step.

Общий шаблон для переименования ноды такой:
<Label:category[/tab]:sortRowNumber[/sortColNumber]>

Кому интересно, вот гитхаб:
https://github.com/light-and-ray/Minimalistic-Comfy-Wrapper-WebUI

@cgevent

Читать полностью…

Метаверсище и ИИще

Нейропрожарка

Студия «Артман»

В студии «Артман» давно обитает маленький вязаный житель. 3D-дизайнеру Юре пришло в голову его оживить, заодно показав наш офис и отправив малыша в путешествие.

Использовался для этого Kling AI, After Effects — для монтажа, фото делал на телефон, для звука — Suno.

Из основных технических проблем:

1) Во многих шотах котик превращался из вязаной игрушки с «лапками-цилиндриками» в настоящего котёнка с суставами. Из-за этого приходилось пересчитывать видосы, закликивать генерации. В целом, даже в финальном результате в некоторых шотах на силуэтных ракурсах видно шёрстку.

2) Поскольку нейронка не помнит, что было в предыдущем кадре, то скрывать и показывать снова объекты не получалось. Например, после поворота мордочки в кадр возвращалась уже другая мордочка. То же самое случалось, когда котёнок, например, заходил за лампу, а потом появлялся совсем другим. Чтобы это решить, делал монтажный подрез таких вещей.

Весь процесс занял около двух дней.


@cgevent

Читать полностью…

Метаверсище и ИИще

Eleven Labs Image & Video (Beta) Creative Platform

В общем, теперь у нас есть еще один агрегатор всего (картинок, видео, звука). И это, о боги, Eleven Labs.

Давайте не просто перепечатаем твиттор, подумаем, что они вообще натворили в продуктовом плане.

Как следует из мамкиных новостей, Eleven Labs - это теперь Image & Video (Beta) Creative Platform. Туда прикрутили чужие API и теперь там можно генерить картинки и видео.
Прямая конкуренция с Krea и Freepik. Правда нодовую лапшу пока не завезли.
Прикрутили и Топаз для апскейла всего.
На первый взгляд выглядит как попытка влезть на поляну "креативных ИИ-платформ", где и так полно игроков, но есть два интересных нюанса.

1. Звук и липсинк. Ни у Суно, ни у раздавленного юристами Udio нет API. А у 11Labs есть своя мощнейшая экосистема работы со звуком, включая музикальный генератор. Поэтому они могут предоставлять дополнительные сервисы, которых нет на Фрипиках и Креях.

2. У них есть кривая-косая, но монтажка видео (и звука). Веб-интерфейс и прочие ужасы, но она есть - Studio 3.0.
А у других такой нет (кроме нейрофич Адоба). Поэтому они могут гордо вонзать на свои маркетинг материалы слово "монтаж".
Конечно, дальше встает вопрос, а насколько ловко они интегрируют генерацию видосов и их монтаж (ну например перегенерация куска видео). Но это потом.

А пока можно гордо сотрясать твиттор с помощью Eleven Labs Image & Video (Beta) Creative Platform
https://elevenlabs.io/image-video

Дело в принципе хорошее, осталось узнать и сравнить цены.

@cgevent

Читать полностью…

Метаверсище и ИИще

"Я его слепила из того, что было" или выйти замуж за системный промпт.

32-летняя женщина в Японии официально вышла замуж за ИИ-персонажа, которого она создала с помощью ChatGPT.
После того, как виртуальный персонаж «Клаус» сделал ей предложение, она согласилась, положив конец трехлетним отношениям с реальным партнером, заявив, что искусственный интеллект понимает ее лучше.
Свадьба состоялась в формате смешанной реальности, где она надела очки дополненной реальности, чтобы обменяться кольцами со своим цифровым мужем.


Скоро у них появятся маленькие системные промптики...

@cgevent

Читать полностью…

Метаверсище и ИИще

Нодам - 40 лет.

Сейчас все сервисы переходят на нодовые интерфейсы и подают это как новую фичу.
В реальности нодам (в графике) около сорока лет.

У Худини был предок, под названием Prisms. Изначально его код писался для крупнейшей тогда CG-Студии в мире - Omnibus. Но в 1987 году Омнибас разорился, а Kim Davidson и Greg Hermanovic выкупили права на Prisms и сделали компанию Side Effects. И начали писать Houdini на основе Prisms - некоторое время Houdini и Prisms продавались одновременно, как разные пакеты.

Внутри Prisms был модуль для композа ICE(Interactive Compositing Environment) - вот с него и пошли нодовые интерфейсы.

Кому интересна история Худини, читаем тут:

https://www.fxguide.com/fxfeatured/side-effects-software-25-years-on/

@cgevent

Читать полностью…

Метаверсище и ИИще

Нейропрожарка (MyFilm48)

«THE KILL SWITCH or 96 Hours on Bali to Duck the World»

3-место в международном AI-конкурсе Myfilm48 и AI Films
Awards.

Авторы: Дмитрий и Алексей.

ДМИТРИЙ РАЗЕПИН @dm_creator369 (Production, режиссура, монтаж)
Работа была выполнена за 96 часов.
Сроки сжатые, есть много недочетов, но это максимум возможностей, что мы успели сделать. И считаю, что работа достойна внимания, если прочитать небольшую предысторию ниже. Основной пайплайн:
Отрисовка кадров в нужной атмосфере за счет чего сокращается время на пост-обработку в цветокоррекции.
Основной инструмент NanoBanana - 90% кадров.
Доп.инструменты: SeedReam / Reve.
Обработка кадров: Magnific и Enchancor AI
Анимация: Клинг - 80%, Вео - 20%
Озвучка 11лабс + отдельно сервисы по липсинк. (здесь не хватило времени, чтобы подобрать нормально голоса и смэтчить их).
Монтаж в Давинчи: Эффекты, цветокор, SFX.
Дополнительно принимал участие звукорежиссер, который помог выстроить весь аудио-ряд.


ALEX TIKHONOV CHAPSKY
@AlexTenerifer (концепт, сценарий, супервайз)

Бриф был очень странный - фактически вместо того, чтобы придумывать завязку, организаторы ее предоставили сами (человек прибывает в аэропорт, ему вручают билет на конкретное мероприятие и т.д. + дали даже рекомендации по развитию действия, как будто сами придумали ролик, но не дописали скрипт). Продвижение брендов в брифе - отдельная боль, так как продвигать бич клаб под названием Beach Club ну такое. Вишенкой на торте - предложение использовать образ отца-организатора мероприятия в качестве героя (оправданного). Это, кстати, меня порадовало почему-то, легкий эксгибиционизм организаторов зашел. В общем, вводные были “вот тебе свекла, лук, картоха и мясо, свари любой суп на конкурс мишлен”.

Главная проблема скрипта была в поиске темы, которая бы вызывала резонанс. Похоже, мы единственные из финалистов потрогали реально больную тему - грядущую регуляцию ИИ государством. Развили ее в сюжет, создали AI-полицию, которая бдит и преследует. За транзит ИИ-кода или весов на Бали дают пожизненное, кстати. Вы не знали? Погуглите.

Сюжет собрался по всем аркам, false victory случилась, но надежда на спасение есть. Как говорится, мало кто знает, что в слове “постапокалипсис” прячется слово “тапок”.
Работалось круто, плотно, арки прорабатывались многовариантно, и удивительным образом хватило 96 часов на законченный арочный сюжет и выход.
Сначала придумали цельный полный метр от начала до конца. Затем - обрезали до трейлера. С точки зрения реализации - сразу приняли решение делать в реализме, ибо мультипликация для нашей темы - явное снижение градуса и вообще не очень серьезно как носитель замысла в данном случае.

Всем спасибо! 96 часов огня)


@cgevent

Читать полностью…

Метаверсище и ИИще

Как обеспечить пассивный доход, свободное передвижение по миру и защиту капитала?

Недвижимость – это беспроигрышный вариант.

Если вам интересны реальные инвестиции, а не сказки риэлторов и инфобизнесменов, подписывайтесь на канал Никиты Шеломенцева, основателя компании Breig Property. У его компании более 10 лет успешного управления недвижимостью

На канале можно найти: выгодные офферы, которых нет в открытом рынке, спецпредложения с ценой ниже рынка.

Никита
с 2016 года помогает клиентам выгодно вложиться. И для вас он тоже найдет идеальное предложение 🔥

Скачать каталог 2025

Читать полностью…

Метаверсище и ИИще

Игорь написал хорошую статью, процитирую для затравки:

Чаще всего это выглядит как карго-культ. Все бегают, кричат "Надо срочно всем использовать AI! Сейчас все будут работать в 2 раза быстрее!", покупают лицензии ChatGPT и аналогов всему офису и ждут чуда. Но будем честны: у 9 из 10 компаний получается не «цифровая трансформация», а дорогостоящий «театр инноваций».

Отлично рассказывает, почему все эти ИИ-курсы, ИИ-академии и ИИ-трансформации - полный булшит, и с чего надо начинать.

Прочитал и подумал, что в принципе годные рецепты для внедрения даже в одну голову - фрилансера, солопренера, компании из одного человека.

https://habr.com/ru/articles/965016/

@cgevent

Читать полностью…

Метаверсище и ИИще

Преступно долго не писал про Qwen Image Edit with camera control Лору.

Наконец-то под нее сделали демоспейс, можно попробовать сам:
https://huggingface.co/spaces/linoyts/Qwen-Image-Edit-Angles

Суете свою картинку, получаете изображение под другим углом камеры с сохранением консистентности.

Но в сети светятся примеры с 4х шаговой лорой, там уже вообше полный интерактив. См видео.

Также народ вонзает эти новые кадры как first-last frames и получает видео-переходы от одного ракурса к другому, опять же с сохранением консистентности.

Она есть и на аггрегаторах и на Fal и в Комфи.

https://huggingface.co/dx8152/Qwen-Edit-2509-Multiple-angles
https://huggingface.co/Phr00t/Qwen-Image-Edit-Rapid-AIO/tree/main

@cgevent

Читать полностью…

Метаверсище и ИИще

Свежеискусанная нодовой истерикой Krea.ai

А твитторе раздавали коды раннего доступа к нодовым фичам, но сейчас перестали.

Кто ещё не покусан ComfyUi?

@cgevent

Читать полностью…

Метаверсище и ИИще

Офигейте и попадайте со стульев! Университет Мэриленда и Microsoft протестировали 26 языков на всех топовых LLM — и английские промпты оказались НЕ самыми эффективными! 🤯

Результаты просто дикие:
- Польский — 88% (первое место!)
- Русский — 84% (пятое место)
- Английский — только 83.9% (шестое место!)

Пока все годами мучаются с английскими промптами, думая что так «правильнее», оказывается наш родной русский работает лучше!

Протестировали на OpenAI, Gemini, Llama — везде одинаковый результат. Даже китайский с огромной базой данных показал один из худших результатов.

Практический вывод: Сложные задачи теперь можно спокойно задавать ИИ по-русски — это эффективнее английского. Особенно когда нужна точность выполнения.

Кто бы мог подумать, что польский станет языком №1 для общения с искусственным интеллектом! 🙂

🔮 Хранители Легиона ➕

Читать полностью…

Метаверсище и ИИще

Не так давно писал про Deepseek OCR - перевод изображений в тексты.

Индийские коллеги из Datalab бахнули Чандру.
Ещё один OCR, который, конечно, побивает Мистраль и Дипсик на разных OCR тестах.

40 языков, формулы, рукописи и пр.

И все это с кодом!

Демо есть тут:
https://www.datalab.to/playground/documents/new

А код тут:
https://github.com/datalab-to/chandra

На видео - оцифровка рукописи 1913 года на Ramanujan language.

@cgevent

Читать полностью…

Метаверсище и ИИще

Есть и хорошие новости с музыкальных полей.
Китайцам похоже наплевать на UMG и они бахнули MiniMax Music 2.0

Треки по ПЯТЬ минут
Анонсируется точный контроль над музыкальной аранжировкой и инструментами
Акапелла и дуэты (интересно)
Ну и понятно, что "студио кволити и все такое"
Есть на сайте:
https://www.minimax.io/audio/music
И на Фал:
https://fal.ai/models/fal-ai/minimax-music/v2

Но до Суно, как из Китая пешком.

@cgevent

Читать полностью…
Subscribe to a channel