Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Коротенечко про Android XR и Google Glasses
Десять лет назад Гугл выпустил google glasses и они были прекрасны. Но не взлетели.
Сейчас они заходят в эту реку второй раз.
Очки снова анонсировали на недавней конфе для разрабов Гугла вместе с анонсом Google: Android XR.
https://www.wired.com/story/google-android-xr-demo-smart-glasses-mixed-reality-headset-project-moohan/
Кстати, это уже пятая операционка от Гугла для мобильных утройств после Android, Wear OS, Google TV и Android Auto. Хромбуки не в счет.
Но им приходится снова быть (по традиции) в роли догоняющего.
Метачка уже вовсю обновляет существующие очки (теперь там есть ИИ-ассистент, переводчик и даже Шазам!), а у Гугла, как обычно, "когда-то в будущем".
https://www.theverge.com/2024/12/16/24322628/ray-ban-meta-smart-glasses-live-ai-translation-shazam
Интересно, что они объединились с Самсунгом и Квалкомом. А Самсунг даже показал ответочку Мета Квесту и Лыжной Маске - проект Мухан. Но тоже без сроков выхода и с невнятным позиционированием.
https://www.theverge.com/2024/12/12/24319528/google-android-xr-samsung-project-moohan-smart-glasses
Интересно, насколько именно операционка + Gemini смогут стать драйверами успеха очков от Гугла.
Вопрос набора киллер-фич, имхо.
Шазам в Рей-Банах от Метачки - одна из них.
На фото, я в 2015 году бегаю со слезами восторга по CG EVENT и ору "Ок, Гугл, take video!!", и оно снимает, зараза. Мы даже с Костей Харитоновым потом кино сделали оттуда. Было очень круто, в 2015 году смотрелось как фантастика.
@cgevent
Что показали
Поговорили про поиск в ChatGPT:
– Теперь он доступен для бесплатных пользователей тоже
– Поиск стал лучше, быстрее и тп.
– Поиск теперь работает во время разговора через Advanced Voice Mode
– Можно сделать поисковик чатгпт дефолтным в браузере (лицо Google представили)
This bass video is generated by AI
Ну и чтобы закрыть тему с басистами сегодня, держите видео от моего любимого Davie504, о котором я периодически пишу в канале.
Это невыносимо смешно.
Davie504 вначале троллит Suno, но если вы посмотрите с 5:00, вы увидите изменение тональности.
Ну и это отличная демонстрация того, что Suno - это прежде всего бесконечный источник идей, а потом уже самой музики. Самая частая моя реакция на прослушивание суновских генераций - "если переписать вокал в студии, то это хит".
А Davie504 в конце "переписывает" партию баса для Суно. И получается прекрасно.
И поглядите до конца, когда он с его серьезным лошадиным лицом рассуждает "Am I AI?".
Восторг для тех, кто в теме. Поглядите полное видео тут:
https://youtu.be/a9GVnh2to44
P.S. А если хотите просто удовольствия от слэпа, вот вам трек от Charles Berthoud X Giacomo Turra:
https://www.youtube.com/watch?v=6B5Kc0D8uqI
@cgevent
Немного разбавим гиковские посты.
Я не знаю, для чего это может быть нужно, но это очень забавная нейросетка.
Определяет, кто и куда смотрит.
Можно, конечно пофантазировать:
- камеры в школе и на лекциях - анализ внимания
- камеры в переговорках - анализ вовлеченности и подтупливания в телефонах
- приложения для телефона для анализа видео типа "посмотри, куда реально глядит твой парень"
- VFX - плагин автоиспепеляющий взгляд
Еще варианты?
И все это уже работает на основе опенсорсных клея и палок:
https://github.com/fkryan/gazelle
Поглядите, хорошие примеры внутри.
@cgevent
Лоры для видео
Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.
Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.
В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW
Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.
Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.
Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.
https://civitai.com/models/1000190/cogvideoxxx15-5b-i2v-lora-nsfw
@cgevent
Это выглядит одновременно очень мило и абсолютно проклято.
Вот бы кто-нибудь устроил матч между такими роботами. Это же действительно куда интереснее, чем мясной футбол.
P.S.: робот в синей футболке симулирует травму
Боюсь, что нигде теперь. А как ещё ИИ будет получать бесплатную разметку для беспилотников?
Любишь катацца, люби и данные метить.
Не любишь катацца, сиди на обочине прогресса.
@cgevent
Grok Aurora & Kandinsky
Цензура? Нет, не слышали..
Сора: а чо так можно было?
@cgevent
Реалтаймовый path tracing в UE5.
Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.
Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).
И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.
Явшоке. Подробности ниже.
А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?
https://youtu.be/JYI1srodjeg?si=8VxmZyglPqGCjVOa
@cgevent
OpenAI 7: проекты в chatgpt
Очень полезная штука. Можно такие папочки создавать, в которых все необходимые документы, инструкции, чаты. Причем не только на потрындеть, но и код пописать. Наконец-то можно будет разложить все аккуратно и контекст сохранять. Тут рабочая стратегия, тут путешествия организация и так далее. Раскатывают прямо сейчас
https://www.youtube.com/live/FcB97h3vrzk?si=xjUjA8kQxsJLMglh
Мадагаскарский яйценосный дрозд (Madagascar ovum turdi) - единственная известная науке птица, не высиживающая яйца и не вьющая гнезд.
После завершения беременности, самка откладывает в специальную кожаную сумку два, в редких случаях - три яйца, практически идеальной круглой формы.
По окончании вынашивания, нижняя часть кожистой стенки истончается, яйца выкатываются наружу, и происходит процесс вылупления птенцов. Молодой яйценосный дрозд готов к самостоятельному полету уже через четверть часа после рождения, что также является уникальным явлением в мире птиц.
Известный канадский орнитолог Летиция Боллс в своей книге «Наша уникальная планета», так описывает самок Мадагаскарского яйценосного дрозда:
“Учитывая, что во время сезонных миграций этим маленьким хрупким женщинам приходится пролетать около 20 000 км, их по праву можно назвать женщинами с яйцами. И не только из-за необычного способа вынашивания птенцов».
Wilson Journal of Ornithology, 2024
Это мой приятель Алекс Васильев, сделал 4 апреля вот такой пост. Ну и взорвал интернет.
Оригинал тут
В итоге дроздяра разлетелся по интернетику как ковид. Из последнего, я видел тетеньку, кандидата биологических наук, которая прям на серьезных борщах затирала про особый вид дроздов с термотестикулами, а на заднике была вот эта ИИ-птичка.
Тут, конечно, можно разразиться длинным постом о природе кожаных, но я лишь приложу видос из Соры.
Чтобы кандидатам биологических наук было, что обсудить в интернетике.
Я, кстати, уже писал про то, как Алекс меняет фауну планеты.
@cgevent
🔵 Предыстория: У меня в телеге тысячи! непрочитанных и неотвеченных сообщений, скорее всего у вас также. Большинство из них с запросами на партнерства, запуски проектов, маркетинг, да и просто обычные вопросы от пользователей наших продуктов. Все это наверно сотни тысяч долларов упущенных возможностей.
⚠️ Но кто это все должен разбирать, квалифицировать, общаться, договариваться? Не доверишь же ты свой личный телеграм трем ассистенткам.))
Ну и решил я все это автоматизировать через AI Telegram бота, и тут понеслось)) 📱📱📱
Спустя 20.000 строк кода родился полноценный AGI бот-ассистент для Телеграм, который за меня может вести все переписки и делать практически что угодно:
- общаться на любые темы
- квалифицировать лидов и их потребности
- вести переговоры и договариваться в свою пользу
- назначать встречи и звонки
- и даже продавать сервисы и принимать платежи
Ну и конечно же я не поленился добавить в него все последние фишки AI:
- Загрузка любых данных (doc, md, pdf, csv) — бот “запоминает” всё, что нужно.
- Голосовые сообщения — можно добавить свой голос, и бот сможет общаться голосовыми за вас.
- Самые мощные AI-модели (#OpenAI, #Anthropic) под капотом.
- Полный контроль и гибкая настройка инструкций и интеллекта под ваши задачи и цели.
- Доступ в интернет для поиска нужной информации
- Безопасность на уровне самого Telegram — бот работает только с теми чатами, которые вы ему разрешите.
BLENDERGPT
Держите вам еще один 3Д-генератор.
Несмотря на название это НЕ плагин к Блендору, это просто еще один облачный сервис за 10 долларов в месяц.
Преимущество - быстрый.
Я попробовал, не увидел чего-то особенного. Может вы найдете.
С персонажами совсем беда.
https://www.blendergpt.org/app
@cgevent
В аккурат после Gemini OpenAI показали камера- и скрин-шеринг в chatGPT (к чорту приватность, данные всё). И мультимодальность в голосовом режиме в виде audio-direct-to-audio. Звучит действительно еще круче.
А потом стали мучить Санту вопросами про оленей.
Теперь можете поставить телефон рядом с собой, включить камера шеринг - и он будет коментировать ваши действия. Все как у людей.
Кстати, для фитнеса и йоги может зайти. Не удивлюсь, если услышу на тренировке: подтяните внутренние пахи.. Когда ходил на Айенгару, никто мне не мог объяснить, кто это такие. Может chatGPT объяснит.
Sora vs Minimax
Как иллюстрация к предыдущему экзальтированному посту.
Вот смотрите, есть две картинки.
По первой, Сора НАОТРЕЗ отказывается генерить видео. Орёт: вижу людей! тревога! не могу! не буду!
По второй генерит реальную хрень, явно желая выйти в прокрустово ложе датасета, привычную лыжню камеры и псевдо-3Д стиль.
При этом Минимакс (видео без лого) кушает все это как родной. Понимая и про людей, и про стиль (что это мультик) и про камеру.
Как еще надо поломать мозги Соре, чтобы стало понятно, что это тупик?
Спасибо Максу и подписчикам, атомный чат у меня в коментах, конечно
@cgevent
Бесплатный Грок и Аврора.
У меня в твитторе появился бесплатный Грок. Он довольно толковый, но выяснять, что больше 9.11 или количество букв "р" у меня нет желания, поэтому я сразу вцепился в Aurora - это, кстати, единственный вариант для генерации картинок в бесплатном Гроке.
У меня сходу два ощущения:
До Флюкса там очень далеко. Понимание промпта среднее, качество деталей (и особенно лиц на средних планах) - слабое.
Аврора прям явно заточена под лица крупным планом, хотя до Флюкса ей тут тоже далеко.
Но.
Грок очень хорош в описании картинок. Я дал ему пару генераций и попросил описать их в деталях. Он сделал очень подробный структурированный промпт. Который я тут же присунул ему обратно. Обычно я делаю так через chatGPT + Flux, теперь попробую делать промпты в твитторе.
На примерах видно, что Аврора не справляется с качеством и деталями. Но очень прикольно наблюдать(на десктопе), как картинки рендерятся сверху вниз (Аврора - не диффузионная модель).
Попробуйте, может у вас получится получше.
На картинках Source - это то, что я скармливал в Грок, как картинку для подробного описания. Потом генерил это в Аврора и Flux 1.1 Ultra
@cgevent
Google Veo 2
Вы будете смеяться, но у нас новый видео-генератор.
Ну то есть генератор старый, версия новая.
Заявленные фичи:
Generates 4K resolution clips.
Understands camera controls like wide shots & angles.
Recreates real-world physics & emotions.
Дальше идет жоский маркетинг:
Create cinematic-quality videos without a camera.
Perfect for filmmakers, creators, & brands.
Human raters prefer Veo 2 over top competitors.
Последнее меня просто обескураживает.
"Говорят, что наш генератор лучше!"
Тетенька с микроскопом выглядит действительно здорово. А вот фигуристка, конечно, оборотень.
Картинка довольно сочная, как у Соры, но меня не оставляет ощущение, что это апскейл.
VideoFX isn't available in your country yet. Пойду расчехлять впн.
Кто-то уже попробовал?
Ну и зная пугливость и диверситикацию Гугла, остается только гадать о размерах цензуры.
https://deepmind.google/technologies/veo/veo-2/
@cgevent
Казах и помор.
Те, кто почитывал меня в прошлой жизни на fb (который я забросил, полностью перейдя в телегу), помнят, что у меня там была целая серия #khazakhipomor.
Есть у меня какая-то необъяснимая кармическая связь с казахами.
И щас хочу рассказать, что на Кипре у меня есть .. долго подбирал слово.. приятель, знакомый .. кент (или на новом нормальном, братуха).
Зовут его Алмас Абулхаиров - физтех, велосипедист, как бы видеоблоггер, и на минуточку создатель SpatialChat (тут вот ссылка на Forbes еслишо).
Недавно выступал у меня на Хабе, полностью уничтожил зал своей харизмой.
Мы встречаемся не так часто, как хотелось бы, но это всегда абсолютное тепло и поддержка.
В добавок ко всему, у Алмаса есть охренительный канал с не менее охренительным названием "Венчур по понятиям". И это не какой-то там модный "дружеский\честный пиар", это абсолютно искренний пост. Читаю его постоянно.
Он пишет про венчур примерно как я про ИИ. Как дышит. Только посты у него более умные и содержательные. И очень личные, что отчаянно важно в эпоху бесконечных штампов и копипастов.
Знаю, что у него там вот-вот будут еще огненные новости, которыми я обязательно поделюсь.
Но самое главное, он - басист!
Всем стартаперам читать, как учебник.
P.S. Блин, поймал себя на мысли, что на фотке пересчитываю зубы у нейродеда, который выглядит, как нейродемон. И у нейроказаха. И сам себя спрашиваю, это генерация или фото. Совсем охренел от ИИ уже.
@cgevent
Ну а совсем для гиков, кто хочет потренировать свои Лоры для видео, держите вот такой пайплайн.
Он, кстати, также может делать Лоры и Файнтюны(!) для Flux (то есть для картинок) и поддерживает, внимание тренировку Лор для Hunyan Video.
Поддежка multi-GPU и все дела:
Pipeline parallelism, for training models larger than can fit on a single GPU
Full fine tune support for:
Flux
LoRA support for:
Flux, LTX-Video, HunyuanVideo
Я обычно не пощшу про новые Лоры для Флюкса, их уже стало слишком много, но вот это прям хорошо.
Более того, для комфименов и комфивуменов там есть воркфлоу для Комфи с восьмистепным ТурбоФлюксом он Алимамы, апскейлером и LUT. И датасет у Лоры был, судя по всему, очень качественный.
Ну хорошие же! А мужик на пятой фотке просто брился второпях..
А я вам сейчас еще новостей про тренировку моделей пригоню.
https://civitai.com/models/1038829/dramatic-portrait
@cgevent
Адобченко пилит свой Omnigen. И какой!
https://xavierchen34.github.io/UniReal-Page/
Обещан код!
В воскресенье мне негоже писать лонгриды, поэтому я просто скопирую сюда все эти сладости, из которых меня больше всего возбудила вот эта:
Learns from video data to understand shadows, reflections, lighting effects and object interactions
Итак.
# 🌟 Key Features
* Universal Framework: Handle multiple tasks like generation, editing, customization and composition in a single model
* Real-world Dynamics: Learns from video data to understand shadows, reflections, lighting effects and object interactions
* Multi-Image Support: Process multiple input/output images seamlessly as "frames"
* Smart Context Understanding: Advanced hierarchical prompting system for precise control
* Automatic Adaptation: Intelligently adjusts to different tasks without requiring specific instructions
# 🎨 Example Applications
# Image Editing
* Add/remove objects with natural lighting and shadows
* Modify scene attributes while maintaining consistency
* Seamless object insertion with proper perspective
# Image Customization
* Transfer objects between images with proper context
* Adjust object poses and lighting automatically
* Multi-subject composition with realistic interactions
# 🔥 Comparison Results
UniReal shows significant advantages over existing methods:
* Instruction Following: Better understanding of complex editing requests
* Detail Preservation: Superior quality in maintaining important details
* Natural Integration: More realistic blending of edited elements
* Background Consistency: Better preservation of original image elements
@cgevent
Pika 2.0 — мечта всех рекламщиков
Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.
Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.
- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.
Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭
Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.
Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.
pika.art
@ai_newz
Kandinsky Video, Gigachat Music и народный датасет.
У Кандинского вышла новая модель 4.0 для генерации видео и местами там очень неплохие результаты.
А Gigachat запустил свой генератор музыки. Длина трека полторы минуты, но есть также генератор тестов песен.
И кстати про тексты и датасеты. Сбер в 2025 году начнет собирать "Народный датасет" для обучения моделей GigaChat и Kandinsky - в нем могут поучаствовать все желающие, приведя информацию о небольших регионах, о городской специфике, малых народах или устоявшихся выражениях. Своеобразный национальный краудсорсинг информации новой модели.
Подробности тут.
Ну, за подкасты.
Не очень понятно зачем теперь нужны кожаные блогеры, влогеры, инфлюматьихенсеры.
Я тут смотрел, как народ упарывается в NotebokLM, создавая аудио-подкаст из текста, потом вырезает в аудасити звук для каждого голоса, потом огородит с хейгеном и звуком, и тд.
Все.
Одна кнопка.
Сделать красиво.
Тупо, но красиво.
А зачем еще это все?
Хейген, похоже, сами не понимают, как они троллят интернет.
@cgevent
Krea.ai Edit
Редактор изображений Krea.ai теперь доступен всем.
Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)
#imageediting #inpainting #outpainting
У меня в телеге все разбито на папки. Каналы в одной папке, активные каналы в другой, рабочие чаты в третьей, персональные сообщения в четвертой, ну и тд. Проблема в том, что когда кто-то делает новый чат с тобой и кем-нибудь еще, то этот чат попадает в папку All, а там тысячи непрочитанных. И все это улетает вниз. Не нашел как с этим бороться, а также, как искать ТОЛЬКО в личных сообщениях или только в сообщениях их определенной папки, или только pdf-ы. На итоге постоянно теряю кого-то или что-то. И тут мне пишет подписчик Илья, который с помощью ИИ забабахал бота, который решает часть таких проблем.
Смотрите ниже
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
В 3Д-генераторы потихоньку заползают 8К-текстуры.
Это уже намерение работать с ассетами для кино.
Но.
Помимо разрешения, у текстур должно быть и качество.
Я вот поглядел, как Rodin бахнул OmniCraft - там и HDRI генератор, и 8К текстуры, и на входе может быть пять ракурсов.
https://hyper3d.ai/omnicraft
Но потом нашел вот такое сравнение с опен-сорсным TRELLIS, который снимает текстуры, более похожие на реальные.
Rodin, конечно, всех пока уделывает по продуктовым фишкам, а вот по части качества придется теперь конкурировать с опен-сорсом.
Про Trellis читаем тут.
@cgevent
Мы: ну сегодня покажут новый DALL·E 4
OpenAI: смотрите в chatGPT есть кнопка "Санта"
https://www.youtube.com/watch?v=NIQDnWlwYyQ
Два мира, две системы.
На деле три, есть ещё опенсорс.
Но давайте поглядим на то, как Сора неуклюже и лицемерно(людей за 200$ можно) реализует цензуру.
В это же время, Грок от Маска совершенн безбашенно и залихватски генерирует любых политиков, знаменитостей, селебов, бесстрашно начхав на эти вот ванильные "мы заботимся о вашей безопасности"
В одно и тоже время существуют два радикально иных подхода к цензуре.
В этом смысле подход маска мне сильно ближе, он не делает вид "мы не такие и вообще принцессы не какают".
А опенАИ продолжают загонять себя в анекдот, когда сынок спрашивает маму, что такое жопа.
"Ой, нет такого слова, сынок"
Сынуля: "Хмм, странно, жопа есть, а слова нет".
Тут вот Альтман гонял в Голливуд полгода назад, общаться за Сору.
Но большинство голливудского сторителлинга построено на жопах, сиськах и насилии. Какая в жопу Сора?
При этом и грок и сора/далле существуют в одном инфополе.
У меня совершенно крамольная аналогия про христиан и язычников, но я не могу от нее отделаться.
Два мировоззрения. Главное, чтобы до крестовых походов не дошло. Рыцари-Юристы уже готовы.
Картинка из Грока, как вы понимаете
@cgevent