Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Kling: обновили свой видеогенератор Kling до V 2.1. Изменения коснулись обычной модели и master. Что нового:
Kling 2.1
* Генерация видео в стандартном режиме — 720p, в профессиональном — 1080p
* 5 сек в стандартном режиме стоят 20 кредитов, в профессиональном 35 кредитов
* Работает пока только в image-2-video, позже подрубят text-2-video
Kling 2.1 Master
* Улучшена динамика и следование промту
* Выдаёт 1080p по умолчанию
Сайт
Анонс
Твит
Неплохой монтаж из Veo3
Для репортажной съёмки отлично подходит, по свету не сильно палится и озвучка огненная.
Вопрос фейк-ньюс закрыт. Видел уже телевизионные новости из вео3, игровые стримы, интервью на улицах.
Наверное можно выпить за документальную съёмку.
@cgevent
За Липсинк.
Помните, что если скормить какому-нибудь сервису аудиофайл и картинку с НЕСКОЛЬКИМИ персонажами, то они все начинают говорить одновременно и одинаково.
Хедра решила побороть этот вопрос довольно лобовым способом. Просто добавили возможность нарисовать рамочку вокруг персонажа.
Кто в рамке - тот и говорит.
И пусть вас не обманывает сцена с двумя персонажами. Сначала генерится видео с одной говорящей головой (вторая моргает и кивает), потом загружается аудио, делается новая рамка, генерится, а клипы сшиваются после этого.
А могли бы как в Суно ввести разметку в тексте. Ибо задолбаештся делать диалог с десятком реплик.
hedra.com
@cgevent
Кстати, для Блендора есть новый плагин для текстурирования объектов или целых сцен с помощью SDXL\Flux.
Он, правда, требует ComfyUI для локального запуска, но выглядит очень нарядно.
Код здесь: https://github.com/sakalond/StableGen
А больше информации и инструкций вот тут.
@cgevent
https://openai.com/index/introducing-codex/
— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount.
А вот и первые ласточки применения ИИ в новой нормальной рекламе.
Гугл кормит свои видосы в Гемини.
Она смотрит, где юзер больше всего залипает, так называемые Пиковые Точки.
В каждом видео есть моменты, которые требуют наибольшего внимания, и зрители часто переходят сразу к этому разделу или вскоре уходят. Эти моменты также были бы самым идеальным местом для показа рекламы и получения наибольшего охвата, поэтому YouTube вводит «Peak Points».
Гемини теперь знает про вас не только что вы смотрите, а как вы смотрите и на что вы смотрите. И ну вставлять рекламу.
1Xbet такие: жалкие плагиаторы.
https://9to5google.com/2025/05/15/youtube-ads-gemini-peak-points-placement/
@cgevent
Вышел Kandinsky 3D. Модель для генерации 3Д-мешей.
Картинки нарядные, но я сам попробовать не могу - ну нет у меня sber id.
Поэтому жду вас с результатами в коментах.
А пока держите ну очень годную статью про разработку Kandinsky 3D: там хороший срез этого направления на сегодняшний день по всем решениям.
Меня прям интригует заточенность на САПР\CAD и вот это:
"Кроме того, мы работаем над редактором, который позволит совершенствовать сгенерированные объекты без их экспорта в сторонние инструменты. Появится возможность частично перегенерировать модель — например, заменить только отдельный элемент, не трогая всё остальное.
И это ещё не всё: в планах — разработка разных вариантов ретопологии (упрощения и оптимизации 3D-модели), расширенные настройки генерации и множество других улучшений, которые сделают инструмент максимально гибким, быстрым и удобным для разных сценариев использования — от геймдева до 3D-печати."
https://habr.com/ru/companies/sberdevices/articles/908820/
@cgevent
Алибаба бахнули в сеть различные пожатые кванты для Qwen 3.
Все это поддерживается в Ollama и LM Studio.
Полная коллекция версий и форматов тут:
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
@cgevent
Коль скоро мы тут за графику и мозги в основном, держите довольно хорошо известную оптическую иллюзию.
Один из способов, с помощью которого наша нервная система воспринимает движение, - это так называемый фи-феномен. Эта неврологическая система превращает быстрые последовательности изменений цвета или яркости в нечто более глубокое, например в общее ощущение того, что что-то изменило положение.
Наиболее глазастые и пронырливые могут попросить у chatGPT команду ffmpeg, которая разложит видео на кадры:
ffmpeg -i input.mp4 frames/frame_%04d.png
Они же смогут заметить, что меняется не только цвет, но и по самому краю "ползет" тонкий контрастный контур разного цвета.
Но это не так важно, мы просто наблюдаем, как движение цвета в неподвижной форме, превращается в наших кожаных мозгах в движение самой формы. Кстати, стрелки можете закрыть пальцем, они вообще не играют роли.
А я попросил chatGPT сбацать мне питонг-скрипт, который разбирает видео на кадры и собирает их обратно в рандомном порядке. Иллюзия тут же пропала.
Всем критического мышления с утра.
Кому интересно, тут больше теории.
@cgevent
OpenAI обновили документацию про то, какую модель оптимально использовать в том или ином случае.
GPT-4o - Омни-модель для мультимодальных рассуждений в реальном времени в повседневных рабочих процессах.
GPT-4.5 - более широкие знания и лучший контроль тональности ответа - идеальное решение для письма, кодирования и быстрого решения проблем.
o4-mini - Быстрые, экономичные рассуждения для кода, математических и визуальных задач.
o4-mini-high - это o4-mini с дополнительной глубиной для более сложных технических ответов.
o3 - самый мощный движок для сложного, многоступенчатого анализа.
o1-pro - устаревшая(legacy) модель, настроенная на длительную аналитическую работу с высокими ставками.
https://help.openai.com/en/articles/11165333-chatgpt-enterprise-models-limits
Не скажу, что стало сильно понятнее, но по ссылке есть примеры промптов и четко указаны лимиты для каждой модели.
@cgevent
Добавил номер +18334363285 в контакты.
Зашёл в вотсап, в чат с этим номером.
Попал в бота Perplexity AI.
Сижу зачем-то генерю котиков, вместо того чтобы спрашивать умныя вопросы (нет ума, не вопросов).
Картинки генерит ловко, мне кажется там Gemini 2.0 Flash для этого.
Но вот редактировать не умеет.
Все бесплатно.
В чем подвох?
@cgevent
ИИ читает спикера за секунды, угадывая успех выступления по первым фразам.
Модели GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку.
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов. Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0,7 предсказывают, как доклад оценят живые эксперты.
Иными словами, ИИ выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться». Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:
«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления».
Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 4
Диванные мысли. Гонка 3Д-генераторов сейчас в самом разгаре. Этакий 2023 года для картинок.
В отличие от картинок, где сейчас битва идет уже за конкретные детали(текст, пальцы, лица) и пост-редактирование, у 3Д-генераторов все впереди.
Ибо порождение 3Д-сетки - это не финальный, а более чем промежуточный результат, я бы даже сказал, начальный. Ведь дальше эту 3Д-модель (в отличие от картинок) рано показывать пользователю\миру, а предстоит отправить в длинный пайплайн:
Ретопология
Развертка UV
Текстурирование до годного (разрешения)
Риг
Скиннинг
Лицевой риг(отдельная тема)
Если ваши фантазии не идут дальше 3Д-принтера или расстановки болванов в метаверсике или VR, то вы почти у цели.
Но взрослые мальчики ожидают, что весь этот взрослыйпайплайн постепенно будет пристегиваться к 3Д-генераторам.
И тут я опять взвою вопросом: будут ли Deemos, Tripo, Hunyuan или Trellis изобретать свою Web-Maya или Nano-Blender внутри своих платформ, или кто-то типа Адобченко с готовым 3Д на борту прикрутит генерацию внутри имеющихся пайплайнов.
Понятно, что путь опенсорса лежит через плагины к Блендору.
Но я также подозреваю, что кто-то из больших игроков рано или поздно прикупит один из 3Д-генераторов и сделает свое решение.
Например Фрипик или Креа, у которых очень много денег сейчас.
@cgevent
А зачем размениваться на какие-то сторонние сервисы для просмотра 3Д-моделей в предыдущем посте?
Идем в о3 и говорим:
а сейчас напиши мне код, для "OBJ VIEWER" который я смогу запустить в Canvаs и увидеть 3Д-модель. Там должна быть галочка "включить показ edges" ну или wireframe mode
сделай кнопку загрузить с компьютера
Бах! В канвасе, который он сам же и открыл появляется код на реакте и кнопка Preview. Жмем ея, видим наш 3D-viewer, загружаем нашу маску лица, включаем галку wireframe - и все работает!
Год назад разговор зумеров: слушай, есть такие прикольные аппки для вот этого и этого и этого.
Через год от сейчас: хочу аппку, которая делает вот это.
АПАЖАЛСТА!
@cgevent
Купон на 20 баксов на fal.ai
Можно генерить видео.
Ещё работает:
https://t.co/EgEcrNuWh3
Снова за 3Д: Tripo AI продолжают делать Майю вокруг своего генератора.
Бахнули Tripo Studio Beta, но только для платных подписчиков.
Там и сегментация моделей на части, и Лоу Поли генерация(!), и magic brush для текстур, и, конечно, авториг.
Амбиции по созданию 3д-пакета налицо.
Поглядите их твиттор, много видосов про это:
https://x.com/tripoai/status/1925990677512339964
@cgevent
Не удастся отдохнуть.
Veo 3 раскатывают на 71 страну(не только штаты).
Pro юзерам (как я, 20 баксов в месяц) выдают 10 вео3-видосов в месяц.
Олигархам с подпиской Ультра повышают лимит с 83-х до 125-ти генераций в месяц.
Все это доступно через
https://gemini.google.com/app
Но пока только на десктопе(на телефоне позже)..
Скоро вонзятт вео3 на креа и фрипик (по конским ценам)
А пока думаем, как сжечь 10 генераций с умом.
Now, we’re excited to announce:
+ 71 new countries have access
+ Pro subscribers get a trial pack of Veo 3 on the web (mobile soon)
+ Ultra subscribers get the highest # of Veo 3 gens w/ refreshes
How to try it…
➡️ Gemini (http://gemini.google):
* Great for everyone - click the Video chip in the prompt bar, and just describe your video
* Pro subscribers now get a 10-pack so you can try it
* Ultra: MAX limits, daily refresh!
➡️ Flow (http://flow.google):
* Great for AI filmmakers
* Pro: 10 gens/month
* Ultra: Now 125 gens/month (up from 83)!
@cgevent
Кстати, скоро будет версия Imagen4(который уже сейчас живёт в приложении Gemini), которая будет в 10 раз быстрее Imagen 3.
@cgevent
Нейродедовость
Промпт: A stylized figure of a [SUBJECT] made of glowing, abstract red and orange energy particles, with radiant and bright illumination effects, set against a deep, dark background. The subject appears translucent and ethereal, with dynamic lighting, shimmering, and a sense of cosmic elegance in portrait mode
Подставляете вместо subject любую нейрохрень. Можете потом забрать раскучерявленный промпт из chatGPT и кормить его в другие генераторы.
Фас - Gemini\Imagen3
3/4 - chatGPT
Люблю частицы.
И большого Лебовскаго.
@cgevent
Stability AI внезапно выпускают в опенсорс генератор музыки/семплов адаптированный под генерацию на ARM процессорах. Это значит, что на мобилках теперь можно делать семплы длинной до 11 сек, без доступа к интернету и других нужд.
Звучит кстати вполне неплохо, нареканий по железному звуку нет.
Подробнее тут
Нейропрожарка
Подписчик Дмитрий прислал музыкальный клип. Прожариваем в коментах, фразы начинаем "На мой взгляд..". Кто начинает тыкать в автора, идет в бан. Прожариваем клип, а не автора.
Этот клип — моя личная интерпретация песни «Homay» от Ay Yola, созданная полностью с помощью нейросетей. Вдохновившись оригинальной композицией, я решил воплотить визуальный образ, который, на момент создания, ещё не был представлен в сети.
Процесс создания:
• Генерация изображений: Midjourney v7.
• Озвучка: Dreamina.
• Анимация: Runway, Kling, Luma, Higgsfield.
• Постобработка: Photoshop.
• Монтаж: CapCut.
• Апскейл: Topaz, Magnific.
Особое внимание уделено сценам с элементами сюрреализма и танцами, где возникли определённые сложности с артефактами. Тем не менее, цель была — передать атмосферу и погрузить зрителя в традиции народной культуры.
В процессе было сгенерировано более 500 кадров, из которых в финальную версию вошли около 40. На каждый из этих кадров пришлось по 3-5 дублей анимации, что в сумме составило порядка 150-200 анимированных сцен.
Этот проект — не коммерческая работа, а скорее творческий эксперимент, позволяющий исследовать возможности нейросетей в создании видеоконтента.
Качество тут: https://youtu.be/0qxHlxkAz5I
@cgevent
Лето. Питер. AI
26 и 27 июня в Питере пройдет Conversations 2025 — конференция по разговорному и генеративному AI для бизнеса и разработчиков.
Что в фокусе?
🔥 4 трека: технологический, продуктовый, бизнес-треки и, впервые на конференции — стартап-трек, где команды поделятся историями успеха и представят свои GenAI-решения заказчикам и инвесторам.
Немного спойлеров:
🔵 LLM на Госуслугах. Цель, путь и результат. Как ожидания столкнулись с реальностью. Госуслуги x РТ Лабс
🔵 От RnD к продукту: почему крутая модель — еще не фича? Сбер
🔵 Как ATOM обучает автопилот для электромобилей с помощью ML-платформы Selectel: опыт и решения. Selectel & АТОМ
И еще 35+ докладов от экспертов Skyeng, книги билайн, red_mad_robot, Яндекс, Газпромбанк, БКС, Cбер, Битрикс24, Just AI, Artefacto и многих других. Полная программа тут.
Также в эти даты пройдет награждение Generation AI Awards 2025 — первой в России премии, посвященной применению генеративного AI в бизнесе 🦾 Ну как такое пропустить?
📌 Подробности и билеты по ссылке.
Специальный промокод на скидку 10% для наших подписчиков: C25METAVERSE
Интернетик полон новых забав.
Подаем на вход chatGPT изображение, говорим "опиши его и сделай картинку по описанию". И так 73 раза.
Получается игра в испорченный телефон. Картинка "уплывает" от оригинала.
Я игрался с этим примерно полтора года назад, когда в chatGPT еще был DALL·E 3. Было интересно поглядеть, в какие архетипы он уводит картинку - писал скрипт на Autohotkey, который сохранял картинку и сувал ея обратно в chatGPT.
Обнаруживались уход в цветы из чорного квадрата, подъем камеры наверх, определенные ракурсы и библейские облака.
Сейчас описание и генерация картинок стали точнее. Но мне вот за ИИ обидно. Попробуйте кожаному на словах описать картинку и попросить нарисовать по словесному описанию, потом показать картинку другому кожаному, и попросить его описать, ну и так далее. Думаю хватит двух итераций, чтобы "напеть Шаляпина".
Так что шутка не очень смешная.
Но занимательная..
@cgevent
С утра посмотрел интервью-подкаст с Nikolay Savinov, ко-лидом команды тренировки длинного контекста Gemini в Google. Несколько заметок:
— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.
— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.
— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.
— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).
— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?
Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку зрения; если у них выходит, автор награждает их ачивкой – «дельтой» (∆), что на сабе считается символом убедительности и интеллектуальной добросовестности
Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации
Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:
– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры
– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения
С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов
Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность
25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса
В интернете будущего, нейронки будут спорить с нейронками, получается так
OpenAI дали бесплатный доступ к облегчённому Deep Research
Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.
Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.
Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU
@ai_newz
Кстати, Gemini и chatGPT умеют компилировать статьи в формате Latex (кто из академии поймет).
И показывают его в Canvas
Надо просто попросить:
объясни мне формулы для аттрактора Лоренца, используй Latex для написания формул
Gemini отдает правильный код с первого раза, chatGPT (о3) отдал со второго.
Просто просите их отдать файл в формате Латех, а потом идете на
https://www.overleaf.com/ и вставляете (или открываете) там. Жмете Recompile.
П-Профит. В П-Пдф.
@cgevent
Wan 2.1 + Vace
Для к гиков. Похоже, что эта связка далеко пойдет. Опенсорсный (с кодом) контролНет для видео.
Про Vace писал вот тут.
Я удивлен, как он дорисовал глаза, ведь на исходнике они закрыты.
Проблема в тайминге. Wan не умеет в длинные видео.
Но я скора запощу про того, кто умеет в бесконечные видео.
Сурс
@cgevent
Раньше я больше писал про нейрофизиологию, мозг и разные научные штуки. Сейчас, каюсь, немного утонул в череде новых продуктов, фич и красивых картинок с видосами. Обещаю вернуться, есть три поста про психологию.
Кому хочется не бегать по верхам, а залезть вглубь — к основаниям разума, мышления, сознания — есть канал, который тихо копает в эту сторону: @eternalmind.
Там нейробиология, книги, статьи, лекции, старые забытые концепции, редкие находки. Всё, что может быть кирпичиками на пути к сильному ИИ - если подходить к делу не как к гонке, а как к философскому конструктору.
Автор идёт по следам Хокинса, Лекуна, и дальше - туда, где ещё даже нет тропинок. Канал для тех, кто хочет не просто смотреть на то, как обучают модель, а понять, как вообще работает разум.
Пообщались с Павлом, я еще вернусь к его постам, ибо сам не успеваю залезть вовнутрь.
Заходите на @eternalmind