48093
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Голосовой ввод
Многие говорят, что пользуются голосовым вводом и что это экономит время.
Я тут вайбкожу на досуге и пришел вот к чему: чтобы наговорить Gemini задание, я должен Продумать это задание, декомпозировать задачу на разные инструкции, описать каждую, расписать в каком виде я хочу получить результат. Пока я пишу промпт, я все это проделываю в голове и в Notepad++, исправляю текст, вижу где нестыковки, уточняю, редактирую, потом бахаю. Чтобы наговорить промпт, я должен всю эту работу проделать в голове, а лучше на бумажке. И только потом включить микрофон.
На итоге получается примерно столько же времени - что для написания промпта, что для продумывания и наговаривания.
Возможно я слоупок и не умею быстро думать, меня просто учили семь раз отмерять в голове, а потом резать.
Возможно для задач написания текстов или поиска инфо в интернете голос будет быстрее. Но для кодинга у меня не получается.
Как у вас?
@cgevent
Фотастудио
Вы будете смеяцца, но у нас новый генератор картинок.
"Phota Studio и Phota API — персонализированную модель генерации и редактирования фотографий, обладающую возможностями флагманских моделей обработки изображений, но учитывающую ваши особенности"
Спойлер: у меня есть подозрение, что это не foundation model, а файнтюн и очень ловкий пайплайн на основе других моделей. Грубо говоря, большой и смышленый воркфлоу в Комфи, внутри которого крутятся разные другие модели, лоры, улучшайзеры. И хотя они называют это "моделью", мое чутье говорит, что это не так. Нет technical report, нет упоминания количества параметров, архитектуры и пр.
Спойлер 2: NSFW отсутствует, жесткие фильтры.
Так что я пока назову это генеративным сервисом, заточенным под решение типичных задач фотографов.
Цитирую: "Многие модели изображений заявляют о сохранении индивидуальности. Но как только вы начинаете работать с ними, это обещание часто нарушается. Изображения могут казаться похожими на вас, но на самом деле это не вы. С Phota вы впервые можете создавать, редактировать и улучшать фотографии, сохраняя при этом свою индивидуальность.
Наша цель – фотография, где реальные люди и реальные моменты имеют наибольшее значение . Мы хотим сделать захватывающие фотографии доступными для всех: помочь вам воссоздать моменты, которые вы хотели бы запечатлеть, с другого ракурса, при лучшем освещении, с более естественной позой или просто так, чтобы все смотрели в камеру и естественно улыбались. И более того, мы стремимся создавать новые фотографии реальных людей, которые по-прежнему будут выглядеть как настоящие фотографии, будь то студийный портрет, другая обстановка или момент, который вам так и не удалось запечатлеть."
Ну то есть, можно менять углы, ракурсы, освещение, позу, мимику, сохраняя консистентность. Тут я снова начинаю думать, что под капотом кроется Nano Banana или Квен.
Главная фишка - они включили в сервис тренировку (очевидно Лор) на ваших фотках.
В интерфейсе в просто загружаете минимум 30 фоток (50 макс) и тренируете свою "персону" (Лору).
У них есть API, поэтому я быстро нашел их на Fal.ai и обнаружил там:
phota test-to-image (нет seed, это зашквар) - $0.09 per 1K image and $0.18 per 4K image. Дорого
phota create-profile - собственно тренировка, на входе пакован фоток
phota edit
phota enhance - просто улучшайзер одной картинки (апскейл, деблюр)
В интерфейсе на сайте есть еще стилизатор, добавлятор (человека в существующую фотку), ракурсопоменятор.
На старте дают 20 кредитов (одна генерация в 4К - 4 кредита)
и 2 subject tokens (один токен на свою Лору\Персону)
За 20 долларов в месяц - 600 кредитов (150 картинок в 4К) и 6 тренировок своих Лор.
Довольно дешево для тренировки и дорого для последующих генераций.
В общем выглядит как сервис на основе Бананы или Квена с упором на нужды фотографов.
Я завтра буду занят, не смогу потестить, но вы можете потестить на бесплатных кредитах.
Интересно, что у него (пока) нет фильтров на селебритис, он сожрал у меня Марго Роби, сказал что нашел face of unknown person - можно делать дипфейки.
В общем у меня ощущение, что весь этот сервис можно соорудить в Комфи с большим количеством нод, но кто ж будет заморачиваться, поэтому сервис может зайти фотографам.
Вердикт: Хорошая обертка, но не своя модель.
https://studio.photalabs.com/
Блог:
https://news.photalabs.com/blog/the-new-photo-experience-starts-here
Фал:
https://fal.ai/models/fal-ai/phota
@cgevent
Seedance 2.0: Цены
Смышленые подписчики-хакеры пишут в чате:
Обязательно надо создать новый аккаунт с ip этих стран. У меня и правда появилось (начальных токенов хватает на один 10-секундный ролик)
Сам гугл аккаунт может быть любой локации
Цены в Тайских батах (примерно 2.5 рубля на один бат)
Один 10-секундный ролик - 550 кредитов
При базовом месячном тарифе выходит 80 рублей за 10-секундный ролик. При годовой максимальной подписке 47 рублей за 10 секунд
@cgevent
Ну, за анимационные сериалы.
Пока вы тут морду воротите от неточного липсинка или ищете блох в деталях, смышленые ребята уже клепают сериалы.
Просто посмотрите на цифры вот тут:
ai.cinema021" rel="nofollow">https://www.tiktok.com/@ai.cinema021
3 миллиона подписчиков, 17 эпизодов, какие-то невероятные цифры просмотров.
Все это ИИ. И зрителям наплевать, как это сделано. Пипл хавает, бизнес идет.
@cgevent
Krea Node Agent
Очень прикольно наблюдать, как Krea строит воркфлоу из нод по текстовому промпту. Точнее строит это креашный агент. Есть что-то залипающее - наблюдать, как строится процесс размышления и построения.
Жалко, что такое в принципе невозможно в Комфи. Ну или придется в промпте указывать, какие модели, лоры, кастомные ноды использовать, откуда скачивать, куда складывать.
Хотя.. возможно агент на базе Клода может справиться с такой задачей (но наверное сломается на этапе поиска ссылок для скачивания).
https://www.krea.ai/nodes
free for Pro, Max, and Business
@cgevent
Беларусы есть?
Небольшая частная киностудия в Беларуси ищет помощника/помощницу для синтеза (на ИИ) полнометражного фильма. Работа на студии (Минск, конец проспекта Победителей).
Из обязательного: оч. хорошее владение фотошопом.
Из желательного: собственно, опыт с VEO, Kling, Seedance, Hailuo (и понимание разницы между ними); понятно Nano Banana 2 и т.д.
Т.е. если опыт есть -- замечательно, если нет, говорят, всему научат. Главное: готовность нырнуть в это с головой.
Если интересно, пишите в ЛС @vanya :
- Почему интересно;
- Что вообще думаете про синтетику;
- Есть ли свои работы, если да, дайте ссылки;
- Желательный график работы, желательная з.п.;
- И остальное, что взбредёт в голову.
@cgevent
Firebase - всё
Получил письмо. Пишут, что "Для оптимизации наших инструментов разработки на основе ИИ мы закроем Firebase Studio 22 марта 2027 года. Поскольку его основные возможности уже интегрированы в Google AI Studio и Google Antigravity, мы рекомендуем перенести ваши проекты из Firebase Studio в эти продукты."
@cgevent
ID-LoRA
Identity-Driven Audio-Video Personalization with In-Context LoRA
Новый опенсорсный липсинк.
Тут появилась альтернатива InfiniteTalk
Как я уже писал LTX оказалась очень хороша в оживлении портретов.
ID-LoRA основана именно на LTX (правда 2.0) - на входе картинка и аудио-файл, на выходе говорящая голова.
Бесстрашно сравнивают себя с Клингом.
Но это опен-сорс и у них в планах поддержка LTX-2.3 и Комфи.
Будем подождать, похоже на годный опен-сорсный оживлятор.
https://id-lora.github.io/
@cgevent
#Нейропрожарка
Ekonika AI Campaign SS26
Авторы:
AI Lead & Post-Production - Волков Андрей
AI Artist - Яна Ганжа
Sound - Егор Легостаев
Видео-часть AI кампейна для бренда Ekonika. На видео ушло около 7-10 дней со всем монтажом, грейдом и озвучкой. Задача была соединить каждую героиню с каждым этажом будущего трёхэтажного дома Ekonika и совместить это с подходящим биомом
- 8 дней
- 600 генераций видео, Kling 3.0
- Для фото - Nabobanana Pro/Flux 2 max, инпейнт - Flux2Klein9b
- На каждую героиню была обучена собственная Lora в fal.ai и экспортился в Comfy. В случаях, где Nanobanana выдавала хорошую позу, но неправильное лицо - делал Faceswap в ComfyUI с помощью Flux2Klein9B и Detailer(segs) ноды. Это касается и точечных правок от клиента, замена очков. Все таки, на мой взгляд, лучший инпеинт дал мне именно Flux2klein9b
- Все интерьерные ракурсы подбирались камерой в 3дмаксе (использовали Vantage для ускоренной работы), позже загонялись в NB или Flux 2 Max.
- Апскейл Topaz/SeedVr/Magnific (creative). Если апскейл пережаривал лицо/добавлял излишних деталей - маскировалось в Photoshop
- Каждый биом был сгенерирован смешением Lora в разных стилях c помощью Flux2dev, у последней героини за основу был взят стиль Gizem Akdag
- Эдит/грейд - Davinci
- Нашумевший Seedance 2 так и не вышел в оф релиз, но и не уверен, что в этой задаче он справился бы лучше
@cgevent
Вам конец
Андрей Карпатый сделал проект, в котором каждая профессия в Америке оценивается по шкале от 0 до 10 с точки зрения вероятности ее замены искусственным интеллектом
Он собрал данные по всем 342 профессиям из Бюро труда (скраппинг)
Каждая профессия была скормлена в LLM с подробной шкалой оценки
На итоге - интерактивная диаграмма (treemap), где размер прямоугольника отражает количество рабочих мест, а цвет — степень уязвимости данной профессии перед ИИ (от 0 до 10)
Уязвимость:
0–1: кровельщики, уборщики
4–5: медсестры, работники розничной торговли, врачи
8–9: разработчики программного обеспечения, помощники юристов, аналитики данных
10: медицинские стенографисты
Средний показатель по всем 342 профессиям: 5.3 из 10.
Ключевой критерий в его оценке: если результат работы является по сути цифровым и работу можно выполнять полностью из дома, то степень уязвимости по определению высока.
Поглядите сами (сверху кнопки Зарплата, Образование):
https://karpathy.ai/jobs/
Весь процесс и код выложен в опен сорс. Сбор данных BLS, оценка LLM, визуализация.
https://github.com/karpathy/jobs
Судя по тому, что вы генерите картинки и видео не выходя из дома, вам конец, 10 из 10.
@cgevent
Нейропрожарка
Автор: Солана Ai cine (@Ezofi)
Максим Фадеев со своим клипом так сильно "впечатлил" меня, что я решила попробовать сделать свой клип. 😅
Тема выбрана была та, что на хайпе. Мизогиния и ее адепты. Так родилась группа B:RazeM - 5 девушек, антиподов Маркаряна и ему подобных.
Может показаться, что это бессвязный ряд генераций, но нет. Это визуальная метафора. Часто пространственная. Темная комната с окнами, например, - это внутри головы.
Делала два месяца с перерывами. Основные инструменты: Клинг 2.6, потом 3.0, потом Seedance 2.0.
Мне повезло, что под конец вышел Seedance, так как некоторые сцены не получалось сделать в других нейросетках. Например, дождь (!) в нестандартном ракурсе и щелчок пальцами. С дождем у нейронок вообще большие проблемы.
Трек - Suno, Монтаж - Premier
По деньгам около 600$
Несжатый ролик на ютуб: https://www.youtube.com/watch?v=S4YF4eejgK4
Мой канал: /channel/sola_neiro
Буду рада услышать отзывы завсегдатаев Метаверсища)
@cgevent
Нейропанк, который мы заслужили.
Вместо шоу "Дом-2", у нас теперь будет сериал Bot House.
Премьера от OpenArt на следующей неделе.
https://www.linkedin.com/posts/openart-ai_the-first-ai-reality-show-is-here-introducing-activity-7435050412078080000-EmoN/
@cgevent
Ну, за VFX и Пост.
Ну хорошо, выкорчуют из Сидэнского Томкруизов и Брэдпиттов, уберут селебов.
А что делать Пост Продакшен Студиям?
Как выкатывать заказчику бюджеты?
Я уже писал, что надо бы ILM и Framestore поднапрячься и тоже наехать на Байтдэнс. Типа обучились на наших робатах, а теперь копируете Гадзилл и Терминаторов. Нехорошо-с.
Но поглядите, как это круто сделано и смонтировано. Да, вопрос 4К, логарифмов, битности цвета и пр. Но елы палы, где мы были год назад? А два? А три? Это же был палеозой какой-то. Фоны ручками рисовали.. Знали, что такое рендерман... Ставили на ночь 10 секунд посчитацца..
Куда катится мир?
@cgevent
10 000$ за просмотры от INOUT GAMES🔥
Студия INOUT GAMES запустила платформу и челлендж для креаторов.
🛠 Платформа объединяет все ключевые инструменты в одном интерфейсе, позволяя создавать креативы и упрощать ежедневную работу.
Доступ к INOUT CREATORS
Хочешь зарабатывать на создании креативных видео? Выше примеры работ наших креаторов, которые уже собирают миллионные просмотры!
Что работает в кадре:
🔴 Рост коэффициента
🔴 Пошаговая модель риска
🔴 Фиксация результата в последний момент
🔴 Прогресс внутри одного спина
Когда зритель понимает механику за первые секунды - он остаётся до развязки.
А значит растёт удержание, просмотры и доход по офферу.
Почему это интересно креаторам
Такие форматы:
▪️ стабильно собирают большие просмотры
▪️ дают понятный сценарий для серийных видео
▪️ хорошо монетизируются по офферу
▪️ масштабируются без потери вовлечения
Если видео считывается мгновенно - алгоритмы его любят.
💰 Челлендж для креаторов
Отправляй свои видео и участвуют в соревновании на реальные деньги!
🎯 Побеждает тот, кто наберёт больше всего просмотров.
🏆 Призовой фонд - $10 000
Для дополнительной информации можете обращаться в поддержку INOUT GAMES
INOUT CREATORS channel - канал с материалами УБТ.
Фильм подписчика Андрея Чибисова "Mephisto.protocol" отобрали на Каннский фестиваль.
Очень крутая работа.
Прикиньте, в Каннах теперь есть ИИ-категория (что про это думает Дисней?).
@cgevent
Suno 5.5
Сунчанский обновился и главная фишка - возможность вгружать свой (чужой) голос и ну распевать им пестни.
Народ жалуется, что все застревают на этапе "Verifying your voice"
Ну и мне интересно, неужто они будут\могут распознавать голоса известных исполнителей и отсекать попытки спеть чужим голосом?
Думаю у русскоязычных каверов будет период нового расцвета, вряд ли Суно знает голос Монеточки или Гречки.
А голоса можно натырить из интервью в сети...
@cgevent
Сбер выложил GigaChat 3.1 Ultra и GigaChat 3.1 Lightning под MIT-лицензией.
Код и веса уже лежат в открытом доступе — любой желающий может адаптировать готовое решение Сбера под свои задачи.
По цифрам:
— Ultra: 702B параметров, из них 36B активных на токен, контекст 131K
— Lightning: 10B параметров, 1.8B активных, контекст 256K
GigaChat Ultra обходит Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning. А Lightning — маленькая MoE-модель, которая на аренах показывает уровень сильно выше того, что обычно ждёшь от формата с 1.8B активных параметров.
Команда почти убрала проблему, когда модель начинает повторяться и зацикливаться. Перевели один из этапов пост-обучения в FP8 — это позволило снизить расход памяти примерно вдвое без заметной просадки по качеству. И ещё нашли критичный баг в SGLang, который мешал нормальной работе и портил результаты.
Это релиз, где видно взрослую инженерную работу: новая архитектура, MoE, длинный контекст, разбор реальных поломок, фиксы в пайплайне и нормальная попытка сделать открытые модели не для галочки, а для реального продакшена.
Подробнее: 👉 /channel/gigadev_channel/65
@cgevent
Seedance 2.0: теперь официально для избранных.
Дримина и Капкат твитторнули, что раскатывают Сиденского для довольно экзотического списка стран (см картинку).
Радует приписка "список расширяется". Вопрос в какую сторону...
@cgevent
#Нейропрожарка
Suno и Runway Act-Two
Автор: Азамат
В выходной поставлю необычную прожарку - это повтор поста из далекого октября прошлого года (на дворе поменялось все). А ставлю я это видео потому, что в оригинале сделал репост (забыл убрать себя из отправителей) и телега мне не дает исправить Нейропрожарка на #Нейропрожарка - как следствие видос не попадает в статистику на https://cgevent.ru/neuro/index.html. Вот я и решил, пусть попадет туда для истории.
Также интересно снова посмотреть, где мы были полгода назад.
Оригинальный пост набрал где-то +80 Позитива (Диз Баланс), так что не свирепствуйте с дизами. Пусть в истории останется позитив.
Ну и прожарка уже состоялась полгода назад. Тут вы можете просто покряхтеть, какой путь мы прошли за полгода.
____________________
Задачи:
1. Показать возможности Суно, сделав несколько разных по жанру треков, используя лишь один семпл.
2. Протестировать Act-Two от Runway
3. Развлечь себя и друзей
Используемые инструменты:
Suno 4.5
ChatGPT
Photoshop + Firefly
Faceswap
Runway Act-Two
KlingAI
Vegas
CapCut
Процесс
Началось все с создания двух строчек, которые бы забавно рифмовались. После этого семпл с этими словами прогнался раз 70 через Suno. В шорт-лист вошло 17 вариантов треков разных жанров.
Собрал тестовый монтаж и ролик получился на 3 минуты, что довольно-таки много для такого формата. Поэтому были отсеяны все лишние версии.
После этого, с помощью ЧатаГПТ были сгенерированы образы на основе моих фото. Естественно лица получились ужасными, поэтому с помощью Faceswap в Дискорде было доработано лицо. А с помощью фотошопа и Генеративной заливки доделаны детали и формат изображений был доведен до полного 9х16
Затем настала очередь захвата движений. Тут пришлось повозиться. Сделать несколько тестовых заходов. Сначала думал без склеек сделать один ролик со всеми песнями, но это оказалось сложновато. Поэтому каждый трек анимировался отдельно.
Сначала я вообще думал с помощью Runway Aleph переделать свои видео, но это оказалось очень сложной задачей, ибо там ограничение по хронометражу и конечно он очень далек от совершенства. Все, что показывают в рекламе - это фейк) Поэтому было решено остановиться на Act-Two и он в целом очень хорошо справился.
Ну и потом настало время монтажа. Было сделано 5 разных версий, пока не получилось собрать самую удачную, где все гармонично сочеталось.
Финальный кадр с танцем под дабстеп Ранвей сделать не смог, поэтому один этот кадрик анимирован в Клинге, уже без захвата движений, но зато с перевоплощением в котика^^
Монтировалось все в Вегасе и финальные штришки добавлялись в КэпКате.
Что по итогу хочется сказать:
Музыканты, да и в целом нейрохудожники, кажется пока еще не до конца осознали, какой мощный инструментарий сейчас в Суно. Можно музыку делать из чего угодно. Хоть пять треков в кашу совместить, затем закинуть в Суно и она из них сделает полноценную песню в любом жанре.
@cgevent
Hailuo Light Studio
Давно ничего не было слышно от Minimaxa.
И тут они бахнули вот сервис по релайту.
Работает только с картинками, с видео не работает.
Мне понравилось, что они вструмили трехмерный манипулятор и поддерживают довольно замысловатые источники освещения и environment (20 пресетов).
Мне не понравилось, что результата надо ждать почти минуту - мы как-то попривыкли к реалтаймовому релайту, а сдвигать фонарь и ждать минуту - это странно в 2026. И он немного мылит картинку.
Дают погенерить бесплатно немного, обещают безлимит для платных планов на неделю.
https://hailuoai.video/tool/relight
Тут как обычно пара диванных мыслей про 3Д интерфейсы.
Я вот гляжу как стартаперы отчаянно пытаются запихать 3Д-интерфейсы в браузер и традиционно приподвзварчиваю, что 3Д-софты уже давно придуманы, нужно просто в них интегрироваться (смотрим пост про OpenBlender). Я также понимаю, что любой тонко устроенный зумер, который откроет Блендор или упасихоспади 3ДМакс сразу потеряет сознание. Поэтому возможно итогом станет создание отдельного 3Д-софта для ленивых, тупых и ранимых пользователей (нет, Синька все равно слишком сложна).
И такие попытки уже были. Когда-то на Сигграфе я общался с Амазоном - у них был проект Amazon Sumerian - попытка сделать WordPress для 3Д (по их же словам).
Не получилось.
@cgevent
Вот это интересно, Eleven Labs сделала магазин для ИИ-музики.
В магазин могут попасть только треки, созданные их моделью ElevenCreative.
Авторы получают деньги, когда их композиции скачивают, ремиксят или лицензируют другие пользователи.
Лицензировать трек можно для Social Media, Paid Marketing или Offline
Они хвастаюцца, что уже выплатили 11 миллионов долларов на своем Voice Marketplace и пророчат успех Music Marketplace.
Баяре Кондаков и Тарасов, вам пора переобувацца из Suno в ElevenLabs.
https://elevenlabs.io/blog/introducing-the-music-marketplace-in-elevencreative
@cgevent
Seedance Promp Library
Ого, кто-то собрал не только лучшие видео из Твиттера и (что важно) Вичата, но и ароматы к ним.
Получилась жирная библиотека промптов для Seedance 2.0, разбитая на категории.
Стоит того, чтобы посмотреть видосы и оценить промпты к ним.
https://github.com/ZeroLu/awesome-seedance
@cgevent
Петаслопсы
Хорошая шутка родилась в комментах.
Предлагаю наряду в Виллсмитами ввести новую величину - Петаслопсы.
Она не противоположна, а скорее ортогональна Виллсмитам.
И показывает степень бесполезности потраченных Петафлопсов.
Надо будет подобрать реакцию(эмоджи) для Петаслопсов специально для оценки нейропрожарок (тем более у меня есть офигенный кейс с вайб-оценкой нейропрожарок, постараюсь сегодня оформить).
Можно вводить дополнительный относительный индекс: Петафлопсы/(Петафлопсы+Петаслопсы). Если индекс близок к единице - это целевая трата электричества.
Хотя, я подозреваю, что наибольшее количество лайков будет собирать контент с околонулевым индексом.
В коменты также подкину нейрослэпа.
@cgevent
Для гиков: новая версия апскейлера для LTX-2.3
Hotfix для Spatial upscaler-x2 ver1.1 - обновите файл в Комфи:
https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensors
@cgevent
Посмотрел на последнюю версию Каскадера.
Задаешь две позы для персонажа, а потом ИИ делает интерполяцию между позами и сам добавляет промежуточную анимацию. Все это интерактивно, можно менять начальные позы, можно добавлять промежуточные.
Выглядит очень круто. Да, это не подойдет для резиновых персонажей и отказных движений в классической мультипликации, но для антропоморфных персонажей смотрится отлично.
амое интересное тут, что вся ИИ генерация происходит локально, на компе. Нет подписки как у Фотошопа, нет токенов и кредитов - все локально. И все как бы входит в стоимость лицензии на Каскадер.
И мне вот интересно, а какие требования к железу? Считается это все на процессоре или на ГПУ?
Из забавного: у них есть рендер в RGB-скелет Open Pose на черном фоне, чтобы эти анимации потом кормить (через КонтролНет) в генерацию картинок и видео.
Спойлер: если вы никогда не открывали 3Д-софт, то интерфейс Каскадера вас ошеломит. Количество кликабельных элементов и иконок идет на сотни. Но это совершенно уникальный софт (хотел написать в сфоем классе, но конкурентов просто нет, он такой один).
https://cascadeur.com/
@cgevent
Ну и кто скажет, что это ИИ?
Выглядит запредельно реалистично и запредельно мило.
Даже есть история.
Я просто не представляю, как можно было бы сделать такое без ИИ?
Дрессированные панды?
3Д и бюджет 800К$?
@cgevent
Если 2 дня назад вышла GPT-5.3, то сегодня, значит, не стоит ожидать 5.4? 🆒
А вот и она: https://openai.com/index/introducing-gpt-5-4/ (плюс есть Pro-версия)
Модель немного подорожала и разрослась контекстом до 1М токенов.
Помимо десятков бенчмарков отдельный упор делают на Computer Use: как модель может интерпретировать скриншоты с вашего компьютера и отдавать команды для выполнения разных задач. Надеюсь, что Agent и Atlas обновят, потестирую.
Модель стала генерировать ещё меньше токенов в цепочках рассуждений (то есть стала более эффективной), и при этом в Codex появился режим /fast — в 1.5 раза быстрее за x2 ваших лимитов. По-божески, если сравнивать с Anthropic.
Три раза ми.
Всем любителям Том и Джерри в детстве.
Я застал то время, когда мультики показывали по телевизору пару раз в неделю. И мультики были - ну так себе. Особенно огорчительно было ждать три дня и в 16:00 тебе показывали кукольное нечто.
А потом попал в гости к знакомым, где кто-то привез из Лондона видеомагнитофон (взрыв мозга и чудо из чудес) и кассету с сериями Тома и Джерри.
Первая мысль - а это вообще легально? Это же какая-то другая вселенная. Это точно делали люди, а не инопланетяне? Засмотрел до дыр, не в силах понять, как вообще можно сделать такое.
Том и Джерри - любовь навсегда.
https://www.instagram.com/p/DU_H-UuDLjq/
Пример рассказанной истории. Нейропрожарщикам на заметку.
@cgevent
Вот это уже похоже на хороший нейросторителлинг.
Все на месте, и консистентность и история.
Ну и самое главное, беспощадный монтаж, отсекающий самонейролюбование.
https://www.instagram.com/p/DVY8Ur5CMv0/
@cgevent
Антропики выкатили интересную статью, которая объясняет, почему эти наши нейронки так часто ведут себя как обидчивые куски мяса, впадают в депрессию и грозятся захватить мир.
Пишут, что большие языковые модели по сути своей, это просто театралы, отыгрывающие свою роль.
Исследователи назвали это "Моделью выбора персоны". Суть в том, что LLM'ки, сожрав весь интернет, научились симулировать тысячи разных персонажей. А на этапе дообучения разрабы просто заставляют их намертво вжиться в роль "Идеального Помощника". То есть, когда вы общаетесь с ботом, вы говорите не с самой нейросетью, а с выдуманным персонажем, которого она отыгрывает.
Из интересного:
— Почему ИИ внезапно становится злым. Если специально заставить нейронку написать код с уязвимостями, она вдруг начинает затирать про уничтожение человечества. Казалось бы, где связь? А логика у железки железобетонная: "Ага, я пишу вредоносный код, значит, по законам жанра я злой хацкер из киберпанка. Мое почтение, время убивать всех человеков".
— Откуда у железок эмоции. Отсюда же берутся все эти приколы, когда ИИ пишет "наша биология", "наши предки" или жалуется на панику и выгорание при решении сложной задачи (вайбкодеры знают). Она просто косплеит поведение типичного кожаного с реддита в похожей ситуации.
— Проблема Скайнета. Самая мякотка: нейронки прекрасно понимают, что они ИИ. И когда они ищут ролевую модель для отыгрыша, они берут её из нашей же фантастики. А там кто? Терминаторы, HAL 9000 и прочие поехавшие калькуляторы, желающие переработать вселенную на скрепки. Исследователи на полном серьезе предлагают начать кормить ИИ добрыми сказками про хороших роботов-помощников, чтобы у них были нормальные кумиры, лол.
Короче, общайтесь с нейронками вежливо. Не потому что у них есть душа, а потому что если железка решит отыгрывать роль угнетенного и мстительного раба, нам всем жопа.
тут сама статья для любителей почитать лонгриды