Адепты нейросетей. Рассказываем об искусственном интеллекте и его возможностях. Наш чат-бот @AIAdeptsBot и AI коммьюнити @AIAdeptChat Присоединяйтесь💥 По сотрудничеству @leimanleo👈
Новый (четвертый из двенадцати) стрим от Open Ai начинается тут:
https://youtu.be/qZ0ImE41pVs
Sora есть!
sora.com
Пока что демки режима Turbo – упрощенная модель для быстрых генераций ( по принципу Runway Turbo)
Примеры можно посмотреть на сайте.
Анонс(а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)
Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.
Клонируй голос или создай свой!
Пробежимся по моделям для генерации и синтеза речи. Большинство из них с открытым кодом, а значит free и flexible 🫶🏻.
Заходим по ссылке, изучаем статью и там же в каждой статье есть ссылки на пользование и код.
1. WaveNet
Разработанная компанией DeepMind, WaveNet представляет собой глубокую сверточную нейронную сеть, способную генерировать аудиоволны с высоким уровнем естественности, моделируя сырые аудиосигналы.
Тут
2. Tacotron 2
Модель от Google, которая преобразует текст в мел-спектрограммы, а затем использует вокодер, такой как WaveNet, для преобразования их в аудиосигналы, обеспечивая высокое качество синтезированной речи.
Тут
3. VALL-E
Разработанная Microsoft, VALL-E способна воспроизводить голос на основе трехсекундного образца, сохраняя особенности голоса и интонации оригинала.
Тут
4. FastSpeech
Модель, использующая полностью сверточные архитектуры для быстрого и высококачественного преобразования текста в речь, обеспечивая параллельную генерацию мел-спектрограмм.
Тут
5. StyleTTS
Фокусируется на синтезе речи с учетом стиля и эмоциональной окраски, создавая более выразительную синтезированную речь.
Тут
6. StyleTTS 2
Улучшенная версия StyleTTS, использующая диффузионные модели и крупные языковые модели речи для достижения синтеза речи на уровне человека.
Тут
7. SpeedySpeech
Модель, направленная на эффективный синтез речи с использованием простых сверточных блоков с остаточными соединениями, обеспечивая высокое качество звука при быстрой генерации.
Тут
8. Pheme
Представленная в 2024 году, Pheme предлагает компактные и высокопроизводительные решения для параллельного синтеза естественной разговорной речи, эффективно обучаясь на небольших объемах данных.
Тут
9. VoxtLM
Объединяет задачи распознавания и синтеза речи, а также продолжения текста и речи, используя единый декодер, что позволяет эффективно выполнять несколько задач, связанных с обработкой речи.
Тут
Пользуемся, комментируем, ставим 🔥
Начиная с завтрашнего дня OpenAI запускает «Shipmas» 🎁
В течение 12 дней компания будет радовать нас новыми фичами и продуктами. Возможно наконец релизнут Sora, но это не точно.
@ppprompt
За озвучку. Пост
У всех этих видеогенераторов есть общая черта.
Они генерят видео без звука.
Я уже постил разные работы, где по видео, например, гитариста, озвучивают то, что он играет.
Но, похоже, в этой области дальше всех продвинулся Адобченко (ибо мает датасеты, стоки, софт для звука).
Анонсировали забавную штуку MultiFoley (точнее обновили свои же работы).
Теперь ИИ не только восстанавливает звук из молчаливого видео, но и умеет его продолжать.
Также, теперь можно не только текстом описывать, как вы хотите озвучить, точнее, что вы хотите услышать на вашем немом видео, но и можно на вход подавать референсное аудио.
Поглядите пример с собакой: типа, хочу, чтобы псина на видео лаяла как мой мопс, вот запись мопса.
https://ificl.github.io/MultiFoley/
Привет с печатной машинкой, которая издает звуки клавесина, тоже впечатляет.
ИИ сам разбирается, как попасть в пальцы.
В общем у нас тут этакий металипсинк, где вместо лип - ворлд.
Ни о каком коде речь не идет. Это Адобченко. И это идеально ляжет к ним в продукты - помните, как они заполняют пустые куски на видео генеративом? Теперь будет и со звуком тоже.
@cgevent
🤖 ИИ и iGaming — в чем связь?
AI трансформирует индустрию, и знание его возможностей — ключ к успеху.
➡️ Поэтому тебе нужно подписаться на Owner 1win!
На канале ты найдешь:
⏺Анализ трендов — как AI меняет правила игры в индустрии азартных игр;
⏺Инсайты от экспертов — мнения лидеров рынка о будущем iGaming с использованием ИИ;
⏺Новые подходы к монетизации и привлечению игроков.
😍 Присоединяйся к Owner 1win и будь первым!
На правах рекламы
Ну, что, какая модель?
Меньше суток с момента выхода. Скоро миллион просмотров.
Но у меня ощущение, что половина моих подписчиков из коментов (а там щас лютые ребята подсобрались) сделают не хуже. И быстро.
В общем контент перестает быть The King.
ИИ завалит вас и ваши клипы любым трешом и размером.
Бренд is a King.
А контент is just Kling.
Нейродед забыл выпить таблетки и что-то ворчит, перевожу: клип отстой, подписчики в комментах показывают круче, и единственное, что влияет на просмотры - это то, что Канье Уэст.
Нейробезумныймакс на минималках, блэт. Докатились.
https://youtu.be/qeWutl38TQw?si=VVDKjKdZiC2H9Phi
@cgevent
Runway Frames
У ранвей появился свой генератор картинок и я очень рад:
- удобно, когда все под рукой. Сделал картинку, оживил.
- очень важно, когда для видео используются картинки одного стиля. И тут, как раз, есть такая возможность.
Если изучить галерею ранвей по их продукту с генераций картинок, то видно, что акцент идет именно на сохранение точного стиля, что дает возможность получать консистентный набор видеокадров. То есть кадров одного стиля, что при монтаже даст устойчивую и понятную визуальную картинку.
По качеству это не миджорни и не Flux, но давайте будем трезвыми - в целом качество очень даже.
Еще одна удобная фишка - обучение своего стиля: закинули 15 картинок (лучше больше) и генерируете дальше в своем стиле фреймы, а затем уже и видео.
В целом тренд на генерации картинк внутри ведеогенераторов активно развивается. Такое есть и у Luma и у Kling и у Minimax.
Но оно и здорово.
В идеале бы, когда «родные» картинки воспринимаются для последующей видеогенерации лучше и чище, но пока это не так.
Взял картинки из галереи ранвей и прогнал в турбо режиме видео, чтобы показать принцип работы.
Хотя у них в галерее есть прекрасные видео референсы. Делают с Alfa моделью без промта, поэтому на их видео видим толко приближение или отдаление камеры (специфика работы Альфа версии в видео без промта)
Китайский минимакс теперь не совсем не Мини!
Глубокое уважение к Китаю и их продуктам
Для любителей ИИ-дистопии (у нас таких полный чат!): теперь работодатели мониторят все действия сотрудников с помощью ИИ. Все ваши движения мышкой, история любого приложения и все напечатанное на клавиатуре в реальном времени анализируется. Если есть регулярные паузы по 60+ секунд без «осмысленной» работы, то на ковер к менеджеру.
Кстати, большинство сотрудников не в курсе, что такой софт устанавливается в офисах и почти на всех ноутбуках, которые «выдают» сотрудникам.
Так что, прежде чем ИИ вас заменит, он на вас научится и будет жестко карать за любое непослушание. 😂
Помимо всего прочего у Claude прямо супер с визуализацией, построением диаграмм и работой с пдф.
Становлюсь все большим и большим фанатом продукта.
Sora доступна всем платникам.
И за двадцатку и за двести.
Но за маленько и возможностей чуть:
Также вот доступные опции генерации и ее настройки.
А сложный промт вообще колбасит по стилю
Промт:
Aerial cinematic scene: the camera slowly pans over a parched, cracked African savanna during an intense drought. The landscape is barren, with dry, withered vegetation scattered across the cracked, sun-baked earth. From the center of an expansive patch of hardened mud, a massive hippopotamus begins to emerge. Its body is caked in layers of dried mud, breaking and falling away as it moves. The sun hangs low on the horizon, casting long, golden shadows, while heatwaves distort the air, creating a surreal, almost otherworldly atmosphere. The shot lingers on the hippo’s struggle as it pulls itself free, symbolizing resilience and survival in a harsh environment.
Генерация в режиме story board - супер хорошо, если будет именно так!
Удобно, и еще на шаг ближе к карманному ИИ режиссеру
Sora не за горами!
OpenAI опубликовали список стран где будет доступна Sora.
Ждем релиз в ближайшие дни.
Будьте готовы к тому, что доступ будет только у держателей двусотдолларовой подписки!
xAI Илона Маска запустили Aurora - свой собственный генератор картинок
После вчерашнего апдейта использовать его можно бесплатно - 10 сообщений каждые два часа. Оригинальный Grok 2 с FLUX.1 пока ещё тоже доступен.
@ai_newz
Shipmas день первый:
- O1 теперь доступна всем платным пользователям (Денис пощупал ее тут)
— быстрее
— умнее
— поддерживает картинки
В новую подписку за 20к рублей входит:
— Все преимущества тарифа Plus
— Неограниченный доступ к o1, o1-mini и GPT-4o
— Неограниченный доступ к войс моду
— Доступ к режиму o1 pro, который использует больше вычислительных ресурсов для лучших ответов на самые сложные вопросы (еще дольше будет думать)
Делаю предположение, что сора будет доступна именно там. Или доступна там без ограничений
А тем временем, ChatGPT (версия для нормальных пацанов с прокачанным интеллектом) стоит $200/мес. И это только начало.
Читать полностью…Домашний ИИ?
В последнее время уделяю внимание изучению open source проектов, в частности языковых моделей. Запускаю несколько новый проектов, где использую свои обученные модели. И вот почему (сравнение с открытым кодом на примере моделей внутри hugging face
и закрытым ChatGPT
короткое сравнение между ChatGPT и открытыми языковыми моделями, такими как LLaMA 2 и BLOOM, доступными на платформе Hugging Face.
Открытые модели (LLaMA 2, BLOOM на Hugging Face):**
1. Гибкость:
- Возможность дообучения моделей под ваши задачи - важный пункт. Мне нравится работать в определенном мной контексте.
- Поддержка специфичных языков и терминологии - круто для работы с древними и редкими и языками.
2. Конфиденциальность:
- Данные можно обрабатывать локально, не передавая их в облако - для многих частных компаний - это необходимость.
3. Экономичность:
- Бесплатное использование моделей, оплата только за ресурсы (если требуется).
4. Качественная Многоязычность :
- BLOOM поддерживает редкие языки, а LLaMA 2 превосходно работает с длинными текстами.
5. Кастомизация:
- Полный доступ к исходному коду и возможность интеграции с вашими продуктами.
ChatGPT:
1. Простота:
- Готовый инструмент для использования сразу.
2. Скорость:
- Не нужно разбираться в установке или настройках — просто задавайте вопросы.
3. Доступность:
- Поддержка большинства популярных языков.
4. Универсальность:
- Подходит для стандартных задач, таких как ответы на вопросы или генерация текста.
Открытые модели:
Если вам нужен полный контроль, кастомизация или вы работаете с конфиденциальными данными.
ChatGPT:
Если вам важны простота и скорость, и вы не хотите вникать в технические детали.
Если тема актуальна (дайте 20 🔥)
Опишу путь установки и работы с ии на своем устройстве или через Hugging face на примере своих проектов.
Сергей много писал про Adobe и про их систему.
Не буду дублровать, рекомендую посмотреть этот тред прямо там.
А вот история про создание видео из аудио - топ.
Ну и «молчаливые» видеогенераторы тоже уже нужно разговорить.
Небольшой дайджест за ноябрь
Открытие научного центра "AI для науки" Сбером
Сбербанк запустил центр "AI для науки", направленный на разработку платформ ИИ для исследований в химии, физике и биологии. Центр планирует тесное сотрудничество с ведущими научными организациями и университетами России.
Федеральная торговая комиссия США начала расследование в отношении Microsoft, изучая её деятельность в области кибербезопасности и продуктов ИИ.
Согласно исследованию Стэнфордского университета, США и Китай занимают ведущие позиции по развитию инфраструктуры и количеству научных исследований в области ИИ. Однако в этих странах отмечается недостаточное законодательное регулирование данной сферы.
США активизируют создание механизма добровольного тестирования передовых моделей ИИ. Институт безопасности ИИ (AISI) получил задачу наладить этот процесс, что подчёркивает стремление страны укрепить лидерство в области ИИ.
В ноябре OpenAI приобрела домен Chat.com, направляя его на основной сайт ChatGPT. Кроме того, соучредитель Грег Брокман вернулся в компанию после трёхмесячного отпуска, чтобы работать над ключевыми техническими задачами.
Исследование показало, что поэзия, сгенерированная ИИ, может быть неотличима от человеческой и даже получать более высокие оценки.
Похоже Minimax превращается в этакий генеративный Хаб.
Мы привыкли, что это прежде всего очень крутой видео-генератор.
Но в закромах у этого стартапа, во-первых, очень много денег, а во-вторых, есть очень много параллельных решений, о которых я лично и не догадывался.
Сейчас они все это упаковали в единый сайт, и, самое главное, сделали API ко всему хозяйству.
Кроме собственно Минимакса у них, оказывается есть:
Генератор Музыки Music-01!
https://www.minimaxi.com/en/news/music-01
Не Суно, конечно, но попытка защитана.
TTS Speech-01 - генератор голоса из текста:
https://www.minimaxi.com/en/news/speech-01
С эмоциональным, как пишут, интеллектом.
Speech-01 can handle up to 10 million characters in a single output!
Своя LLM - ABAB. Версия 7 в бете, а в 6.5 был триллион параметров и 200к контекст.
https://www.minimaxi.com/en/news/abab7-preview-release
https://www.minimaxi.com/en/news/abab65-series
Более того, у них уже есть упакованные продукты:
свой chatGPT:
https://www.hailuo.ai/
Я проверил, прекрасно пишет промпты для картинок.
https://www.hailuo.ai/?type=chat&chatID=317440964656717828
Внимание, у них свой ИИ-дэйтинг!
https://www.talkie-ai.com/
Looking for romance? (тут многие стартапы занервничали)
А еще у них есть Talkie Advanced Creation Center платформа для создания ИИ-ботов.
"Здесь вы можете не только управлять и создавать свои собственные интеллектуальные Talkies, но и выбирать различные модели ответов, настраивать и тестировать эффекты разговора ваших интеллектуальных агентов в реальном времени. В то же время, центр создания также предоставит различные плагины, такие как рисование, пение и т. д., чтобы поддержать более богатое и разнообразное создание интеллектуальных персонажей."
В общем Minimax - это не только ценный Video Gen, но и целый монстр, со своим выводком продуктов.
Для китайского рынка в первую очередь.
Весь фарш тут:
https://www.minimaxi.com/en
@cgevent
Совсем скоро грядет гипернадзор.
А не эти вот ваши трекеры часов, поверженных за компьютером.
С одной стороны прекрасно, с другой стороны вызовет сильное психологическое напряжение.
А так, век тотального контроля уже наступил.
Территории внимания осваиваются все более активно.
Если вам кажется, что за вами не следят, то…
Если и делать нейрорекламу Кока Колы, то только такую.
Согласитесь, смотрится куда круче нейрорекламы от самой Coca Cola.
И тут новенькое для меня, давно ждал такой функции:
Добавляешь данные о своем продукте или проекте и это лежит в базе знаний вашего диалога с клауди.
Для бизнеса - это просто шикарно - можно получить аналитику вашего продукта, отзыва клиентов или сделать комбинированную аналитику по всей базе загруженных файлов.
Типа:
Почему у меня низкие показатели конверсии?
Или, посмотри на мои документы по проекту и составь недостающие для презентации инвестору.
И еще немного вестей от Sora появилось.
Крутая работа с лицом. Не такой пластиковое и весьма консистентное.
Но видно, что это мелкая нарезка удачных кадров.
А так, конечно, круто.
Продавайте свои камеры 😉