Адепты нейросетей. Рассказываем об искусственном интеллекте и его возможностях. Наш чат-бот @AIAdeptsBot и AI коммьюнити @AIAdeptChat Присоединяйтесь💥 По сотрудничеству @leimanleo👈
Крутейшее применений ИИ
Вот вам и монетизация и ручки на месте и пользы куча
Shipmas day six.
На шестой день анонсов показали голос Санта-Клауса и продвинутую модель управления голосом и работу с видео - типа расскажи правильно ли я завариваю кофе.
https://www.youtube.com/live/NIQDnWlwYyQ?si=76dD1m1fLMXFh0fF
На пятый день анонсов
Open Ai рассказывают про интеграции с iOS/MacOS:
Можно через Siri взаимодействовать с ChatGPT, в том числе в через камеру.
На маке можно передавать скриншот или текущий документ для анализа в 1 клик
Смотрим тут
Но лучше почитать мой пост выше 😉
Ютуб с переводом!
YouTube запустил автоматический перевод видео.
Работает не для всех, но некоторые авторы добавляют такую функцию к своему контенту.
Липсинка нет, качество перевода ниже чем работа сторонних сервисов по данной тематике.
Пока очень слабо.
Пример тут, тык
Новый (четвертый из двенадцати) стрим от Open Ai начинается тут:
https://youtu.be/qZ0ImE41pVs
Sora есть!
sora.com
Пока что демки режима Turbo – упрощенная модель для быстрых генераций ( по принципу Runway Turbo)
Примеры можно посмотреть на сайте.
Анонс(а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)
Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.
Клонируй голос или создай свой!
Пробежимся по моделям для генерации и синтеза речи. Большинство из них с открытым кодом, а значит free и flexible 🫶🏻.
Заходим по ссылке, изучаем статью и там же в каждой статье есть ссылки на пользование и код.
1. WaveNet
Разработанная компанией DeepMind, WaveNet представляет собой глубокую сверточную нейронную сеть, способную генерировать аудиоволны с высоким уровнем естественности, моделируя сырые аудиосигналы.
Тут
2. Tacotron 2
Модель от Google, которая преобразует текст в мел-спектрограммы, а затем использует вокодер, такой как WaveNet, для преобразования их в аудиосигналы, обеспечивая высокое качество синтезированной речи.
Тут
3. VALL-E
Разработанная Microsoft, VALL-E способна воспроизводить голос на основе трехсекундного образца, сохраняя особенности голоса и интонации оригинала.
Тут
4. FastSpeech
Модель, использующая полностью сверточные архитектуры для быстрого и высококачественного преобразования текста в речь, обеспечивая параллельную генерацию мел-спектрограмм.
Тут
5. StyleTTS
Фокусируется на синтезе речи с учетом стиля и эмоциональной окраски, создавая более выразительную синтезированную речь.
Тут
6. StyleTTS 2
Улучшенная версия StyleTTS, использующая диффузионные модели и крупные языковые модели речи для достижения синтеза речи на уровне человека.
Тут
7. SpeedySpeech
Модель, направленная на эффективный синтез речи с использованием простых сверточных блоков с остаточными соединениями, обеспечивая высокое качество звука при быстрой генерации.
Тут
8. Pheme
Представленная в 2024 году, Pheme предлагает компактные и высокопроизводительные решения для параллельного синтеза естественной разговорной речи, эффективно обучаясь на небольших объемах данных.
Тут
9. VoxtLM
Объединяет задачи распознавания и синтеза речи, а также продолжения текста и речи, используя единый декодер, что позволяет эффективно выполнять несколько задач, связанных с обработкой речи.
Тут
Пользуемся, комментируем, ставим 🔥
Начиная с завтрашнего дня OpenAI запускает «Shipmas» 🎁
В течение 12 дней компания будет радовать нас новыми фичами и продуктами. Возможно наконец релизнут Sora, но это не точно.
@ppprompt
За озвучку. Пост
У всех этих видеогенераторов есть общая черта.
Они генерят видео без звука.
Я уже постил разные работы, где по видео, например, гитариста, озвучивают то, что он играет.
Но, похоже, в этой области дальше всех продвинулся Адобченко (ибо мает датасеты, стоки, софт для звука).
Анонсировали забавную штуку MultiFoley (точнее обновили свои же работы).
Теперь ИИ не только восстанавливает звук из молчаливого видео, но и умеет его продолжать.
Также, теперь можно не только текстом описывать, как вы хотите озвучить, точнее, что вы хотите услышать на вашем немом видео, но и можно на вход подавать референсное аудио.
Поглядите пример с собакой: типа, хочу, чтобы псина на видео лаяла как мой мопс, вот запись мопса.
https://ificl.github.io/MultiFoley/
Привет с печатной машинкой, которая издает звуки клавесина, тоже впечатляет.
ИИ сам разбирается, как попасть в пальцы.
В общем у нас тут этакий металипсинк, где вместо лип - ворлд.
Ни о каком коде речь не идет. Это Адобченко. И это идеально ляжет к ним в продукты - помните, как они заполняют пустые куски на видео генеративом? Теперь будет и со звуком тоже.
@cgevent
🤖 ИИ и iGaming — в чем связь?
AI трансформирует индустрию, и знание его возможностей — ключ к успеху.
➡️ Поэтому тебе нужно подписаться на Owner 1win!
На канале ты найдешь:
⏺Анализ трендов — как AI меняет правила игры в индустрии азартных игр;
⏺Инсайты от экспертов — мнения лидеров рынка о будущем iGaming с использованием ИИ;
⏺Новые подходы к монетизации и привлечению игроков.
😍 Присоединяйся к Owner 1win и будь первым!
На правах рекламы
Ну, что, какая модель?
Меньше суток с момента выхода. Скоро миллион просмотров.
Но у меня ощущение, что половина моих подписчиков из коментов (а там щас лютые ребята подсобрались) сделают не хуже. И быстро.
В общем контент перестает быть The King.
ИИ завалит вас и ваши клипы любым трешом и размером.
Бренд is a King.
А контент is just Kling.
Нейродед забыл выпить таблетки и что-то ворчит, перевожу: клип отстой, подписчики в комментах показывают круче, и единственное, что влияет на просмотры - это то, что Канье Уэст.
Нейробезумныймакс на минималках, блэт. Докатились.
https://youtu.be/qeWutl38TQw?si=VVDKjKdZiC2H9Phi
@cgevent
Runway Frames
У ранвей появился свой генератор картинок и я очень рад:
- удобно, когда все под рукой. Сделал картинку, оживил.
- очень важно, когда для видео используются картинки одного стиля. И тут, как раз, есть такая возможность.
Если изучить галерею ранвей по их продукту с генераций картинок, то видно, что акцент идет именно на сохранение точного стиля, что дает возможность получать консистентный набор видеокадров. То есть кадров одного стиля, что при монтаже даст устойчивую и понятную визуальную картинку.
По качеству это не миджорни и не Flux, но давайте будем трезвыми - в целом качество очень даже.
Еще одна удобная фишка - обучение своего стиля: закинули 15 картинок (лучше больше) и генерируете дальше в своем стиле фреймы, а затем уже и видео.
В целом тренд на генерации картинк внутри ведеогенераторов активно развивается. Такое есть и у Luma и у Kling и у Minimax.
Но оно и здорово.
В идеале бы, когда «родные» картинки воспринимаются для последующей видеогенерации лучше и чище, но пока это не так.
Взял картинки из галереи ранвей и прогнал в турбо режиме видео, чтобы показать принцип работы.
Хотя у них в галерее есть прекрасные видео референсы. Делают с Alfa моделью без промта, поэтому на их видео видим толко приближение или отдаление камеры (специфика работы Альфа версии в видео без промта)
🔵 Предыстория: У меня в телеге тысячи! непрочитанных и неотвеченных сообщений, скорее всего у вас также. Большинство из них с запросами на партнерства, запуски проектов, маркетинг, да и просто обычные вопросы от пользователей наших продуктов. Все это наверно сотни тысяч долларов упущенных возможностей.
⚠️ Но кто это все должен разбирать, квалифицировать, общаться, договариваться? Не доверишь же ты свой личный телеграм трем ассистенткам.))
Ну и решил я все это автоматизировать через AI Telegram бота, и тут понеслось)) 📱📱📱
Спустя 20.000 строк кода родился полноценный AGI бот-ассистент для Телеграм, который за меня может вести все переписки и делать практически что угодно:
- общаться на любые темы
- квалифицировать лидов и их потребности
- вести переговоры и договариваться в свою пользу
- назначать встречи и звонки
- и даже продавать сервисы и принимать платежи
Ну и конечно же я не поленился добавить в него все последние фишки AI:
- Загрузка любых данных (doc, md, pdf, csv) — бот “запоминает” всё, что нужно.
- Голосовые сообщения — можно добавить свой голос, и бот сможет общаться голосовыми за вас.
- Самые мощные AI-модели (#OpenAI, #Anthropic) под капотом.
- Полный контроль и гибкая настройка инструкций и интеллекта под ваши задачи и цели.
- Доступ в интернет для поиска нужной информации
- Безопасность на уровне самого Telegram — бот работает только с теми чатами, которые вы ему разрешите.
Google Gemini 2 вышел!
Мультимодальность
Модель изначально создана для работы с различными типами данных: текст, изображения, видео, аудио и даже сложные научные графики. Например, вы можете загрузить изображение, и Gemini 2 не только опишет его, но и ответит на вопросы о содержимом.
Гибкость и настройка
Упор сделан на адаптацию под конкретные задачи и интеграцию в бизнес-процессы. Пользователи могут обучать модель под свои нужды, создавая специализированные решения.
OpenAI также предлагает возможности настройки через API (например, Fine-Tuning), в этом направлении Google Gemini 2 предоставляет более интуитивные инструменты для индивидуализации.
Скорость и эффективность
Использует более оптимизированные алгоритмы, что делает работу модели быстрее и требует меньше вычислительных ресурсов в сравнении с тем же ChatGpt
Интеграция с экосистемой
Полностью интегрирован с продуктами Google (Docs, Drive, YouTube, Gmail). Это позволяет использовать AI для автоматизации задач прямо в привычных приложениях.
Этика и безопасность
Google активно подчеркивает внимание к этическим аспектам: от фильтрации вредного контента до минимизации ошибок.
Бизнес и разработчики
Нацелен на интеграцию в корпоративные и исследовательские проекты, предлагая обширные инструменты для разработки.
Разбираемся с помощью YouTube тут
Тестируем тут
Кто автор - человек или ИИ?
Мои персональные размышления на тему искусственного и общего разума.
Этот вопрос скоро перестанет быть актуальным.
Важно другое - куда направлен вектор, какую цель преследует создатель. Потому что за любым текстом, картиной или музыкой стоит оператор - тот, кто задает направление.
Искусственный интеллект - это не просто инструмент. Это проявление нашего коллективного разума. Каждый запрос, каждое взаимодействие с ИИ - это обращение к накопленному опыту человечества.
Мы движемся к интересному будущему, где границы между человеческим и искусственным интеллектом размываются. И ключевым навыком становится не само создание контента, а умение направлять этот общий поток знаний и творчества к значимым целям.
Вопрос уже не в том
"кто создает?",
а в том
"куда мы движемся?"
P.S. Полную версию статьи можно прочитать на levlejman/the-direction-matters-collective-intelligence-in-the-age-of-ai-91e841a134c7">Medium
Новости текущего дня:
Обновили ChatGTP Canvas:
Редактируемый документ, вносишь правки, они сразу заносятся в общий док. Удобно.
Доступно для всех пользователей
Удобно редактировать код. Скопировал вставил - чат показал комментариями на возможные ошибки.
Sora доступна всем платникам.
И за двадцатку и за двести.
Но за маленько и возможностей чуть:
Также вот доступные опции генерации и ее настройки.
А сложный промт вообще колбасит по стилю
Промт:
Aerial cinematic scene: the camera slowly pans over a parched, cracked African savanna during an intense drought. The landscape is barren, with dry, withered vegetation scattered across the cracked, sun-baked earth. From the center of an expansive patch of hardened mud, a massive hippopotamus begins to emerge. Its body is caked in layers of dried mud, breaking and falling away as it moves. The sun hangs low on the horizon, casting long, golden shadows, while heatwaves distort the air, creating a surreal, almost otherworldly atmosphere. The shot lingers on the hippo’s struggle as it pulls itself free, symbolizing resilience and survival in a harsh environment.
Генерация в режиме story board - супер хорошо, если будет именно так!
Удобно, и еще на шаг ближе к карманному ИИ режиссеру
Sora не за горами!
OpenAI опубликовали список стран где будет доступна Sora.
Ждем релиз в ближайшие дни.
Будьте готовы к тому, что доступ будет только у держателей двусотдолларовой подписки!
xAI Илона Маска запустили Aurora - свой собственный генератор картинок
После вчерашнего апдейта использовать его можно бесплатно - 10 сообщений каждые два часа. Оригинальный Grok 2 с FLUX.1 пока ещё тоже доступен.
@ai_newz
Shipmas день первый:
- O1 теперь доступна всем платным пользователям (Денис пощупал ее тут)
— быстрее
— умнее
— поддерживает картинки
В новую подписку за 20к рублей входит:
— Все преимущества тарифа Plus
— Неограниченный доступ к o1, o1-mini и GPT-4o
— Неограниченный доступ к войс моду
— Доступ к режиму o1 pro, который использует больше вычислительных ресурсов для лучших ответов на самые сложные вопросы (еще дольше будет думать)
Делаю предположение, что сора будет доступна именно там. Или доступна там без ограничений
А тем временем, ChatGPT (версия для нормальных пацанов с прокачанным интеллектом) стоит $200/мес. И это только начало.
Читать полностью…Домашний ИИ?
В последнее время уделяю внимание изучению open source проектов, в частности языковых моделей. Запускаю несколько новый проектов, где использую свои обученные модели. И вот почему (сравнение с открытым кодом на примере моделей внутри hugging face
и закрытым ChatGPT
короткое сравнение между ChatGPT и открытыми языковыми моделями, такими как LLaMA 2 и BLOOM, доступными на платформе Hugging Face.
Открытые модели (LLaMA 2, BLOOM на Hugging Face):**
1. Гибкость:
- Возможность дообучения моделей под ваши задачи - важный пункт. Мне нравится работать в определенном мной контексте.
- Поддержка специфичных языков и терминологии - круто для работы с древними и редкими и языками.
2. Конфиденциальность:
- Данные можно обрабатывать локально, не передавая их в облако - для многих частных компаний - это необходимость.
3. Экономичность:
- Бесплатное использование моделей, оплата только за ресурсы (если требуется).
4. Качественная Многоязычность :
- BLOOM поддерживает редкие языки, а LLaMA 2 превосходно работает с длинными текстами.
5. Кастомизация:
- Полный доступ к исходному коду и возможность интеграции с вашими продуктами.
ChatGPT:
1. Простота:
- Готовый инструмент для использования сразу.
2. Скорость:
- Не нужно разбираться в установке или настройках — просто задавайте вопросы.
3. Доступность:
- Поддержка большинства популярных языков.
4. Универсальность:
- Подходит для стандартных задач, таких как ответы на вопросы или генерация текста.
Открытые модели:
Если вам нужен полный контроль, кастомизация или вы работаете с конфиденциальными данными.
ChatGPT:
Если вам важны простота и скорость, и вы не хотите вникать в технические детали.
Если тема актуальна (дайте 20 🔥)
Опишу путь установки и работы с ии на своем устройстве или через Hugging face на примере своих проектов.
Сергей много писал про Adobe и про их систему.
Не буду дублровать, рекомендую посмотреть этот тред прямо там.
А вот история про создание видео из аудио - топ.
Ну и «молчаливые» видеогенераторы тоже уже нужно разговорить.
Небольшой дайджест за ноябрь
Открытие научного центра "AI для науки" Сбером
Сбербанк запустил центр "AI для науки", направленный на разработку платформ ИИ для исследований в химии, физике и биологии. Центр планирует тесное сотрудничество с ведущими научными организациями и университетами России.
Федеральная торговая комиссия США начала расследование в отношении Microsoft, изучая её деятельность в области кибербезопасности и продуктов ИИ.
Согласно исследованию Стэнфордского университета, США и Китай занимают ведущие позиции по развитию инфраструктуры и количеству научных исследований в области ИИ. Однако в этих странах отмечается недостаточное законодательное регулирование данной сферы.
США активизируют создание механизма добровольного тестирования передовых моделей ИИ. Институт безопасности ИИ (AISI) получил задачу наладить этот процесс, что подчёркивает стремление страны укрепить лидерство в области ИИ.
В ноябре OpenAI приобрела домен Chat.com, направляя его на основной сайт ChatGPT. Кроме того, соучредитель Грег Брокман вернулся в компанию после трёхмесячного отпуска, чтобы работать над ключевыми техническими задачами.
Исследование показало, что поэзия, сгенерированная ИИ, может быть неотличима от человеческой и даже получать более высокие оценки.
Похоже Minimax превращается в этакий генеративный Хаб.
Мы привыкли, что это прежде всего очень крутой видео-генератор.
Но в закромах у этого стартапа, во-первых, очень много денег, а во-вторых, есть очень много параллельных решений, о которых я лично и не догадывался.
Сейчас они все это упаковали в единый сайт, и, самое главное, сделали API ко всему хозяйству.
Кроме собственно Минимакса у них, оказывается есть:
Генератор Музыки Music-01!
https://www.minimaxi.com/en/news/music-01
Не Суно, конечно, но попытка защитана.
TTS Speech-01 - генератор голоса из текста:
https://www.minimaxi.com/en/news/speech-01
С эмоциональным, как пишут, интеллектом.
Speech-01 can handle up to 10 million characters in a single output!
Своя LLM - ABAB. Версия 7 в бете, а в 6.5 был триллион параметров и 200к контекст.
https://www.minimaxi.com/en/news/abab7-preview-release
https://www.minimaxi.com/en/news/abab65-series
Более того, у них уже есть упакованные продукты:
свой chatGPT:
https://www.hailuo.ai/
Я проверил, прекрасно пишет промпты для картинок.
https://www.hailuo.ai/?type=chat&chatID=317440964656717828
Внимание, у них свой ИИ-дэйтинг!
https://www.talkie-ai.com/
Looking for romance? (тут многие стартапы занервничали)
А еще у них есть Talkie Advanced Creation Center платформа для создания ИИ-ботов.
"Здесь вы можете не только управлять и создавать свои собственные интеллектуальные Talkies, но и выбирать различные модели ответов, настраивать и тестировать эффекты разговора ваших интеллектуальных агентов в реальном времени. В то же время, центр создания также предоставит различные плагины, такие как рисование, пение и т. д., чтобы поддержать более богатое и разнообразное создание интеллектуальных персонажей."
В общем Minimax - это не только ценный Video Gen, но и целый монстр, со своим выводком продуктов.
Для китайского рынка в первую очередь.
Весь фарш тут:
https://www.minimaxi.com/en
@cgevent