Мятное видео.
Вы будете смеяться, но у нас новый видео-генератор!
Причем не простой! А с ништяками.
MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.
Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.
Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.
Проще показать промпт:
[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.
И все это в одном сеттинге.
Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.
Обязательно посмотрите примеры тут:
https://mint-video.github.io/
Там интересно.
По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.
У моделей вообще отношения со временем не очень, а тут попытка приручить время.
Также поглядите на интересную работу на тему времени тут.
@cgevent
Что нового:
В ChatGPT теперь, как и в кладуди, модно добавить нужные к работе документы и инструкции.
Самое крутое - использовать проекты, как папки для чатов.
Это прямо выдох.
Очень тормозило работу Истрия с поиском нужного чата, который ты вел месяц назад.
Shipmas day six.
На шестой день анонсов показали голос Санта-Клауса и продвинутую модель управления голосом и работу с видео - типа расскажи правильно ли я завариваю кофе.
https://www.youtube.com/live/NIQDnWlwYyQ?si=76dD1m1fLMXFh0fF
На пятый день анонсов
Open Ai рассказывают про интеграции с iOS/MacOS:
Можно через Siri взаимодействовать с ChatGPT, в том числе в через камеру.
На маке можно передавать скриншот или текущий документ для анализа в 1 клик
Смотрим тут
Но лучше почитать мой пост выше 😉
Ютуб с переводом!
YouTube запустил автоматический перевод видео.
Работает не для всех, но некоторые авторы добавляют такую функцию к своему контенту.
Липсинка нет, качество перевода ниже чем работа сторонних сервисов по данной тематике.
Пока очень слабо.
Пример тут, тык
Новый (четвертый из двенадцати) стрим от Open Ai начинается тут:
https://youtu.be/qZ0ImE41pVs
Sora есть!
sora.com
Пока что демки режима Turbo – упрощенная модель для быстрых генераций ( по принципу Runway Turbo)
Примеры можно посмотреть на сайте.
Анонс(а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)
Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.
Клонируй голос или создай свой!
Пробежимся по моделям для генерации и синтеза речи. Большинство из них с открытым кодом, а значит free и flexible 🫶🏻.
Заходим по ссылке, изучаем статью и там же в каждой статье есть ссылки на пользование и код.
1. WaveNet
Разработанная компанией DeepMind, WaveNet представляет собой глубокую сверточную нейронную сеть, способную генерировать аудиоволны с высоким уровнем естественности, моделируя сырые аудиосигналы.
Тут
2. Tacotron 2
Модель от Google, которая преобразует текст в мел-спектрограммы, а затем использует вокодер, такой как WaveNet, для преобразования их в аудиосигналы, обеспечивая высокое качество синтезированной речи.
Тут
3. VALL-E
Разработанная Microsoft, VALL-E способна воспроизводить голос на основе трехсекундного образца, сохраняя особенности голоса и интонации оригинала.
Тут
4. FastSpeech
Модель, использующая полностью сверточные архитектуры для быстрого и высококачественного преобразования текста в речь, обеспечивая параллельную генерацию мел-спектрограмм.
Тут
5. StyleTTS
Фокусируется на синтезе речи с учетом стиля и эмоциональной окраски, создавая более выразительную синтезированную речь.
Тут
6. StyleTTS 2
Улучшенная версия StyleTTS, использующая диффузионные модели и крупные языковые модели речи для достижения синтеза речи на уровне человека.
Тут
7. SpeedySpeech
Модель, направленная на эффективный синтез речи с использованием простых сверточных блоков с остаточными соединениями, обеспечивая высокое качество звука при быстрой генерации.
Тут
8. Pheme
Представленная в 2024 году, Pheme предлагает компактные и высокопроизводительные решения для параллельного синтеза естественной разговорной речи, эффективно обучаясь на небольших объемах данных.
Тут
9. VoxtLM
Объединяет задачи распознавания и синтеза речи, а также продолжения текста и речи, используя единый декодер, что позволяет эффективно выполнять несколько задач, связанных с обработкой речи.
Тут
Пользуемся, комментируем, ставим 🔥
Начиная с завтрашнего дня OpenAI запускает «Shipmas» 🎁
В течение 12 дней компания будет радовать нас новыми фичами и продуктами. Возможно наконец релизнут Sora, но это не точно.
@ppprompt
Что показали:
Все про Gpt поиск (это, когда мы используем запросы в интернет, чтобы найти инфу или дополнить ответ от gpt)
1. Доступен всем (и платниками и без)
2. Улучшилась скорость и качество поиска
3. Поиск теперь работает во время разговора через
4. Можно сделать поисковик в браузере по умолчанию (вроде уже можно было, у меня стоит давненько. Это когда вместо Гугла используется chat gpt для отработки любого запроса)
Как говорится: "Началось"
Бывший сотрудник OpenAI, обладавший сведениями о нарушении OpenAI закона об авторском праве, найден дома мертвым
Сучир Баладжи ранее помогал тренировать ChatGPT. Позже он стал информатором в ряде исков о нарушении авторского права против OpenAI. Предварительная версия - самоубийство
🔵 Предыстория: У меня в телеге тысячи! непрочитанных и неотвеченных сообщений, скорее всего у вас также. Большинство из них с запросами на партнерства, запуски проектов, маркетинг, да и просто обычные вопросы от пользователей наших продуктов. Все это наверно сотни тысяч долларов упущенных возможностей.
⚠️ Но кто это все должен разбирать, квалифицировать, общаться, договариваться? Не доверишь же ты свой личный телеграм трем ассистенткам.))
Ну и решил я все это автоматизировать через AI Telegram бота, и тут понеслось)) 📱📱📱
Спустя 20.000 строк кода родился полноценный AGI бот-ассистент для Телеграм, который за меня может вести все переписки и делать практически что угодно:
- общаться на любые темы
- квалифицировать лидов и их потребности
- вести переговоры и договариваться в свою пользу
- назначать встречи и звонки
- и даже продавать сервисы и принимать платежи
Ну и конечно же я не поленился добавить в него все последние фишки AI:
- Загрузка любых данных (doc, md, pdf, csv) — бот “запоминает” всё, что нужно.
- Голосовые сообщения — можно добавить свой голос, и бот сможет общаться голосовыми за вас.
- Самые мощные AI-модели (#OpenAI, #Anthropic) под капотом.
- Полный контроль и гибкая настройка инструкций и интеллекта под ваши задачи и цели.
- Доступ в интернет для поиска нужной информации
- Безопасность на уровне самого Telegram — бот работает только с теми чатами, которые вы ему разрешите.
Google Gemini 2 вышел!
Мультимодальность
Модель изначально создана для работы с различными типами данных: текст, изображения, видео, аудио и даже сложные научные графики. Например, вы можете загрузить изображение, и Gemini 2 не только опишет его, но и ответит на вопросы о содержимом.
Гибкость и настройка
Упор сделан на адаптацию под конкретные задачи и интеграцию в бизнес-процессы. Пользователи могут обучать модель под свои нужды, создавая специализированные решения.
OpenAI также предлагает возможности настройки через API (например, Fine-Tuning), в этом направлении Google Gemini 2 предоставляет более интуитивные инструменты для индивидуализации.
Скорость и эффективность
Использует более оптимизированные алгоритмы, что делает работу модели быстрее и требует меньше вычислительных ресурсов в сравнении с тем же ChatGpt
Интеграция с экосистемой
Полностью интегрирован с продуктами Google (Docs, Drive, YouTube, Gmail). Это позволяет использовать AI для автоматизации задач прямо в привычных приложениях.
Этика и безопасность
Google активно подчеркивает внимание к этическим аспектам: от фильтрации вредного контента до минимизации ошибок.
Бизнес и разработчики
Нацелен на интеграцию в корпоративные и исследовательские проекты, предлагая обширные инструменты для разработки.
Разбираемся с помощью YouTube тут
Тестируем тут
Кто автор - человек или ИИ?
Мои персональные размышления на тему искусственного и общего разума.
Этот вопрос скоро перестанет быть актуальным.
Важно другое - куда направлен вектор, какую цель преследует создатель. Потому что за любым текстом, картиной или музыкой стоит оператор - тот, кто задает направление.
Искусственный интеллект - это не просто инструмент. Это проявление нашего коллективного разума. Каждый запрос, каждое взаимодействие с ИИ - это обращение к накопленному опыту человечества.
Мы движемся к интересному будущему, где границы между человеческим и искусственным интеллектом размываются. И ключевым навыком становится не само создание контента, а умение направлять этот общий поток знаний и творчества к значимым целям.
Вопрос уже не в том
"кто создает?",
а в том
"куда мы движемся?"
P.S. Полную версию статьи можно прочитать на levlejman/the-direction-matters-collective-intelligence-in-the-age-of-ai-91e841a134c7">Medium
Новости текущего дня:
Обновили ChatGTP Canvas:
Редактируемый документ, вносишь правки, они сразу заносятся в общий док. Удобно.
Доступно для всех пользователей
Удобно редактировать код. Скопировал вставил - чат показал комментариями на возможные ошибки.
Sora доступна всем платникам.
И за двадцатку и за двести.
Но за маленько и возможностей чуть:
Также вот доступные опции генерации и ее настройки.
А сложный промт вообще колбасит по стилю
Промт:
Aerial cinematic scene: the camera slowly pans over a parched, cracked African savanna during an intense drought. The landscape is barren, with dry, withered vegetation scattered across the cracked, sun-baked earth. From the center of an expansive patch of hardened mud, a massive hippopotamus begins to emerge. Its body is caked in layers of dried mud, breaking and falling away as it moves. The sun hangs low on the horizon, casting long, golden shadows, while heatwaves distort the air, creating a surreal, almost otherworldly atmosphere. The shot lingers on the hippo’s struggle as it pulls itself free, symbolizing resilience and survival in a harsh environment.
Генерация в режиме story board - супер хорошо, если будет именно так!
Удобно, и еще на шаг ближе к карманному ИИ режиссеру
Sora не за горами!
OpenAI опубликовали список стран где будет доступна Sora.
Ждем релиз в ближайшие дни.
Будьте готовы к тому, что доступ будет только у держателей двусотдолларовой подписки!
xAI Илона Маска запустили Aurora - свой собственный генератор картинок
После вчерашнего апдейта использовать его можно бесплатно - 10 сообщений каждые два часа. Оригинальный Grok 2 с FLUX.1 пока ещё тоже доступен.
@ai_newz
Shipmas день первый:
- O1 теперь доступна всем платным пользователям (Денис пощупал ее тут)
— быстрее
— умнее
— поддерживает картинки
В новую подписку за 20к рублей входит:
— Все преимущества тарифа Plus
— Неограниченный доступ к o1, o1-mini и GPT-4o
— Неограниченный доступ к войс моду
— Доступ к режиму o1 pro, который использует больше вычислительных ресурсов для лучших ответов на самые сложные вопросы (еще дольше будет думать)
Делаю предположение, что сора будет доступна именно там. Или доступна там без ограничений
А тем временем, ChatGPT (версия для нормальных пацанов с прокачанным интеллектом) стоит $200/мес. И это только начало.
Читать полностью…Домашний ИИ?
В последнее время уделяю внимание изучению open source проектов, в частности языковых моделей. Запускаю несколько новый проектов, где использую свои обученные модели. И вот почему (сравнение с открытым кодом на примере моделей внутри hugging face
и закрытым ChatGPT
короткое сравнение между ChatGPT и открытыми языковыми моделями, такими как LLaMA 2 и BLOOM, доступными на платформе Hugging Face.
Открытые модели (LLaMA 2, BLOOM на Hugging Face):**
1. Гибкость:
- Возможность дообучения моделей под ваши задачи - важный пункт. Мне нравится работать в определенном мной контексте.
- Поддержка специфичных языков и терминологии - круто для работы с древними и редкими и языками.
2. Конфиденциальность:
- Данные можно обрабатывать локально, не передавая их в облако - для многих частных компаний - это необходимость.
3. Экономичность:
- Бесплатное использование моделей, оплата только за ресурсы (если требуется).
4. Качественная Многоязычность :
- BLOOM поддерживает редкие языки, а LLaMA 2 превосходно работает с длинными текстами.
5. Кастомизация:
- Полный доступ к исходному коду и возможность интеграции с вашими продуктами.
ChatGPT:
1. Простота:
- Готовый инструмент для использования сразу.
2. Скорость:
- Не нужно разбираться в установке или настройках — просто задавайте вопросы.
3. Доступность:
- Поддержка большинства популярных языков.
4. Универсальность:
- Подходит для стандартных задач, таких как ответы на вопросы или генерация текста.
Открытые модели:
Если вам нужен полный контроль, кастомизация или вы работаете с конфиденциальными данными.
ChatGPT:
Если вам важны простота и скорость, и вы не хотите вникать в технические детали.
Если тема актуальна (дайте 20 🔥)
Опишу путь установки и работы с ии на своем устройстве или через Hugging face на примере своих проектов.