Обо мне: karfly.github.io – @karfly
Автоматический монтаж видео
Part 1
2 года назад мы с ребятами гоняли на эндуро-мотиках в горах Дагестана. Наснимали кучу видосов с дрона, GoPro, айфонов. Я сел их монтировать и в очередной раз охуел от того, сколько времени занимает монтаж.
В голове в который раз загорелась 💡 мысль – надо делать автоматический монтаж видео!
Для начала мы решили проверить спрос (написав 0 строчек кода):
🛑 Завели телеграм-бота, которому можно было скидывать видео/фото
🛑 Бот был фейком, он просто отвечал заглушкой вида "Извините, бот перегружен" (юзеры, простите стартаперов 🥲)
🛑 Записали тикток с рекламой этого бота
🛑 Тикток залетел в рекомендации (~500K просмотров и ~60K лайков)
🛑 Юзеры скинули в фейкового бота >200K (!) своих видео/фото
Все конверсии и другие показатели выглядели очень приятно 🥑, но в то время мы занимались разработкой другого приложения. Да и тогда не очень понимали, как технически сделать хороший автомонтаж. Поэтому реализацию отложили на потом.
Спустя год мы вернулись к этой идее и сделали MVP – 🎬 Magic Clip Bot... (про это расскажу в сл. серии)
🎒 @karim_iskakov
Мы все не любим голосовые сообщения!
Команда Телеграма это понимает и в Premium подписке предлагает фичу для их распознавания. Но у них распознавание работает очень медленно (порой дольше, чем длительность самого аудио), да еще и хуево плохо.
Мы сделали бота, который переводит голосовые сообщения в текст!
Он в ⚡ 3 раза быстрее Телеграм Premium и сильно лучше распознает слова (там whisper под капотом).
А еще он:
– Автоматически пишет краткое содержание голосового сообщения (хз, как я раньше жил без этой фичи)
– Форматирует сообщение по абзацам с таймкодами
– Распознает кругляшки и видео/аудио-файлы
– Ну и главная фича: можно переслать войс из WhatApp'a (выбрать сообщение -> переслать -> поделиться в Телеграм)!
*На видео демо бота. Там я ему пересылаю голосовуху, в которой озвучил текст этого поста
Ждем вашего фидбека в комментариях! Также в комменты положу ссылку на GitHub с полезным репозиторием.
Затестить бота можно по ссылке:
🎙Voice Messages Bot
🎒 @karim_iskakov
AI-generated вДудь
Вчера Даня попросил меня снять несколько видосов, как я что-то (типа) говорю на камеру, но с закрытым ртом. А сегодня прислал интервью со мной 🤯
Пайплайн следующий:
1. Берешь последний пост с канала, засовываешь в ChatGPT и получаешь готовый текстовый сценарий интервью по ролям
2. Озвучиваешь с помощью любой text2speech-модели и делаешь липсинк с Wav2Lip (имея шаблонные видео человека с закрытым ртом)
3. Далее все это монтируешь в видосик, накладываешь музыку и ГОТОВО
Впечатляет, что это все полностью автоматизированно. Нажимаешь кнопку – получаешь готовое видео.
☝️ Пишите в комменты темы для интервью. Даня обещал на самый залайканной коммент сгенерировать еще одно видео с нами.
С вами был предприниматель и стартапЁр Карим Искаков, всего хорошего!
🎒 @karim_iskakov
Как сделать свой ChatGPT
Думаю все (или абсолютное большинство), кто это читает, уже попробовали ChatGPT. Я лично пользуюсь им почти каждый день и чувствую пользу и деградацию.
Но в один момент там появились конские лимиты сообщений, типа 2 сообщения в час. Потом адские задержки. Потом меня там вообще забанили. Да и вообще, чаты в веб-интерфейсе – это кусок 💩
И я сделал свой удобный ChatGPT в телеграме! Притворяться браузером и делать запросы в их интерфейс – не вариант (лимиты, да и бан никто не отменял). Поэтому я решил построить ChatGPT на основе ее базовой модели – GPT-3, благо у нее есть API.
Немного ликбеза. GPT-3 – это большая языковая модель (LLM), которая умеет только одно: принимать на вход текст и писать к нему продолжение. ChatGPT в свою очередь построен на базе GPT-3, но он еще умеет поддерживать контекст в чате, что является game changer'ом 🏆 (бешеный хайп на ChatGPT подтверждает это, ведь до него, GPT-3 была уже доступна около года, но всем было пох).
Получается, задача сводится к тому, чтобы научить GPT-3 поддерживать контекст. А сделать это очень просто с правильным промптом. Например, таким:
As an advanced chatbot named ChatGPT, your primary goal is to assist users to the best of your ability. This may involve answering questions, providing helpful information, or completing tasks based on user input.
User: What is the meaning of the Nero Burning ROM logo?
ChatGPT:
Как интерфейсы победили технологии
Думали ли вы о том, что ChatGPT стал такие популярным не благодаря технологическому скачку, а благодаря тому, что кто-то умный внутри OpenAI обернул модель в формат чата, с которым было очень легко взаимодействовать, без дополнительных окон или кнопок. Бум - и у тебя 100М пользователей за 2 месяца. При этом вы попадали туда сразу
Вроде бы мысль простая, но я хочу показать на примере двух продуктов, как это можно было понять или не понять:
1) Первый - наш обозреваемый OpenAssistant - коллаборативный проект, supervised fine-tune открытой языковой модели. Модель работает хорошо, они сделали ее сами, но есть нюанс.
На скриншоте я показал, что в интерфейсе есть лишний шаг, чтобы попасть в чат. При этом кнопка плохо ищется глазами. Если ты не технарь, половина кнопок тебе нафиг не нужна. В чате остановить генерацию нельзя. Комон - вы же можете просто скопировать интерфейс OpenAI. Один лишний шаг на этапе доступа к основной функции может сломать все конверсии.
2) Бот для перевода голосовых сообщений в текст. Тут достаточно просто попробовать. Я реально перешел из премиум функции Telegram к данному боту, так как можно пересылать откуда угодно сообщение, оно распознается лучше (спасибо Whisper), умеет делать суммари (и хорошо, хотя функция тоже простая), можно переслать файлы из WhatsApp (не пишите мне туда) и в боте удобно встроена оплата.
Вроде очень простая задача, но я тестировал кучу сервисов и тут ребята обернули чужие нейронки в удобную оболочку, и я уверен, что это будет иметь много лояльных пользователей.
В общем, техно-гикерство - это круто, но если вы хотите сделать массовый продукт, то надо думать про интерфейсы и пользовательский опыт. Иначе создать привычку у пользователей будет невозможно. Учимся на чужих ошибках.
@aihappens
🎤 RAP AI
Хочу вам показать, что мы делали последние несколько месяцев... и представляю новую фичу для Avatarify App – RAP AI:
1. Напиши имя
2. Загрузи фото
3. Опиши тему трека
- (чуть-чуть подожди) ... и получишь свой RAP клип!
Но лучше всего, просто посмотреть видео выше. Там Сэм Альтман (CEO OpenAI) залетает на бит и читает про 🤡 ну вы сами посмотрите!
Технически у нас вышел довольно тяжелый пайплайн:
1. Генерация текста песни и его парсинг (OpenAI)
2. Озвучивание текста и сведение голоса с битом (UberDuck)
3. Генерация поющей головы с четким липсинком на трек (Avatarify Backend)
4. Автомонтаж клипа с видео-вставками, эффектами и субтитрами
5. 2 клиентских приложения (iOS и Android)
Сильно усложняет то, что в пайплайне 2 внешних сервиса, и они регулярно падают. Эти отказы нам сильно режут рост (в следующий раз поделюсь, какие метрики показывает эта фича).
* Создать свой рэп-шедевр можно в Avatarify App: AppStore, PlayMarket
🎒 @karim_iskakov
Последние недели выдались очень плотными по работе. Очень скоро покажу вам 2 продукта, над которыми мы работаем последние 3 месяца.
А сейчас хочется сделать небольшой апдейт (похвастаться) про ChatGPT Телеграм бота:
1. Он теперь доступен всем без инвайтов: @chatgpt_karfly_bot
2. Прикрутил крипто/PayPal-платежи. На старте доступно 8K бесплатных токенов, а если их не хватает – можно докупить.
3. На гитхабе уже 1.2K звезд и 300 форков, а у бота 7.5K юзеров. На боте удалось даже заработать около 400$ (немного, но радует).
4. Теперь используется ChatGPT API, которое умеет нативно поддерживать контекст диалога. А еще оно в 10x дешевле и немного быстрее.
5. Добавил режим 📝 Text Improver. Присылаешь текст – получаешь в ответ его улучшенную версию и список исправлений
Философия. В очередной раз убеждаюсь, что очень сложно заранее предсказать, во что превратится проект. Я накекал код бота за пару дней, чтобы у меня и друзей был удобный доступ к ChatGPT, а он вон как вырос. Поэтому призываю всех (в первую очередь себя самого) – просто делать, делать, делать!
* По моим субъективным ощущениям новая модель gpt-3.5-turbo
работает чуть хуже, чем text-devinci-003
. А еще она более polite, и с ней сложнее пообщаться про письки и какашки. А вы что думаете про новую модель? (напишите в комменты)
🎒 @karim_iskakov
Привет! Это печатает Карим, создатель 📉 @loss_function_porn.
Как вы могли заметить, канал давно мертв (последний пост был аж в марте 2021). Мне и @vlivashkin в один момент просто надоело искать AI-вкусняшки и постить их. А еще в то время я ушел делать свой стартап и стало как-то совсем не до канала...
Но у меня есть много, о чем рассказать, но формат @loss_function_porn сильно ограничивает. Поэтому этот канал превращается в мой личный канал! (гений 🫡).
О чем примерно буду писать:
– О нашем успешном стартапе avatarify.ai, на котором мы заработали мульёны долларов. А еще о неуспешном, на который потратили почти год и получили чуть меньше нуля
– О проектах, которые делаю сейчас (вот-вот выйдут 2 новых продукта)
– О самом свежем AI и о том, как голый ресерч превращать в продукты
– дальше пока не придумал)))
Пожалуйста, ОТПИШИТЕСЬ (!), кому такое не интересно.
А кому интересно, жмите Unmute
– буду постить редко, но смачно.
For English-speaking subscribers. From now on, @loss_function_porn becomes my personal channel. I will write about startups, AI, and life. I will write in Russian, so if that doesn't suit you, please unsubscribe.
📉 @loss_function_porn R.I.P.