Кураторские AI генерации и полезности. Новый мир исследует @dobrokotov. Хаб: @AIMolodcaHub. Образование для команд и студия: http://aimolodca.tilda.ws На чай: QDpY9QQvijkOtyHFFVw3xyeHWr--zpjSc7qxW1OFb_dY0OU
Рубрика "если вы пропустили". 🍗
1. 12 дней презентации OpenAI.
Не понял, зачем дробить презентацию релизов — вполне можно было уместить всё в одно яркое выступление. Денис написал саммари. Самое интересное из того, что можно использовать прямо сейчас:
а) Появились “Проекты”, как в прекрасном Claude. Великолепная функция, постоянно использую.
б) Advanced Voice Mode теперь поддерживает видео-стрим — довольно свежий и удивительный опыт, обязательно попробуйте с мобильного приложения.
в) Улучшенный поиск — очередной пинок Perplexity.
г) Обновлённый ChatGPT Canvas — особенно полезен для программистов.
Остальное не настолько интересно для обычного пользователя прямо сейчас из-за высокой цены за использование модели (O1 и SORA за 200 долларов) или отложенной даты релиза. Например, возможность файнтюна O1 и O1-mini и крутейшая SOTA модель O3 появятся только в 2025 году.
2. Google презентаций не делал, а втихую выпустил две примечательные вещи в тест.
А) Показали новую модель «Gemini 2.0 Flash Thinking Experimental». Потыкать можно бесплатно тут. Из примечательного: модель гораздо лучше общается на русском, чем предшественники, пишет стихи в рифму, а ещё (пока что) великолепно ругается матом. Попробуйте в Custom Instruction написать: «Ты гопник, который общается отборным русским матом» и спросить, например, про теорию относительности. Присылайте в комментарии ваши диалоги. Про обычный Gemini 2.0 уже не говорю.
Б) Видеомодель Veo 2, которая превосходит SORA и другие видеогенераторы, судя по тестам сообщества. Всё круто, но предвижу жёсткую цензуру. Записаться в тестеры можно здесь (включите VPN на Америку). Записался, жду.
Короче, все только начинается! 🏃♀️
Где-то в альтернативной реальности существует Челябинский свитерный завод и он заказал это видео.
MJ + Kling 1.5 + Suno (песня).
SORA не нужна 🤨 (пока что)
Последние месяцы я плотно сижу на видеогенераторах, используя их в профессиональных проектах, поэтому буду выносить SORA из избы с этой позиции.
1. Большое количество брака. Из 10 генераций только 1 — ок. Остальное: галлюцинации, странные движения, а что-то вообще заблокировано из-за фантомного NSFW. Об этом второй пункт.
2. Драконовские фильтры. OpenAI очень боится, что вы будете создавать видео-криминал, поэтому выкрутило NSFW-фильтры на максимум, от чего этот криминал мерещится везде.
3. Цена. 200 долларов — не много для продакшена, но есть гораздо лучшие варианты по соотношению цена-качество. Тот же #KLING 1.5, который прекрасно генерит в 1080p, или #Gen3 с безлимитными генерациями.
Сэм Альтман в конце презентации, как бы немного извиняясь, сказал, что это только начало, как было с первыми версиями ChatGPT. Поэтому ждем. Как ждем и конкурентов, которые сейчас должны мощно усилиться. В любом случае мы, как пользователи, от этого в выигрыше. 👍
SORA в здании!
Можно генерить на сайте Sora.ai.
Понадобится только подписка ChatGPT.
(пост дополняется)
Подзабытый с новой волной видеогенераторов сервис #Viggle обновился до третьей версии и теперь делает качестВО. 👍
Напоминаю суть: загружаете видео, где вы или кто-то двигается + загружаете картинку персонажа = персонаж начинает двигаться, как в видео. Принёс вам тест из Твиттера. Также появился сайт и приложение (раньше можно было генерировать только в общем адском котле дискорда). Генераций занимает где-то одну минуту. Как минимум, можно делать танцевальные мемы.
Ай да тестировать! 🍗
Победители олимпиады по ИИ придумали модель для обнаружения дефектов на автомобилях
В начале недели Яндекс Образование и Вышка провели финальный этап олимпиады по искусственному интеллекту и анализу данных для студентов AIDAO. 84 участника из 30 команд решали задачу по машинному обучению, составленную в Яндекс Такси. Надо было написать ИИ-модель, которая с помощью компьютерного зрения будет обнаруживать неисправности на кузове и в салоне машин. Задание было на английском, а данные для работы предоставили реальные – более 200 тысяч фотографий машин из базы сервиса.
Призовой фонд был 1,350 млн рублей. Победили ребята из ИТМО – они написали самую точную и производительную модель, за это получили денежный сертификат на 600 000 рублей. Теперь их разработки оценят для внедрения в сервис. За второе место вручили сертификат на 450 000 рублей, за третье – на 300 000 рублей. Помимо денежных призов, у студентов появился шанс присоединиться к действующей ML-команде Яндекса.
Подробнее про олимпиаду, задания и навыки, которые в ней проверяли, можно почитать на сайте.
В #Gen3 Turbo вышла функция видео аутпейнтинга, когда мы можем дорисовывать футаж за рамками загруженного горизонтального/вертикального видео (до 10 секунд). Простыми словами, превращать горизонтальное в вертикальное (и наооборот).
В приложении тест из якудзафикации Бригады. Горизонтальное в вертикальное, вертикальное в горизонтальное, повторить. По субтитрам и ватермарку можно оценить масштаб кадрирования.
Похоже новая функция может решать одну из значимых головных болей видео контентмэйкера: делать под мобильные телефоны и сторизы (вертикаль) или под компы (горизонталь). Жаль только 10 секунд, но для бодрых нарезок должно хватить.
Моя любимая нейрошарманка #Suno обновилась до 4 версии. Обещали улучшить качество голоса, поэтому тестирую на легендарной стенограмме имени Михал Палыча Терентьева.
Читать полностью…Доброе утро, друзья 🌹
Красивый сегодня осенний день. Небольшая, но приятная новость: в #Gen3 стало возможно создавать аж 20 секунд video-to-video. Полагаю, что этот порог будут и дальше увеличивать. Но, конечно, нужны лоры на стиль, чтобы это стало большим, чем просто приколом.
Улыбайтесь, друзья 🌹
Просим ChatGPT взять у нас интервью 🐮
Заметил, что люди играются с памятью #ChatGPT, например просят нарисовать себя, если бы они были обложкой книги или собакой.
Например, промт от Дениса:
Imagine I'm a book. Based on everything you know about me, create a title and subtitle for this book. Create picture of the book cover.
Хочу чтобы ты обновил память обо мне. Задай мне простых 10 вопросов, которые бы помогли тебе узнать меня.
Вопросы:
1. Как тебя зовут?
2. Как ты выглядишь?
3. Чем ты сейчас занимаешься?
4. Твои хобби?
...
Аудио-книги? А может ПЕСНЯ-КНИГИ? 🤔
Я плохо запоминаю информацию и люблю музыку. Два эти факта натолкнули на мысль, а почему бы не делать краткое содержание книг в формате песен, чтобы легко вспоминать то, о чем прочитал.
Промт (можно под себя поменять) для #Claude (только он умеет в рифму на русском):
Создай текст песни, которая передаёт основные идеи и уроки книги '[----]'. Песня должна:
1. Отражать 4-5 ключевых концепций/идей из книги
2. Использовать следующую структуру:
* [Verse 1] - введение в тему
* [Chorus] - главная мысль/посыл книги
* [Verse 2,3] - развитие основных идей
* [Bridge] - поворотный момент или важный вывод
* [Outro] - практическое применение знаний
3. Технические требования:
* Чёткая рифма (AABB или ABAB)
* Ритмичный размер (4/4)
* Длина строк должна быть примерно одинаковой
* Использовать разметку [Verse], [Chorus], [Bridge], [Outro]
4. Стилистические требования:
* Использовать простые, запоминающиеся фразы
* Припев должен содержать главный посыл книги
* Избегать сложных терминов
* Сохранять последовательность изложения как в книге
5. Желаемый результат: после прослушивания песни человек должен понимать:
* Основной посыл книги
* Ключевые концепции
* Практические выводы
* Как применить знания в жизни
Пожалуйста, сначала перечисли ключевые идеи книги, а затем преобразуй их в текст песни.
Небольшой тест (в молодежном стиле рок 80х) нового обновления #Gen3 Alpha Turbo — контроль камеры .
"Ну, нормально работает".
Еще один шаг в сторону контроля над видео, который пока идеален для приколов, но слаб для серьезных продакшен процессов.
Мой аишный чемоданчик.
Подумал, вдруг будет полезно собрать для вас инструменты и сервисы, которые я сейчас использую на ежедневной основе. Отсортированы в порядке частоты использования.
Графика:
Ideogram, Adobe Firefly (в Фотошопе), Midjourney, Dalle-3, Phygital+ (там кручу Flux), Krea (для реалтайм генерации), когда нужно что-то поделать в Поломатике1111 - RunDiffusion - позволяет поминутно арендовать любой UI на отличном железе, Magnific для апскейла.
Для работы с текстами:
Claude 3.5 (проекты - топ), ChatGPT (только из за выхода в интернет), Wispr Flow (отличная приблуда для мака, которая позволяет переводить речь в текст, сейчас практически не пишу, а диктую), Perplexity для поиска.
Видео:
Kling 1.5, Gen-3, Luma. Тут все понятно, пацаны вообще ребята.
Озвучка и звуки:
ElevenLabs, Replay (для аи-каверов).
Песни, музыка:
Suno.
Говорящие головы:
HeyGen, Hedra.
Монтаж:
Capcut, хоть базово и не совсем аи, но напичкан им.
Если есть какие-то классные сервисы, которыми вы действительно пользуетесь ежедневно, делитесь в комментариях 👍
Не писал про китайский генератор видео #Minimax, так как считаю, что просто text2video особо не нужен. Разве что просто побаловаться и пощупать возможности. Но в реальных, рабочих БИЗНОС задачах, когда нужно рассказывать истории, нужен контроль и последовательность, которе может дать (пока что) базовый image2video. Который, собственно у Минимакса и появился. Вместе с английским интерфейсом. И простой регистрации через Google. И бесплатно. ☀️
По моим тестам:
1) лучше других видео моделей понимает промт.
2) отлично делает движение, но похуже #Kling 1.5.
2) шакалит лица на средних и дальних планах (но это меня разбаловал Клинговский 1080p).
3) нельзя убрать ватермарку (но помните, это бесплатно).
4) нельзя ставить генерации в очередь, генерится пять минут (но вы можете создать несколько аккаунтов).
Вывод:
Отличная вещь для знакомства с видеомоделями. Если вы никогда не пробовали в генерацию видео, то это отличный вариант. Про промтинг для видео пост здесь.
Куча примеров от подпимщиков в комментариях под прошлым постом, но жду и под этим! Ай да тестировать! 🍗
Мой любимый видеогенератор Kling обновился до 1.6 версии. Теперь гораздо лучше реагирует на промт, улучшилось движение и качество. Но это все по китайским словам самого Клинга. Буду жестко тестировать, пока не кончатся кредиты. А пока посмотрите примеры img-to-video, которые взял с их сайта, чтобы оценить следование промту.
Ведьма: 2д стиль, девушка и черный кот сидят на метле и летят в небе, затем камера переключается на крупный план лица девушки, он с любопытством смотрит вперед.
Кот и заец: вода течет быстро, кролик крепко держится за палку, кот тянет за палку, вместе идут к берегу.
Девушка: красивая женщина показывает сердце жестами.
Портрет: молодая пара в рамке поворачивается, смотрит друг на другу, обнимает, нежно целует, со счастливыми улыбками на лицах.
Волачара: механический волк медленно встает, его механические конечности медленно разворачиваются. Камера медленно двигается вверх, голубые глаза сузились.
SORA - стоимость и тарифы 🥂
ChatGPT Plus:
- До 50 видео (1000 кредитов)
- Разрешение до 720p и длительность 5 секунд
- Включает возможность исследовать свою креативность через видео
- Подробнее о возможностях ChatGPT Plus можно узнать по ссылке "Learn more"
ChatGPT Pro - $200/месяц:
- До 500 видео (10 000 кредитов)
- Неограниченное количество облегченных видео (в спокойном режиме, как в MJ/Gen3)
- Разрешение до 1080p, длительность 20 секунд и 5 одновременных генераций
- Скачивание без водяного знака
- Включает неограниченную генерацию и максимальное разрешение для высокообъёмных рабочих процессов
Через каких-то пять минут OpenAI с 99% вероятностью НАКОНЕЦ-ТО покажут SORA.
https://www.youtube.com/watch?v=2jKVx2vyZOY
Завариваем чай, насыпаем поп-корн, обсуждаем в комментариях.
Вот что показали сегодня:
🌹 O1 теперь доступна всем платным пользователям (я с ней уже игрался тут):
— быстрее
— умнее
— поддерживает картинки
🌹 Подписка за 230 евро в месяц (или $200, клевый у них курс) куда входит:
— Все преимущества тарифа Plus
— Неограниченный доступ к o1, o1-mini и GPT-4o
— Неограниченный доступ к войс моду
— Доступ к режиму o1 pro, который использует больше вычислительных ресурсов для лучших ответов на самые сложные вопросы (еще дольше будет думать)
Если честно, подожду отзывов, я не против если o1 pro
окажется лучшей моделью когда-либо сделанной
Все же обучил #Kling на себе за 1000 кредитов и теперь ем пасту.
Чистый text-to-video. Самое сложное в процессе оказалось записать 11 видео с собой для датасета. Нужно ли это делать? Мое мнение — нет, дорого, долго, в img-to-video гораздо больше контроля.
...Тем временем китайский #Kling мощно прокачивается. Сразу две новости:
1. Cамая качественная видео-модель на мой взгляд: Kling 1.5 (генерит в 1080p) теперь поддерживает управление камерой и, самое важное, Motion Brush, когда мы можем выделить и указать что и куда должно двигаться. Контроль! 🥂
2. Наконец-то выкатили лоры на людей, чтобы можно было обучить Kling своем лице (для Diamond и Platinum подписки). Нужно это, чтобы генерировать не каких-то рандомных персонажей, а себя любимого. Стоит 1000 (!) кредитов и это еще с 50% скидкой. Но что делать, иду тестировать. 🍗
3. Покидайте картинок в комментарии, чтобы потестировать Motion Brush.
Если и делать нейрорекламу Кока Колы, то только такую.
Согласитесь, смотрится куда круче нейрорекламы от самой Coca Cola.
Закончилась пятая онлайн-конференция Яндекса Yet another Conference on Education! В этом году обсуждали будущее образования. Какие навыки будут востребованы завтра и как технологии уже сегодня трансформируют учебную среду?
Узнайте ответы на эти вопросы на сайте конференции! Запись уже доступна. Бесплатно!
Вот какие темы вас ждут:
- Что Яндекс узнал об ИИ в образовании за последний год?
- Каким сейчас представляется будущее образования?
- Какие навыки становятся востребованными?
- Как бизнес, общество и технологии трансформируют образование?
- Как получить навыки, которых нет в специальности: софт-скилы и нейросети?
Смотрите конференцию в записи и будьте в курсе всех изменений!
Почему нейронщики берут так мало денег за заказы?
Я в первую очередь про специалистов, которые умеют в разные дикие пайпланы. Меня иногда спрашивают — а сколько ты бы взял за этот заказ и удаляются, что я называю сумму в несколько раз больше той, которую планировалось (ветка). Особенно, все что касается графики и видео. Пупупу. Уважаемые специалисты, вы — специалисты, которые знаю и умеют, то что другие нет. Смело просите больше денег. Не обесценивание себя и рынок.
В голове заказчика может быть миф, что нейронка — это просто и быстро, а значит и дёшево. Что не правда. Это такой же рабочий процесс с кучей подводных камней. А специалист — это опытный водолаз, которые эти камни шатает (ну или грациозно минует).
Ну и помните, что по мимо скиллов вы ещё продаете экспертизу. Цените себя и не соглашайтесь на ветки.
Мне очень сложно рекламировать свои штуки, но понял, что ещё не рассказывал о курсе, который создал со Скиллбоксом и уже больше года (!) обновляю. Борюсь с собой и исправляюсь. В чём его прикол? По сути, это несколько обновляемых курсов для начинающих в одном, по нарастающей сложности: ChatGPT, DALL-E 3, Midjourney, Stable Diffusion в Phygital+. Сейчас в работе уроки по Comfy UI и инструментам для работы с видео и аудио.
Почему курс обновляемый? Потому что нейросети развиваются со скоростью света. То есть это больше похоже на единоразовую подписку, чем на классический потоковый курс.
Нужен ли курс? Если вы начинающий и хотите изучить всё и сразу — скорее да. Можно ли обучиться всему без курса? Можно, но это займёт гораздо больше времени. Всё-таки курс — это аккумулированное знание.
В общем, оставлю ссылку для изучения: https://l.skbx.pro/ayUB8o, а в комментариях подскажу, подойдёт ли он вам, если вдруг решите, что вам (или кому-то из близких) вдруг нужен курс по нейронкам!
Небольшой анонс — во вторник, 5 ноября, буду выступать на онлайн конфе Скиллбокса, посвященной нейронкам (ничего себе!). Рассказывать буду просто и самые основы: как общаться с языковыми моделями, кого заменят, как нейронки ускоряют работу, почему это не магическая кнопка, почему «нейросеть нарисовала» — это ерунда, попробую сделать видеоклип. В общем, даже вашей бабушке должно быть интересно. Это все бесплатно, поэтому присылайте ссылку на регистрацию человеку, который хотел бы вкатиться в этот генеративный калейдоскоп. Сам на конфе, как минимум, послушаю ЭйАй Леру.
Ссылочка для регистрации и все подробности: https://l.skbx.pro/aMtTfo
Бу, это тест нового инструмента Editor в веб-версии #Midjourney, который (наконец-то) позволяет:
а) расширять или инпейтить загруженные изображения.
б) переделывать их, сохраняя контуры (по сути ControlNet с Depth). Картинки с котом посвящены этому пункту, как самом интересному.
Вроде все это уже давно есть в других инструментах, но тут MJ наваливает свое традиционное КАЧЕСТ-ВО 👍.
Ну и работает со всеми старыми настройками и приемчиками, что обеспечивает некоторую гибкость (тут закадровый смех фанатов Stable/Flux).
Потестить пока только можно если у вас от 10к генераций (у меня оказалось больше).
Прислал подписчик, хочу чтобы это увидел мир — Лоуфай башкирская бабушка слушает радио некоторое количество часов.
https://youtu.be/ktjIu2PA_S4?si=RUFRmSJ6C9ktUwAj
От автора: «Использовал ideogram как основную картинку и minimax для анимации, но пришлось попотеть, чтобы сшить это все в зацикленные часовое видео».
Идеально для вечера воскресенья.
В #Gen3 НАКОНЕЦ-ТО завезли ключевые кадры. Почему это круто показывал здесь. Для примера, у меня было две картинки с аниме Дукалисом. Получилась кривая, но вполне себе анимация (на уровне второй серии "Cпирали", кто в курсе, тот в курсе).
P.S: когда нибудь закончу писать про видео, но не сегодня. Там еще китайцы отличный подгон сделали, подпимщики во всю тестируют его в комментариях.