Новая модель:
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а апреля 2023го
— Эта новая модель принимает картинки на вход через API
— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работыт инженеров OpenAI с вашей компанией, чтобы помочь адаптировать тренировку под ваши проблемы
ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!
Обещают скоро ещё больше ускорить GPT-4 Turbo
Спите? А надо просыпаться - OpenAI раздуплились и выложили ИССЛЕДОВАТЕЛЬСКУЮ статью про DALLE-3.
Читать: https://cdn.openai.com/papers/dall-e-3.pdf
Нейросеть Meta расшифровывает картинки прямо из мозга
Исследователи из Meta продолжают разрабатывать нейросеть, которая в режиме реального времени может восстанавливать изображения, которые человек видит перед глазами, анализируя активность его мозга.
Для записи активности мозга используется технология магнитоэнцефалографии (МЭГ). Она позволяет за секунду получить тысячи измерений работы мозга.
Нейросеть состоит из трёх частей:
1 Энкодер изображений, который создаёт их векторное представление.
2 Энкодер активности мозга, который выравнивает сигналы МЭГ с векторами изображений.
3 Декодер изображений, генерирующий картинку по мозговой активности.
Эта система показала хорошие результаты в тестах. Она может декодировать высокоуровневые черты изображений, такие как категории объектов. Правда пока не идеально воспроизводит низкоуровневые детали.
Тем не менее, это важный прогресс в понимании работы зрительной системы мозга и разработке интерфейсов "мозг-компьютер" (а заодно и VR/AR).
📽️ Блог-пост и видосы
🔖 Статья
ComfyUI workflows - это новая приятная база данных json нодов для ComfyUI, где можно делиться своими пайплайнами или скачивать интересные для себя.
❗️Пока сырой и мало информации о пайплайнах, только если вы понимаете что за пайплан основываясь на нодах.
Хотя кажется автор увидел все эти проблемы и возможно вскоре обновит.
Коротко про ComfyUI:📕 ComfyUI является узловым графическим пользовательским интерфейсом (GUI) для Stable Diffusion, который позволяет пользователям создавать потоки генерации изображений, объединяя различные блоки (называемые узлами) вместе. Это делает процесс создания изображений более модульным и гибким, поскольку пользователи могут легко создавать свои собственные рабочие потоки1.
И многие другие функции, включая встраивание/текстовую инверсию, загрузку полных рабочих потоков из сгенерированных PNG-файлов, сохранение/загрузку рабочих потоков как файлов JSON, и так далее.Таким образом, ComfyUI предлагает мощный и универсальный инструмент для манипулирования изображениями и комбинирования их, обладая функциями, такими как интерфейс узлов/графиков/блок-схем, а также композиция областей.
👀 ChatGPT теперь умеет видеть, говорить и слушать
Вчера OpenAI показали новую модель ChatGPT-4V(ision). Это мультимодальная модель, которая может понимать и синтезировать голос, а также понимает изображения. Мы получаем более интуитивный интерфейс, который позволяет разговоривать с ChatGPT голосом (Привет, Siri!).
А теперь, лайфхак из блога OpenAI, который СУЩЕСТВЕННО упростит вашу жизнь:
"Когда вы дома, сфотографируйте свой холодильник и кладовую, чтобы определить, что приготовить на ужин (и задать уточняющие вопросы для пошагового рецепта). После ужина помогите своему ребенку с математической задачей, сделав фотографию, выделив задачу и получив подсказки от ChatGPT для вас обоих."
Обещают в течение следующих двух недель дать доступ к voice и vision функциям ChatGPT-4V премуим пользователям Plus и Enterprise. Голос будет только на iOS и Android.
В стиле ClosedAI парни выложили что-то типа тех репорта, без технических деталей, где рассказывают про Safety новой модели и показывают примеры работы.
@ai_newz
Мультимодальность
Теперь не нужно сильно разбираться в промптах, ChatGPT + Dalle 3 становится полноценной дизайн студией, куда вы приходите как заказчик и получаете самые безумные идеи за несколько секунд, легко меняете стиль или концепт буквально через текст, который вы бы давали дизайнеру.
Уже очень хочется попробовать, обещают в начале октября...
Source
Спасибо Denis Sexy IT 🤖 за инфо.
В честь праздника на канале OpenAI решили выпустить DALL-E 3
https://openai.com/dall-e-3
Теперь модель понимает значительно больше нюансов и деталей, чем предыдущие системы, что позволяет вам легко воплощать ваши идеи в исключительно точные изображения.
На фото результат генерации по запросу
> An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters across the horizon.
Пошёл генерить новую аватарку для канала 🙂
Новый вид монтажа
🔥 Все что вы видите в этом ролике сгенерировалось за один раз, без склеек, без использования программ для монтажа.
📕 Склейки между кадрами - моя попытка теста QR code ControlNET (который сейчас проживает второй расцвет)
в AnimateDiff.
💗 Это успех, теперь приятные эффекты шума, такие важные для некоторых клипов или творческих работ, можно создавать максимально контролируемо.
🐑 То есть AnimateDiff превращается в полноценную продакшн студию у вас в компе, где есть актеры, движения, эффекты, сцены, идеи.
🐈⬛ Пока это сложный инструмент, хотя уверен, что вскоре появится сервис, где нужно будет только писать промпт и задавать стили, Лоры и т.д.Не могу не наиграться с AnimateDiff, например эта работа полностью HD, 1920x1080 генерация, 13 секунд. Это сильно впечатляет, хотя и себестоимость таких 13 секунд вышла в 10$.
AnimateDiff
А вот и "реалтайм Nerf", но не Nerf и не фотограмметрия⚪️ Gaussian Splatting: Революция в 3D рендеринге! ⚪️
(С NERF сравнение только в видео)🧐 Photogrammetry:
(Помните прекрасные миры зазеркалье в Nerf? Как раз с этим тяжело справляется фотограмметрия)
И еще долго...То есть можем менять пространство интересно и даже SD можем попробовать прикрутить для красоты.
⚰️ Проблемы: Производство определенных артефактов. (Найс!)
YoutubeLecture А еще это очень похоже на множество вселенных в повседневных вещах...
Читать полностью…
OpenAI выпускает несколько небольших обновлений, чтобы улучшить работу с ChatGPT. Будет уже на следующей неделе:
1. Примеры промптов: В начале нового чата вы увидите примеры, которые помогут вам начать работу, чтобы не смотреть на "пустой лист" каждый раз.
2. Предлагаемые ответы: возможность углубиться в тему одним щелчком мыши. Теперь ChatGPT предлагает подходящие способы продолжить разговор (как в Bing).
3. Наконец-то! GPT-4 как модель по умолчанию: при запуске нового чата (если вы Plus-подписчик) в качестве модели будет выбрана самая мощная доступная версия — больше сайт не будет возвращаться к модели GPT-3.5 по умолчанию. Честно уже руки устали менять каждый раз)
4. Загрузка нескольких файлов: теперь вы можете попросить ChatGPT проанализировать данные и получить информацию по нескольким файлам. Это будет доступно в бета-версии Code Interpreter для всех пользователей Plus (раньше всё ограничивалось одним файлом на контекст. Вероятно, OpenAI добавили какие-то оптимизации, чтобы брать в промпт/контекст только один файл или его частичку)
Мой товарищ, который делает PhD у нас в GenAI в Лондоне, выпустил классную работу по трекингу пикселей на видео. Результаты говорят сами за себя.
Наконец-то можно забыть, что такое optical flow (он тупой как барабан, т.к. смотрит только на интенсивность цвета и не понимает семантику изображений).
Код и модели доступны на GitHub.
@ai_newz
Классный пример того, куда вся эта генеративная ИИ-фигня нас в итоге приведет — персональные генеративные видео, просто под зрителя ¯\_(ツ)_/¯
В видео в посте:
🧀 Сценарий серии Южного Парка написан с учетом цепи промптов, где ответ от большой языковой модели передается в нее же, для уточнений, правок и тп.
🧀 Задние фоны и персонажи сгенерированы Stable Diffusion адаптированной под стиль Южного Парка
🧀 Персонажи озвучены тоже нейронкой
🧀 Анимации сделаны вручную (как я понял)
Вот тут вы можете почитать детали про этот пайплайн (их там немного, правда, а сам пейпер больше похож на блог пост с фантазиями на тему), а тут посмотреть еще один эпизод, если вдруг одного в посте вам показалось мало.
Мне кажется, лет через ~5-7, Netflix уже частично будет у каждого свой (в некоторых шоу) — поэтому если вы думали, что может в GenAI уже поздно погружаться, то нет, все только начинается.
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
🤫 Хочется написать коротко: берем уже готовые Лоры, которых обучено очень много на Civit, берем motion module обученный на движениях и наслаиваем на него всем известный SD, готово, у вас супер качественный видеогенератор.
🫡 Да, пока всего несколько секунд, да пока малое качество (512x512), но зато уже привычные и любимые лоры и стили под рукой. Не нужно учиться новому промптингу.
Добро пожаловать в новую SD txt2video эру!
INFO—PAPER—GITHUB—COLAB
Спасибо Camenduru за колаб.
The New Planet - до & после сравнение Stable diffusion + PS + EbSynth + After Effects
🍎 Автор поделился и процессом:
🥳 Берем 1/2 кадра из исходного видео, пропускаем через img2img в SD с ControlNET, важно сохранять базовые линии и фигуры, как в исходном видео.(это довольно забавная часть экспериментов, как превратить изображение обычного животного во что-то, чего не существует)
😵 Затем готовые SD изображения разделяются в ФШ на разные части (фон, объект, некоторые дополнительные элементы)
🤩 Затем использую оригинальные видео и разные части от SD изображений создаются видео куски разных частей через EbSynth. (Анимированный фон, анимированный персонаж)
👍 Полученный результат заливается в After Effects и дорабатывается с помощью tracking, depth map distortion, puppet warp, liquify инструментов, так же используется виртуальная камера и до свет для создания более живой картинки. По итогу получаем приятную внеземную жизнь.
P IX A RT-α веса вышли в opensource
Теперь официально вышли веса 512/1024 и поддержка в diffusers
Первое впечатление:
— инференс влезает в T4
— базовое качество на уровне, с учетом времени тренировки и количества данных
— до генераций/понимания Dalle 3 точно далеко, но и задачи иные
Главная же особенность — тренировка своих данных с меньшим количеством времени и ресурсов. Ожидаем ответ от коммьюнити и множество моделей. Пока есть вариант ControlNet, интересно про поддержку Lora и возможно интеграции с motion module, как у AnimateDiff.
INFO—PAPER—GITHUB—HF—DEMO—COLAB
P IX A RT-α 🚀
🔍 Что это?
Передовая модель текста в изображение (T2I) на основе Transformer. Она создана для быстрого и эффективного превращения текста в фотореалистичные изображения! 🎨🖼
🤔 Почему это важно?
Большинство современных T2I моделей требуют огромных вычислительных ресурсов. Это не только дорого, но и вредно для окружающей среды из-за выбросов CO2. 🌍💨
🌟 Основные особенности:
1️⃣ Разделенная стратегия обучения: делает процесс более управляемым и эффективным.
2️⃣ Эффективный T2I Transformer: быстро и точно превращает текст в изображения.
3️⃣ Высокоинформативные данные: использует передовую модель визуального языка LLaVA для создания точных подписей к изображениям. 📝🔍
INFO—PAPER—GITHUB(код, моделей пока нет) —HF(и тут)
🔥Denoising Diffusion Models: A Generative Learning Big Bang - Туториал
Ребята из NVIDIA и Стенфорда наконец опубликовали туториал по диффузионным моделям с CVPR 2023. Это обновленная версия похожего туториала с CVPR 2022, но улучушенная и с актуальными прикладными примерами.
Это, пожалуй, лучший курс по диффузионкам для вкатывания за 3 часа, состоящий из трех секций:
1️⃣ Fundamentals
Training, sampling, guidance
2️⃣ Applications on natural images
Architecture, editing, personalization, fine-tuning, "low-level" vision etc.
3️⃣ Applications on other domains
Inverse problems, video, 3d, motion, large content generation, etc.
Я хоть и видел его частично на конференции в этом году, а также его предыдущую версию в 2022, все равно собираюсь полностью еще раз посмотреть.
Видео (3ч)
Сайт туториала
Мой пост про любимые материалы по диффузионкам: тык.
@ai_newz
В Bing, кажется, добавили поддержку Dalle 3, можно поиграться по этой ссылке:
https://www.bing.com/images/create
Или попросить бинг-бота что-то нарисовать.
Промпт Dalle 3 слушает отлично, поэтому вот вам робо-техника из прошлого
как насчет стилизации БЕЗ ПРОМПТА? с новым IP-Adapter - запросто!
про IP-Adapter говорят что это "лора по одной картинке". он прекрасно работает в последней версии автоматика в расширении контролнет, нужно только скачать модели. есть версия для Comfy и в ней даже чуть больше возможностей!
волна хайпа до сих пор незаслуженно обходила IP-Adapter стороной и очень зря, потому что инструмент супер мощный. идеально делает вариации по входящему изображению без промпта. а еще позволяет неплохо смешивать картинки, но про это позже
насчет стилизации видео - сразу скажу, пайплайн еще очень сырой но точно стоит того чтобы хорошенько в нем покопаться. в анимации выше 2 версии, одна на ip2p, другая на temporalnet. в первой лучше держится стиль но сильнее гуляют формы, во второй лучше консистентность но картинка приобретает hdr эффект. моя локальная карточка не вмещает больше 3 слоев контрола за раз, возможно соединение этих двух подходов даст лучший результат
оригинальное видео и референс стиля плюс настройки - все в комментах
IP-Adapter project page и github
модели для автоматика
версия для Comfy
@тоже_моушн
Детальность
Хочется сразу подметить, что количество маленьких деталей и их качество невероятное, ждем доступа для всех, чтобы понять — отобранные ли это результаты или действительно новый уровень!
Пока есть только у некоторых пользователей ранний доступ. Обещают выдавать доступ внутри ChatGPT и по API в начале октября. И в Labs позже этой осенью.
INFO
Курс AI VideoLab
На этом курсе можно будет встретить меня, где я коснусь Gen-2, Pikalabs и AnimateDiff.
Покажу свой творческий процесс, расскажу особенности каждой из видеонейронок и их лимиты.
А так же на курсе:
Промпт-инжиниринг
Разберетесь, как текст влияет на содержание и стиль изображения, научитесь искать эффективные промпты и придумывать уникальные свои.
AI-Анимация
Лучшие инструменты, и не будем тратить ваше время на те, что уже устарели. Будем работать на новейшей SDXL, подключать Controlnet, управлять камерами, анимировать на seed и делать интерполяции.
Стилизация видео
Узнаете, как стилизовать и улучшать уже готовые видео.
Практическое применение
Создадите свой первый видео-шедевр с помощью AI и сможете показать его на выставке онлайн и на нашем сайте.
Курс подходит для тех, кто уже немного знаком с нейронками и дискордом, на мою часть можно приходить без опыта в нейронках.Подробнее и цена
AnimateDiff-CLI prompt travel
Построенный на еще старом алгоритме tune-a-video AnimateDiff развивается, и теперь в него входит:
☺️Поддержка Lora 🔥ControlNET ❤️Img2reference
👍Новый модуль движения motion_model_v15_v2
🍎Upscale 🐑Rifle - для создания промежуточных кадров (что очень важно, так как в среднем 8 кадров в секунуду)
🧐Prompt Travel
Остановимся как раз на prompt travel, в сочетании с модулем движения и ContolNET, мы получаем самый настраиваемый и гибкий инструмент для генерации нейронных видео.
То есть это в сравнение с Gen-2 и PikaLabs, AnimateDiff позволяет создать управляемое видео внутри пространства, меняя параметры камеры от 50мм до рыбьего глаза, менять предметы в руках персонажа и так же его окружение.
Да еще и opensource, и любимые Лоры из SD 1.5 можно взять.
📕 Больше инфы про AnimateDiff:
LINK
LINK
GITHUB—COLAB (Собрал под себя, нужно много всего менять, чтобы запустить, урок сделаю со временем)
InstaFlow: диффузия за 1 шаг
Главная проблема диффузий — это их скорость. Было много попыток сократить количество шагов сэмплирования, но дойти до скорости ГАНов до сих пор не получалось.
Авторы этой работы, вдохновившись идеями Optimal Transport, догадались, что основное препятствие при ускорении генерации — это нелинейные траектории апдейтов (см. картинку). Но если потюнить модель на задаче их "выпрямления", то потом она легко дистиллируется в одношаговую диффузию!
При этом качество проседает совсем незначительно (FID для Stable Diffusion: 10.7 → 11.8)
Статья, GitHub
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0
Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.
Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:
- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.
- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).
- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.
- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.
(Ждите серию постов про каждую из этих моделей)
Еще добавлены веса AudioGen и MultiBandDiffusion.
🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.
Блог
Код и веса
Демо в колабе
MusicGen ноутбук
@ai_newz
Прогулка в медузных лесах или круассановый чил?
Играюсь с AnimateDiff и радуюсь, как в те времена, когда генерация в Vqgan+clip настолько перевернула сознание, что я бегал по каждой кафешкb и мелкому бизнесу и предлагал им сгенерить красоту, что это создает алгоритм, а они шарахались от человека с абстрактными артами на уровне шизофрении.
А сейчас я позволяю себе тихо радоваться новой революции, без такого же безумия. Хотя это действительно новый серьезный шаг(не только про animateDiff, про Gen-1/2, PikaLabs и другие проекты)
, когда снять/перенести свои фантазии в реальность - это уже только вопрос навыков, а не риторический вопрос.
Помните генерацию QR кодов и специальные ControlNet веса для этого?
📕 Оказывается уже месяц, как есть веса для SD 1.5 и совсем недавно доступны веса для SD v2. Веса.
☺️ Алгоритм хорошо обрабатывает и текст, если подавать черно-белую картинку в препроцессор. Работает действительно на уровень качественней любых аналогов.
🔥 Встречаем вскоре бууум музыкальных красивых обложек с уникальной стилизацией текста. Спасибо за инфу
ТожеМоушн, в примерах можно увидеть как хорошо обработало чб лого с лорой и новым ControlNet весом.
Своими настройками тоже поделился.
neural.love
P.S. У давно появился очень крутой поиск по промтам и схожими с ними генерациями, потому оцените, если один из qr кодов заведет вас на сайт.
🦙 Llama 2 — Meta обучили и опенсорснули новую LLM Llama 2 (и внимание!) для коммерческого использования
Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)
Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
Обидно то, что еще обучали Llama2-34B модель, но не зарелилзили. Именно там самый высокий TruthfulQA = 67.20, против 64.14 у Llama2-70B
Лицензия позволяет юзать Llama-2 не только для ресерча, но и для коммерческих целей!
По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5
📄 Paper
📇 Blog
💻 Download Llama2
ChatGPT + Midjourney + Photoshop для описания новых эмоций
Лостальгия: стремление к знанию или пониманию, которое когда-то было, но теперь забыто. Это может быть вызвано тем, что вы столкнулись с темой или навыком, в котором вы были знатоком, но не практиковали годами.
Причудлизоляция: тайное удовольствие или гордость, которые человек испытывает, признавая их уникальные, причудливые черты, когда они одни. Это может быть вызвано специфическим хобби или привычкой, которые обычно не разделяются с другими.
Нейрожажда: сильное желание умственной стимуляции, обычно удовлетворяемое решением сложных задач или изучением новых навыков.
Зефирелла: неожиданная радость от легкого ветерка в жаркий день или от тонкого шелеста листьев.
Cветолибидо: искра волнения при обнаружении общего извращения или фетиша с партнером.
Оптинервный: смесь оптимизма и нервозности, ощущаемая, когда человек приступает к новому проекту или путешествию, надеясь на успех, но остро осознавая риск неудачи.
Эпикгоре: глубокая грусть, испытываемая при завершении любимой книжной серии или телевизионного шоу. Это траур по поводу завершения эпического путешествия с любимыми персонажами.
Шармеланхолия: грусть с оттенком очарования и ностальгии после романтической, но недолгой встречи с незнакомцем.
Глобалотревожность: незначительная, постоянная тревога по поводу глобальных проблем, таких как изменение климата, политическая нестабильность и т. д., которые затрагивают все человечество.
Автор.
STABLE DIGEST #10
🔥 Вышел новый дайджест от комьюнити SD. Новостей много, как и обучалок. Я решил отметить самые интересные новости:
🧐 SDXL 0.9 на первой полосе, здесь всем уже известно, новая супер качественная моделька от StabilityAI, интересно скорее посмотреть сравнительный анализ с Midjourney - об этом есть целый ролик от MattVidProAI.
☺️ Map Bashing. Представьте себе, что вы держите в руках волшебную палочку, которая дает вам силу сверхточной композиции с SD-моделями — вот что такое Map Bashing! Эта гениальная техника, которой поделился Оливио Саркарис на своем канале YouTube.
🔄 Zeroscope_v2_XL - это высококачественный файнтюн модели Modelscope, который многие уже с удовольствием использовали всю неделю. Подробнее о том, как его поставить в Auto1111.
🫥 Отдельно добавил в превью к посту работу - Sweet Dreams от AmliArt, это похожая на пастельный ч/б стиль анимация. Посмотреть полностью в хорошем разрешение можно в самом дайджесте.
❤️ STABLE SOCIETY DEEP DIVE - DiffuseTogether Winners! Или AI Оскар, как неофициально называют его участники и зрители. Первое место поделили две работы, но мне понравилась больше всего работа Junie Lau. Особенно ее подход к совмещению множества нейронок с разными техниками визуализации статичных изображений, работа цепляет с технической точки зрения и с творческой. Полная версия в дайджесте. Полный стрим конкурса (2 часа)
Джуни Лау, мультидисциплинарный художник из Шанхая и Лондона, создает работы, которые вдохновляют и бросают вызов. Ее искусство было отмечено престижной Королевской академией искусств Великобритании и британским Vogue.