Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
🔥Вышла Gen3-Alpha - очередная text-2-video модель
Авторы заявляют, что Gen-3 Alpha является первой из серии моделей, которые обучены Runway на новой инфраструктуре для large-scale мультимодального обучения. Модель значительно улучшили по сравнению с Gen-2 [уж, надеюсь! гляньте что он вытворял раньше] в плане точности, конситентности и движения. Якобы это шаг к созданию общих моделей мира (расхайпованые World Models). Обещают улучшеный контроля над генерацией с помощью дополнительный тулов (Motion Brush, Advanced Camera Controls, Director Mode). Ну посмотрим, че.
Модель пока нельзя никому потрогать, да и тех-репорта даже нет. Только примеры на сайте показали, которые выглядят хорошо!
Блогпост с примерами
@ai_newz
Сбер проведет открытую технологическую конференцию GigaConf 2024.
27 июня в «Дизайн заводе» соберутся ведущие инженеры и разработчики из Сбера, Билайна, Positive Technologies, Т-Банка, МТС и других компаний.
Вместе они погрузят вас в темы:
— машинное обучение и искусственный интеллект;
— инструменты разработчика;
— DevOps;
— инженерия данных;
— безопасность приложений;
— системный анализ
— инновации и стратегии.
Зарегистрироваться и узнать подробности можно на сайте конференции.
Участие бесплатное!
#промо
Нейродайджест за неделю (#22)
Жаркая вышла неделька.
Хайптрейн видео
- Сравнение Kling vs Sora на похожих промптах. Эх, тогда мы даже не знали о Luma…
- Мои тесты Kling на промптах из комментариев.
- А вот нашумевшая Luma (т.к. доступна всем). Тесты с теми же промптами.
- Твиттерский собрал целый клип за вечер вместе с Luma.
- Мемесы от Luma. Как это развидеть?
- Подъехал официальный гайд по Luma.
- Вот еще GPT'шка для написания промтов для Luma.
- Follow-Your-Emoji. Завезли ControlNet для лица и первый бенчмарк.
Новые приколы от OpenAI
- За стол OpenAI садится товарищ генерал из АНБ (КГБ). Теперь все серьезно. Пол Накасоне должен будет отвечать за “безопасность”, но это не точно:)
- Чел топил за продление и ужесточение акта о массовой слежке в США (FISA). Может, все не так плохо, но вот подробности.
- POV: Видео с места событий в АНБ.
LLM
- 4-х часовой гайд по трейну ЛЛМ от Карпатого. Пилим свой GPT-2 с пошаговым гайдом.
- YaFSDP – ускоряем трейн ЛЛМ за счет грамотной оптимизации. Яндекс тоже что-то может.
Преза Apple WWDC
- Image Playground. Ну теперь-то погенерим стикеры.
- AI – Apple Intelligence. Главные вкусности iOS 18.
- Рынок: революшен не произошел.
- А вот у Маска с таких нововведений пригорело. Чел грозится забанить все айфоны и маки, если новый функционал невозможно будет отключить. Боится сливов (новость выше видели?). Ну ладно, храни свои секреты…
Прочее
- Nvidia теперь дороже всего рынка Германии, лол. Кожанка взял свой третий триллион.
- SD-3 Medium. Веса лежат там, где им положено. Но к новой версии есть пара вопросов: что там с анатомией?
- Flappy Bird на чем угодно. Старый добрый Code Bullet пришел с очередным приколом на выходные.
> Читать дайджест #21
#дайджест
@ai_newz
Вышел официальный гайд по генерации видео в Luma и о том как правильно составлять промпты.
Вот держите перевод самого основного:
Image to Video
- Загрузите изображение в формате JPG, JPEG или PNG, нажав на иконку изображения на странице генерации. Вы также можете добавить текстовое описание сцены.
- При включенной опции "Enhance Prompt" вам нужно только описать, что должно происходить в сцене. Например: <image of a car> + "*a red car driving on a road*"
- Особенно полезно описывать типы движений, которые вы хотите увидеть в видео.
- Если вы не можете получить желаемый результат, попробуйте отключить опцию "Enhance Prompt". В этом случае требуется описать изображение + что должно происходить в сцене.
- При неулучшенных описаниях вы можете увидеть отсутствие или низкую динамику движения. При необходимости попробуйте включить в описание подсказки о движении.
- В любом случае, полезно как можно подробнее описать важные детали изображения, какие действия выполняются и как должны двигаться различные части сцены. Например, A woman dancing ballet, her arms gracefully extending upward as she twirls around, the dancers behind her bowing low to the ground.
Text to Video
- Отличный способ начать получать хорошие результаты - использовать "Enhance Prompt". Включив эту опцию, вы можете использовать короткие описания, такие как *"a teddy bear swimming in the ocean"*, и Dream Machine автоматически сгенерирует дополнительные описания, чтобы помочь создать более детальную генерацию.
- Если вы не можете получить ожидаемые результаты, попробуйте без "Enhance Prompt". Неулучшенные описания должны описывать содержание сцены и желаемое действие (3-4 предложения). Например: "*In a somber, nostalgic style, a young man sits on a tree stump in a forest, the warm autumn leaves surrounding him. He wears a brown jacket, dark shirt, and blue jeans, his fingers deftly moving along the fretboard of an acoustic guitar.*"
- В целом, вы можете получить лучшие результаты, если будете более конкретны в отношении:
- Движения камеры: *"A dramatic zoom in", "An FPV drone shot"*
- Действий и движений: *"A teddy bear swimming with its arms and feet as the turbulent water splashes all around"*
- Особенностей объектов: *"A white teddy bear wearing sunglasses with soft fur texture"*
- Обстановки и фона: "A beautiful cloudy sunset near a Caribbean beach"
POV: Пол Накасоне заходит в АНБ после назначения в совет директоров OpenAI заниматься кибербезопасностью.
@ai_newz
Вот так новость! В совет директоров OpenAI вчера назначили Генерала армии США в отставке, Пола Накасоне.
А генерал оказался не простой, он до недавнего времени был и директором Агентства Национальной Безопасности (американский аналог КГБ/ФСБ), а также главой Киберкомандования США, основными задачами которого являются централизованное проведение операций кибервойны, управление и защита военных компьютерных сетей США.
Говорят, что он будет отвечать за кибербезопасность в OpenAI. Хмм.. "Волк будет отвечать за безопастность овец" - такие комментарии я встретил в сети.
По этому поводу также высказался Эдвард Сноуден, который работал в АНБ:
Они сняли все маски: никогда не доверяйте OpenAI или ее продуктам (ChatGPT и т.д.). Есть только одна причина для назначения директора АНБ в совет директоров. Это преднамеренное, рассчитанное предательство прав каждого человека на Земле. Вас предупредили.
"Мы хотим убедиться, что американские компании, которые лидируют в инновациях этой технологии – я думаю, это разрушительная технология этого века – будут продолжать иметь широкое преимущество перед любой другой враждебной нацией",
- сказал Накасоне, отвечая на вопрос об искусственном интеллекте во время недавнего интервью
.
Follow-Your-Emoji:Fine-Controllable and Expressive Freestyle Portrait Animation
Тут завезли нормальный липсинк. Follow Your Emoji берет на вход видео с вашими кривляньями, переводит их в последовательность фреймов с лендмарками, а затем использует их чтобы драйвить входное фото. Это controlnet для лица на стеройдах, который очень хорошо сохраняет личность на входном фото. Все на базе SD.
Вышло настолько хорошо, что методу под силу не просто рот вовремя открывать, но и глаза косить, смеяться (и чихать, я думаю, тоже) см. примеры, авторы там знатно поиздевались над своим творением.
Код вроде как должны выложить, на project page уже есть ссылка, но пока в никуда.
Еще есть бумага.
@ai_newz
Просто жир! Пример того, насколько Luma становится лучше, когда на вход подаются первые кадры + пропмт.
Твитторский склеил целый клип – выглядит эффектно. Понятно, что человек потратил немало времени на черипикинг и промтинг. Все же, я бы сказал, что это близко к уровню черипикнутой СОРЫ – ну а другой СОРЫ мы ведь и не видели, т.к. ее никому не показывают хех.
@ai_newz
Вот мой честный тест генерации видео с помощью Kling. Выбрал интересные промты из ваших комментариев, плюс добавил несколько своих.
Получаются видосы только по 5 секунд (увы), а генерация каждого занимает ~3 минуты. Как я понял, генерят на видеокартах A100, потому что США ввели полный запрет на поставку видеокарт H100 в Китай.
Комменнтарии по качеству:
- В Kling добились доволно высокого качества генерации людей и их лиц. Посмотрите на чела, поедающего пасту. Тут все очень реалистично вышло – от пальце рук до мимики лица. Правда модель не знает, кто такой Вилл Смит 😢. Еще небольшие артефакты всё же сть на ногах женщины на последнем видео (8) и на бегающих глазах программиста (6).
- Аниме получилось не очень, как будто наложил некий фильтр на реальное видео.
- Панда паркурит без артефактов, но вот движения почти нет.
- Забавно человек меняет колесо. Наверное в датасете не очень много сложных интеракций человека с предметами.
- Галактика выглядит прикольно, но как будто это зум-ин в статичное фото.
Промпты с Винни-Пухом и всем что связано с правительством, конечно же не проходят. Как сказал мой друг – Добро пожаловать в Китай, это базовые фильтры, которые есть во всех приложениях китайского интернета.
1. Will Smith eating pasta
2. Hatsune Miku dances on the concert stage in the middle of the camera, and holds a microphone in her hands, high quality masterpiece dance animation, anime video, MMD, Miku Miku Dance, from NicoNicoDouga
3. A panda doing parkour, jumping from a building to another building, doing somersault in the air
4. A man changes a car tire while the car is moving
5. A UFO lands in the park, shooting on an old smartphone
6. A group of software engineers in a meeting in a room
7. Near-light speed flight near the Andromeda galaxy
8. A 55 years old woman doing yoga asanas outside in a central park.
🔥Веса SD-3 Medium уже доступны!
Как и обещали, Stability релизнули Stable Diffusion 3 Medium с двумя миллиардами параметров. Она бесплатна для некоммерческого пользования. За коммерческое использование придётся платить: $20 в месяц для индивидуальных пользователей и небольших бизнесов, для бизнесов побольше - энтерпрайз лицензия.
Поддержка модели уже есть в ComfyUI, для автоматика придётся подождать.
Судя по публичным заявлениям сотрудников Stability, 8B модель ещё тренируется (что-то очень долго они ее уже тренируют). Но непонятно почему не релизнули 800m "Small" версии.
В комментах пишут, что модель влазит в 6GB видео памяти.
Блогпост
Веса
@ai_newz
Пока я был неделю в отпуске в Морокко, NVIDIA перевалила за ТРИ триллиона $$$ и стала дороже чем Apple – несмотря на их вчерашние релизы – и дороже чем все немецкие компании, торгующиеся на бирже, вместе взятые!
Поздравляю всех, кто имел прозорливость проинвестировать в NVIDIA несколько лет назад.
@ai_newz
Рыночек ожидал явно большего от эпл эйай. Хотя неплохо вроде бы выступили. Купертиновский оверхайп?
По сути технологических инноваций особенно не было - но новыми интеграциями с iOS упростился порог входа для использования AI-инструментов для многих миллионов обычных пользователей, что тоже круто!
@ai_newz
Image Playground - новый генератор изображений от Apple, работает локально
@ai_newz
Полевой тест: Kling vs SORA
Уже начали выдавать доступ к китайской модели для генерации видео Kling (пост о ней) первым юзерам. И в твиттере уже провели ее сравнение с моделью SORA от OpenAI.
Я вижу, что SORA всё-таки генерирует более кинематографичные видео с большим количеством движения объектов и камеры. Обратите внимание, как во многих примерах камера в Kling почти статичная. Ещё, кажется, у Kling в тренировочном датасете были более простые стоковые видео, тогда как SORA тренировали на более качественных роликах.
Однако, стоит учитывать, что это сравнение не совсем честное – так как мы видим примеры Kling, сгенерированные обычным юзерами, против очень сильно черепикнутых промо-видео от SORA, бог знает за сколько попыток сгенерированных. Так что ждём честного сравнения, когда у кого-то появится доступ к обеим моделям!
@ai_newz
Нейродайджест за неделю (#21)
Генеративные модели
- Kling! Ооо, вот кто нас порадовал генерацией видео на этой неделе. Китайцы подготовили достойный ответ Соре, и он уже доступен для тестов счастливчикам с китайским номером или ID. Дорогие подписчики, у кого-то вышло получить доступ? ( Примеры | Танцульки )
- SD 3 на следующей неделе. 12 июня выложат веса Medium модели всего на 2B. Ну и ладно, сами прикрутим еще пару миллиардов параметров.
- Nvidia RTX Remix тулкит для ремастеров игрушек нулевых вместе с комфи, которая уже стала новым стандартом. Rip автоматик.
- Релиз Stable Audio 2, почти сразу после громкого слива, который оказался версией Open 1.0, но качество по-прежнему не очень.
Птица говорун
- Qwen 2 — ещё одна новинка от китайцев. Ламу 3 побили на бенчмарках, но не на арене.
- Diffusion On Syntax Trees. Интересный подход к генерации кода. В процессе денойзинга вносят изменения в синтаксическое дерево кода.
- Репорт о запасе данных в интернете + мои мысли. Пожалуй, уже точно можно сказать, что дата — это новая нефть, так вот оказывается, она почти закончилась.
- К2 — модель, которой нечего скрывать. Можно взглянуть и наложить свои грязные ручонки на всё, от кода до промежуточных чекпоинтов.
Прочее
- Заметки с презы AMD (помимо SD3). Новые GPU и прочие вкусности для датацентров.
- Маск то ли троллит, то ли несёт чушь. В Тесла реально нет CNN? Пацаны и дамы, верим да/нет?
> Читать дайджест #20
#дайджест
@ai_newz
🥳Вышел NumPy 2.0!🥳
Релиз монументальный - с 1.0 прошло почти 18 лет. Запакован на полную:
➖ Бинарник на маках "похудел" в три раза, при этом став до 10x быстрее
➖ Добавили нормальную поддержку строк - наконец-то
➖ Сортировка теперь использует проц на полную и быстрее вплоть до 16x на современных машинах
➖ Вынесли мусор из библиотеки - неймспейс numpy.lib
сократился на 80%
➖ Теперь numpy.save
может сохранять массивы больше 4 гигабайт
➖ Добавили кучу quality of life фич и отполировали шероховатости
Всё это не давала сделать обратная совместимость, сейчас её сломали. В целом стало лучше, но библиотекам которые использовали numpy напрямую, а не через Python, придётся обновляться.
Го тестить
Гайд по апдейту
Патчноуты
@ai_newz
OpenAI может перестать быть некоммерческой организацией
По данным источников The Information, Сэм Альтман заявил акционерам что компания рассматривает возможность изменения структуры управления. Один из вариантов - превратиться в benefit corporation, неподконтрольную совету директоров нонпрофита OpenAI. С такой структурой будет возможно даже IPO.
За такой переход давно выступает ряд топ-менеджеров Microsoft, ввалившей в OpenAI 13 миллиардов. Это им позволит избавится от "потолка прибыли" и пункта об избавлении OpenAI от обязательств перед Microsoft в случае создания AGI. Речь идёт о немалых деньгах - выручка OpenAI проецируется в 3.4 миллиарда долларов в год, при этом за последние полгода она удвоилась.
Маск, от такого хода, будет явно опять бомбить, ведь XAI будет сложнее конкурировать. Но спрашивать его никто не собирается.
Короче, по-любому скоро нужно будет переименовывать компанию.
@ai_newz
Думаю, вы все уже попробовали прекрасную #Luma (ну или покекали с чужих видео). Поэтому просто оставлю здесь свежесобранную GPT'шку, которая создает эффективный видео-промт из вашей статичной картинки (потому что я устал каждый раз заново описывать изображение).
Механика максимально простая: загружаете картинку, получаете промт для видео, затем идете с этой картинкой в Luma, ждете вечность и получаете прекрасный результат.
GPT'шка: https://chatgpt.com/g/g-bzMStKpAj-luma-dream-machine-promt-enchancer
Нашел вам видосик на выходные, парень закодил игру flappy bird прыгать на ...
На рабочем столе. Или хз как это еще описать. Крч, птичка — это одно окно, трубы — это другие. Можно открывать поверх чего угодно (мой любимый с obs там прям фрактал получается).
А еще птицу можно запустить в пэинте, проводнике, таймлайне премьер про. Но там не так круто, как здесь, конечно. Ну и без помощи гптишки для написания этой игры не обошлось, что автор и показывает на видео.
Вроде даже код хотели выложить, но я так и не нашел. Мб потом появится, а пока смотрим видосик.
Вообще - это Code Bullet, рекомендую глянуть, кто только вливается в ML. Мне кажется, именно так, с фаном этим всем и можно заинтересоваться. У него есть еще прикольные видосы по Reinforcement Learning, и где-то на ютубе даже лежали переводы.
Часть 1
Часть 2
@ai_newz
Конечно, мы не знаем на 100%, каковы будут последствия прихода генерала в OpenAI. Но мы знаем, что Пол Накасоне был один из тех, кто мощно топил за продление и ужесточение акта о массовой слежки в США (FISA), что даже написал про это целый лонгрид в Washigton Post. Акт, кстати, и продлили в апреле еще на два года. Буквально за несколько часов до истечения его действия.
Подробности про FISA акт и почему он очень противоречивый, можете прочитать тут (The Guardian).
@ai_newz
Это слишком хорошо, чтобы не поделиться! Подавал в Luma всякие картинки, и набаловался до такого.
Конечно, во многих случаях персонаж с каждым следующим кадром все сильнее и сильнее отходит от оригинала. Внешность не сохраняется 😢. Короче до AGI и до СОРЫ еще далеко.
Какой видос вам больше всего приглянулся?
@ai_newz
⚡️ Stable Diffusion 3 уже в Телеге!
Разработчики из Fabula AI уже добавили новейшую нейронку на свой сайт и в телеграм-бота. SD 3 Лучше распознает запросы и умеет в картинки с текстом.
Чтобы быстро и бесплатно попробовать SD 3, не поднимая модель локально, можете воспользоваться ботом @fabula_ai_bot
#промо
Вчера ещё зарелизили генерацию видео от Luma - очень достойный результат. Но кода или тех-репорта не будет, так как это сугубо продукт.
Я сделал для вас генерации с теми же промптами, что и Kling в предыдущем посте. А последние 3 видео - это черипики из твиттера, где на вход подавалось фото.
Мое комментарии по результатам:
- Генерит все также по 5 секунд, время генерации одного клипа сравнимо с Kling.
- Эстетическое качество хуже чем в Kling (если судить по первым попыткам). Однако гораздо больше движения в кадре, хоть оно иногда и не имеет смысла, как в случае с пандой или человеком, который должен был менять колесо в машине.
- Если же на вход подается первый кадр + промт, то результаты выходят заметно лучше. Можно прям классные ролиик создавать, генеря ключевые кадры с помощью MJ. Но опять же, видосы из твиттора сделаны не за одну попытку и требуют промпт инжениринга.
Еще видосы по похожим промптам есть у Саши в канале: пост.
Вы может потестить Luma сами, без вейтлиста: lumalabs.ai/dream-machine
@ai_newz
YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей
Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.
Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.
Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.
Как такое возможно?
* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.
* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.
* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.
Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.
@ai_newz
😜У моего друга китайца появился доступ к Kling! Сейчас будем вместе с ним тестировать.
Покидайте интересные промпты в комменты (лучше на английском). Потом выложу генерации в канал.
@ai_newz
Маск сгорел с анонсированного доступа Сири к личным данным и собирается запретить девайсы эппл в своих компаниях.
Да-да, даже макбуки
@ai_newz
🍏 AI это теперь Apple Intelligence
Ну что Тим Кук и его команда провели свой wwdc. Новостей много – интересно пощупать на деле. Очень надеюсь, что Siri наконец перестанет быть бесполезной звонилкой, которой народ обычно пользуется за рулём.
Выбрал для вас самое интересное:
Выкатили так называемую систему личного интеллекта Apple Intelligence (AI), которая будет глубоко интегрирована в iOS 18, iPadOS 18 и macOS Sequoia. Да, название звонкое придумали.
Новые чипы Apple Silicon A17 Pro и M-серии будут оптимизированы для работы с языковыми моделями и моделями генерации изображений. Вот что они смогут делать ЛОКАЛЬНО:
➖ Ассистент для письма, работающий по всей ОС
➖ Появятся новые AI-функции в приложениях Mail, Notes, Safari, Photos и других, включая генерацию текста и изображений:
* Самари и разметку приоритетов уведомлений
* Генерировать эмодзи и картинки
* Поправлять скетчи внутри заметок и генерить картинки по ним
* Поиск текстом по видео в вашей галлерее! И можно попросить слепить из них ролик по промпту.
➖ Новая Siri - основана на LLM, понимает контекст, с ней можно чатиться текстом. Вот здесь писал про слухи об этом.
* Siri может пользоваться приложениями
* У неё теперь есть доступ к эмейлам и другим приватным данным, которые обрабатываются локально
* На случай если локальной LLM не хватает есть Private Cloud Compute - возможность запускать облачную LLM на серваках Apple работающих на собственных чипах, обещают что данные нигде не сохраняются
* Теперь у Siri будет интеграция с ChatGPT, обещают другие модели позже
➖ Для разработчиков будут доступны API для интеграции AI-функций в их приложения без дополнительных усилий
Кроме этого, добавили всякую модную кастомизацию и так по мелочи. Вроде бы все неплохо, есть интересные моменты, но акции чет просели, видимо инвесторы ожидали большего 🤷♀
Ждем дальше когда Siri станет полноценным агентом.
@ai_newz
Через 15 минут начнётся основная презентация WWDC от Apple
Жду интеграцию ИИ всюду. По слухам, за это будет отвечать как и своя моделька, on-device, так и облачная, от OpenAI.
Я, конечно же, расскажу об интересных анонсах с презентации, а пока можно посмотреть стрим.
@ai_newz
😮Карпатый выпустил туториал о тренировке LLM с нуля
За 4 часа он с нуля пишет GPT-Nano, при этом объясняя каждый шаг. Пока что на Python и только про претрейн, но обещает сделать туториал о создании llm.c и сделать туториал про файнтюн.
Почему он учит GPT-2? Это первая LLM, с неё и началась современная эпоха. К тому же, между ламой и GPT-2 всего дюжина отличий, но GPT-2 Small можно полностью натренировать на одной GPU и сравнить свой трейнинг ран с результатами пейпера. С ламой такое не прокактит.
Туториал
Код
#ликбез
@ai_newz
Diffusion On Syntax Trees For Program Synthesis
Диффузия для генерации кода. Вместо добавления шума в эмбеддинги текста, авторы вносят рандомные изменения в синтаксическое дерево кода (grammar-based fuzzing). Таким образом код всегда можно исполнить и увидеть насколько близко он к результату.
Натренировано пока что лишь на задаче воспроизведения кода рисующего картинку. Подход интересный, хочу увидеть его в других задачах.
Чисто теоретически это же можно делать с воркфлоу ComfyUI, но зачем?
Пейпер
Сайт
Код (с весами)
@ai_newz