derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

13183

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

А вот и двухминутная сцена из Fallout подъехала.

https://www.youtube.com/watch?v=Z_7jXPMu0Nk

Читать полностью…

Derp Learning

AnimateDiff Lightning

в 10 раз быстрее оригинального AnimateDiff.
Инструкции по использованию в ComfyUI прилагаются

#text2video

Читать полностью…

Derp Learning

StyleGaussian новая разработка, расширяющая возможности работы с 3D-сканами — перенос стиля с картинки на 3D среду. То есть можно отсканировать окружающий мир своим смартфоном и дальше красить как угодно.

Пока без демок, только с примерами и кодом. Выглядит пока страшненько, но все когда-то выглядело страшненько.

Читать полностью…

Derp Learning

Mapillary - уличные карты на стеройдах

Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.

Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.

Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!

Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app

@ai_newz

Читать полностью…

Derp Learning

Vision-RWKV

Неплохо, показывает себя наравне с ViT схожего размера (2-я vs 3-я картинка), но при этом отлично скейлится на большие разрешения, не улетая по памяти и времени инференса в космос.
И все это на базе RWKV-2, так что интересно посмотреть, как оно будет на RWKV-6, которую доучат через месяц.

Хочу аналог sora на D-VRWKV вместо DiT!

github
paper

@derplearning

Читать полностью…

Derp Learning

Учёные из Google Deepmind представили свою работу по созданию нейросети SIMA (Scalable Instructable Multiworld Agent, Масштабируемый Инструктируемый Многомировой Агент).

Цель SIMA - следовать инструкциям людей на естественном языке для выполнения задач в различных условиях видеоигр. Ученые объясняют её создание так: "как и в реальном мире, виртуальные миры в видеоиграх представляют собой насыщенную обучающую среду с быстро меняющейся в реальном времени обстановкой и целями".

SIMA - это ИИ общего назначения для виртуальных 3D-миров. Эта работа не направлена на достижение высоких результатов в таких играх, а скорее научится взаимодействовать с миром в целом. Научиться играть даже в одну видеоигру - это уже технический подвиг для систем ИИ, но обучение следовать инструкциям в различных игровых ситуациях может открыть более полезные применения ИИ для любой среды.

Пока что SIMA учится на девяти разных видеоиграх. Одна из них это No Man's Sky от студии Hello Games, а вторая - Teardown от Tuxedo Labs. На скринах можно заметить также Valheim, Hydroneer, Wobbly Life, Satisfactory и Goat Simulator 3.

Нейросеть обучают целому ряду навыков, которые ей нужно освоить: от простой навигации и использования меню до добычи ресурсов, полета на космическом корабле или же крафтинга.

Также ученые сделали четыре исследовательские среды на движке Unity, где агентам нужно строить скульптуры из строительных блоков, что проверяет их умение манипулировать объектами и интуитивное понимание физического мира.

Обучается она при этом на стримах людей-игроков, причём один игрок давал указания другому. Также нейросети наблюдают за тем, как игроки играют свободно, без указаний.

Текущая версия SIMA оценивается по 600 базовым навыкам, включая навигацию ("повернуть налево"), взаимодействие с объектами ("подняться по лестнице") и использование меню ("открыть карту").

Результаты работы SIMA демонстрируют потенциал для разработки новой волны универсальных, управляемых голосом ИИ-агентов.

Исследование находится на ранней стадии.

@zavtracast

Читать полностью…

Derp Learning

🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz

Читать полностью…

Derp Learning

Хотели сантабарбар? Их есть у нас.
Сэм Альтман вернётся в борду OpenAI.

Читать полностью…

Derp Learning

Amazon выпустил полноценный трейлер сериала по Fallout. Премьера — 11 апреля на Prime Video.

Напомним, что над проектом работают Джонатан Нолан и Лиза Джой. Они известны по «Миру Дикого Запада».

@zavtracast

Читать полностью…

Derp Learning

Иван Бегтин сегодня анонсировал новую платформу для поиска данных — Dateno.

Это сайт, на котором можно найти открытые данные и статистику со всего мира по поисковому запросу. На нём уже проиндексировано 10 миллионов датасетов (из них — 219 тысяч по России), а к концу года это количество планируют расширить до 30 миллионов. Можно указать тематику, язык источника, формат данных. А работает это уже лучше, чем тот же Google Dataset Search.

Портал пока находится в стадии беты, но уже работает:
https://dateno.io/

Читать полностью…

Derp Learning

Opensource решения для достижения качества SORA

Banodoco — опенсорс сообщество, которое много раз меня вдохновляло на новые идеи в создании анимаций через AnimateDiff и Stable Diffusion Video. Недавно они написали в дискорде по поводу развития опенсоурс видеонейронок:

SORA невероятно впечатляет, но контроль является самым важным аспектом для создания великого искусства, и благодаря работе сообщества, AnimateDiff сейчас значительно превосходит по точности управления движениями.

Чтобы дальше улучшить управление в AnimateDiff и помочь в раскрытии силы/ценности художественного контроля, мы можем сделать следующее:

№1: Удвоить наше преимущество в управлении, создав открытую армию Motion LORAs.

№2: Использовать весь наш контроль, чтобы создавать удивительное работы по всему миру.

Это краткое изложение основных моментов предложения по улучшению контроля в AnimateDiff и поощрению художественного контроля с использованием нейронок и открытых источников.


И действительно армия Лор уже начинает формироваться, вот некоторые из них:

Bubbling Rings
ANTs
Drone Orbit

Обучалка на английском как добавить Motion Lora в A1111 (с зумерским монтажом) Тут
Большая обучалка-стрим на английском про AnimateDiff в ComfyUI — Тут

От меня размышления: SORA ролики действительно впечатляют, только это черный ящик, судя по Dalle, где мы получаем невероятное понимание текста и при этом невероятные блоки на реализм, своих персонажей и качества выше 1024px, SORA будет такой же. Еще по GPU ресурсам: Не понятно сколько кластеров H100 используются для создания одного полминутного ролика.
Opensource варианты уже сейчас позволяют создавать 8к реалистичные картинки (да, это потребует опыта, кастомных решений и чуть больше прайса, чем одна картинка в Dalle).
Теперь мы приближаемся к видео генерациям, где у нас под контролем будут все параметры, при этом весь пайплайн будет собираться на локальных 3090 или T4 в аренде.

Читать полностью…

Derp Learning

https://www.wired.com/story/how-pentagon-learned-targeted-ads-to-find-targets-and-vladimir-putin/

Adtech is hell

Читать полностью…

Derp Learning

Эппл закрыла проект собственного автомобиля и перевела сотрудников на разработку проприетарных кабелей для Vision Pro 2.

Также, возможно, не смогли пройти сертификацию из-за нахождения порта зарядки в днище автомобиля, либо из-за невозможности продавать подушки и ремни безопасности по подписке, а также из-за невозможности поменять колесо вне авторизованного сервисного центра.

/s

Читать полностью…

Derp Learning

Chaos Next. Взрослые мальчики берутся за ИИ.

Вот интересная новость от Chaos Group - они внедряют ИИ в свои продукты. И это отличная новость - ибо помимо Unity все крупные 3Д-вендоры упрямо отмалчиваются и делают вид, что слово ИИ есть, а ИИ - нет.
Смотрите, что удумали Владо сотоварищи (дальше в порядке возрастания интересности и уникальности):

Style Transfer - тут все понятно, наваливание различных визуальных стили к рендерам на основе референсов.

Lifestyle Image - грубо говоря, генерация (и матчинг) фонов, для совмещения ваших продуктовых рендеров и окружающей среды.

Material Aging Simulator - моделирует естественный процесс старения материалов в 3D, не только для симуляции, но и для принятия проектных решений. Тут у Хаосов огромная экспертиза - я видел у них офисе многотонный сканер, в который можно присунуть кусок любого объекта - он его отсканирует и выдаст PBR-материал нечеловеческой точности.

PBR Rendering (text to materials) - это то, что также делает Юнити (писал тут) - создания сложных реалистичных PBR-материалов на основе текстовых промптов или рефов.

Smart Scene Populator - автоматическое ИИ-размещение объектов в 3D-сцене. Вот это уже интересно. Похоже на то, что делал (и делает) Прометей от Андрея Максимова, с которым мы как раз и общались про это на Total Chaos в Софии в 2018 году.

Set Extender - это как outpaunt, только полностью в 3Д(!). У вас есть 3Д-сцена, ИИ может ее достроить и расширить. Я заинтригован.

Historical Asset Learner - вот это интересная штука - 3Д-ассистент, который смотрит, что пользователь делал за последний условный год, какие ассеты пилил, и потом "предсказывает его потребности". Я заинтригован еще больше.

Intelligent Lighting Optimizer - автоматическая настройка освещения в вашей сцене!!! Ну за лайтинг-артистов.

И все это добро с Voice Interface - может орать в монитор на ИИ: "объекты создай, как я все время делаю, раскидай их по сцене, посвети как надо и привали на это модный нейролук". И кофе, без сахара.

https://www.chaos.com/next

Читать полностью…

Derp Learning

Когда открыл чужой пайплайн для comfyui

Читать полностью…

Derp Learning

its not a world model if its not hype enough - open sora

Китайская версия Sora начала учиться чуть больше месяца назад, и за всего то 200 а100 дней и 400к видео начала генерировать вполне неплохие 2s видео!

А, это не финальный чекпоинт и это всего 16×512×512

repo
blog про ускорение обучения

Читать полностью…

Derp Learning

Чел в кожаной куртке : “ChatGPT момент для роботов может быть уже за углом”

На вчерашнем ивенте Дженcен Хуанг, CEO Nvidia, представил новые GPU, а также анонсировал GR00T - Generalist Robot 00 Technology.

GR00T (отсылка к Марвелу) позиционируется как foundation модель для будущих роботов, от простых манипуляторов до робо-гуманоидов. Моделька способна обрабатывать мультимодальные данные, такие как видео, текст и другие сенсоры, выдавая действия робота в ответ на различные ситуации. В придачу с ним можно разговаривать и голосом – LLM-ка все осилит. Кроме того, GR00T может обучаться эмулировать действия, наблюдая за человеком.

Однако данных для тренировки таких роботов не наберешься, как я уже говорил, например здесь. Поэтому Nvidia представила обновленный Isaac Lab – среду для обучения роботов c помощью RL в симуляции, максимально приближенной к реальному миру.

Так например натренировали Isaac Manipulator – это умная роборука. Эта штука может выполнять простые задания получая на вход текстовые указания и на лету адаптироваться к изменяющимся условиям, находя новое решение для задачи. Скоро на заводах тоже пройдут лэйофы, ведь люди больше не будут нужны : )

А гоняется моделька GR00T на мобильном GPU-чипе Jetson Thor (800 TFlops в FP8), специально разработанном для управления роботом с минимальной задержкой.

Похоже, Nvidia хорошо так притопила в разработке роботов. В ближайший год стоит ждать больше и больше новостей про умных гуманоидов.

@ai_newz

Читать полностью…

Derp Learning

https://github.com/xai-org/grok

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Читать полностью…

Derp Learning

Все уже наверное слышали про генератор песен suno.ai — но я тут обнаружил, что если скармливать туда стишки-пирожки (привет 2011) и выбирать разные стили металла, то получаются дико легендарные баллады, сделал вам подборку 🍊

Теперь моим планом «Б» будет выступление глэм рок группой на свадьбах

Читать полностью…

Derp Learning

Немного проклятого вам с утра пораньше

Читать полностью…

Derp Learning

Код есть - колаб тута

@derplearning

Читать полностью…

Derp Learning

QLoRa + FSDP: Finetune 70B models on Dual 24GB GPUs

Джереми пробудился! :D
Котаны из answer.ai, huggingface и Mobius Labs запилили пайплайн для народного тюна 70b моделей.
Теперь для лор не нужно 48гб VRAM, а можно разбить на 2х24 или 3х16, практически без потери в скорости.
Самое время наведаться к соседу за второй видюхой :D

Cуть подхода такова:
Берем 4-битную квантованную 70B модель, весящую 35Gb. Тренить ее саму мы не можем из-за квантования, но можем тренить ее лору. Это, собственно, и есть QLoRA.
Для этого нам все еще нужно 48Gb VRAM.
Мы можем раскидать ее на 2х24Gb GPU послойно, но тогда мы потеряем половину вычислительной мощности, так как слои будут обрабатываться последовательно. Тут-то на помощь и приходит FSDP или Fully Sharded DataParallel. Этот подход позволяет все так же раскидать слои по разным видеокартам, но обрабатывать данные параллельно, подгружая следующий слой с соседних видеокарт, пока обрабатывается предыдущий, а затем выгружая обратно.


твит
код
подробнее

@derplearning

Читать полностью…

Derp Learning

Какието 🤡 исследователи с хабра:
Meanwhile, anthropic be like:
(Annual Salary:
The expected salary range for this position is $280k - $405k USD.)

Вакансия

Читать полностью…

Derp Learning

Чюваки из стабилити так активно генерили очередной датасет в миджорни, что положили серваки аж на целые сутки, за что и были торжественно зобанены всем бараком

Смех да и только 😂

А если серьезно, то что это за стартап такой (с оборотами в сотни миллионов долларов), который не смог выдержать нагрузку в виде пусть даже сотни ботов, генерящих картинки?
Что касается банов, не факт, что это нарушает условия их сервиса напрямую, ведь он платный.
Больше похоже на борьбу с потенциальными конкурентами.


Твит от мж

Читать полностью…

Derp Learning

Помните я писал про секретный анонс фичи Gemini, который никто не продвигал, был лишь один ролик? Вот тут: /channel/seeallochnaya/911, суть в том, что под каждый запрос LLM генерирует код интерфейса, в котором нужно показывать пользователю ответ, а затем уже его наполняет.

Vercel, компания, предоставляющая облачный сервис для развёртывания сайтов, обновила AI SDK до версии 3.0, добавив туда такую фичу. Формочки на демо не предзапрограммированны, а создаются на лету и могут содержать любой контент в любой форме. Думаю, что через пару лет такая персонализация будет широко распространена — особенно с учётом количества пользователей, на которых можно запускать A/B тесты и оптимизировать интерфейс до мельчайших деталей. И главное программисты, перекрашивающие годами две кнопки, будут не нужны!

Читать полностью…

Derp Learning

Dune 2 Спойлер без контекста

Читать полностью…

Derp Learning

Помните пару лет назад была нейронка First Order Model которая анимировала картинки по видео примерам? Ее наследие живо, встречайте Emo – качество впечатляет, теперь осталось самим потестировать

Сайт проект:
https://humanaigc.github.io/emote-portrait-alive/

Код будет позже

Читать полностью…

Derp Learning

Генеративные модели достигли в программировании уровня сеньоров

Читать полностью…

Derp Learning

Новое sora-видео – я листая ленту даже не сразу понял, что это генерация ☕️

Теперь OpenAI каждый день openai/">постит в тикток кстати

Читать полностью…

Derp Learning

"OpenAI sora casually drops the most brutal trolley problem solution" 😅

Читать полностью…
Subscribe to a channel