Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Секреты успеха от Ильи Суцкевера или как поднять $1b на 1 хтмл страницу:
1) $1b поднимайте
2) не $1b не поднимайте
Когда девушка попросила сводить ее куда-нибудь в дорогое место
Читать полностью…https://fxtwitter.com/ArdaGoreci/status/1830744265007480934
Читать полностью…Тут я бы приподнечокнулся за будущий геймдев, Виар и даже vfx.
Как вам темпорально стабильные 4д видео на сплатах, которые стримятся с ссд лаптопа и рендерятся 500 фпс.
Как пишет мне Андрей Володин, скоро уже будут в проде.
По ссылке почитайте подробный тред, как они дошли до жизни такой, почему весь опенсорс надо переписывать, как добиться темпоральной стабильности, особенности тренировки моделей, квантизацию и прочий фарш.
И все это сплаты, Карл! Включая волосы.
Ну, за часть пайплайнов VFX и gamedev.
https://x.com/s1ddok/status/1830680881050046756
@cgevent
Ну, за кожаных инфлюенсеров.
Сколько им осталось? Полгода?
Липсинк постепенно переходит в список решённых задач...
Потом придется создавать резервации типа кожаного тиктока или инсты, куда вход разрешен только белковым сущностям.
С жоской аутентификацией, KYC, биометрией, отпечатками пальцев, faceID.
Хотя faceID уже обходится генеративным контентом.
В общем кожаным пора строить свой новый интернетик.
@cgevent
С ростом популярности видео генераторов появляется все больше людей, которые хотели бы попробовать сделать свое кино с нуля (мне тоже хочется)
Наткнулся на анимированный гайд от Disney который расскажет как именно снимают фильмы и как браться за эту задачу в целом:
https://disneyanimation.com/process/
Точно в избранное
Небольшой дайджест за день по FLUX
🔥 Flux подборка присутствия в датасете художников.
📕 Flux LORA база данных Текстуры | Стили
Картинки — мои примеры генераций с супер детальным пайпалйном с двойной инъекции шума в латент от Маттео. Json в комментах. Он адаптирован под капшионинг через Florence2.Читать полностью…
T2V model CogVideoX-5B
🔥 Выложили веса для CogVideoX-5B — опенсорсный text2video, и уже есть готовые ноды для инференса в ComfyUI, даже с возможностью Vid2Vid.
📕 Для ComfyUI можно использовать T5 энкодер, который для Flux и SD3. А еще ест 13-14GB в пике, но только VAE. Сэмплинг кушает только 5-6GB.
COMFYUI—HF_WEIGHTS—GITHUB
Внимание! Hugging Face представляет конструктор «Собери сам роборуку и обучи ее»
Вкомплект входит:
- Конструктор «Собери сам» — роборука с ссылками для заказа запчастей ~ $300 (опционально есть еще вторая за $250) + файлы для принтера.
Гайды по:
- Cборке и калибровке.
- Записи собственного датасета на камеру телефона.
- Тренировке нейросетей для управления рукой.
Прикольная инициатива, ребята надеются максимально помочь начинающим в надежде привлечь больше рук (кожаных, а не робо-) в опен-сорс, что, в общем-то, шикарно!
Расходники вышли дороговатыми, но это уже не $108K за домашнего робогуманоида + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки.
Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки. Здесь для обучения используется способ, похожий на тот, что я описывал в посте про живую сталь. Там можно почитать подробнее.
Хотел бы я подарить такую штуку себе 15 лет назад.
Туториал на гитхабе
Тред с гайдом получше (есть и видео и ноутбуки с тренировкой нейронок)
@ai_newz
В Boston dynamics мы больше не инвестируем
(Хотя первые две скорей всего живые)
Ситуация с Дуровым сложная для Telegram
Опущу разные домыслы в стиле знал ли Павел, что его арестуют во Франции (потому что если знал, то это уже конспирологическая теория без каких-то пруфов) – и попробую оперировать только известными и подтвержденными фактами
1. В розыск его объявили за несколько минут до приземления, это требует координации разных служб, так что можем спокойно предположить, что его задержали настоящие спецслужбы
2. Судя по обвинениям – ему вменяют проблемы модерации Телеграм, потому что почти каждый пункт так или иначе про бездействие администрации, что местные власти расценивают как «пособничество» – будь я Цукербергом я бы во Францию теперь не ездил; обвинения настолько «объемлющие» что в чем конкретно Павла обвиняют не ясно, все это можно быть просто поводом к задержанию и взяли самую удобную статью обвинения
3. При этом, Телеграм сотрудничает с правительствами, например после блокировки в Бразилии, Телеграм исполнил требования регулятора и блокировку сняли – это подтверждает, что Телеграм сотрудничает с властями, иначе их удалили бы из сторов в целом
4. В Нидерландах есть закон о прозрачности полиции, где-то год назад я видел статью от местных журналистов что они получили от полиции официальные формы запроса данных о пользователе в Telegram. В форме можно запросить и IP, и номер телефона (вот пример такой формы )
5. То есть мы точно знаем, телеграм подчиняется законам разных стран и удовлетворяет их запросы – получается французское правительство хочет чего-то большего, чем текущие коллаборации
6. Гадать что именно хочет французское правительство смысла нет: потому что между «это может быть банальная попытка усложнить местным ОПГ жизнь» и «Телеграм активно используется как военный мессенджер одной там страной справа от ЕС и доступ к серверам переломит ключевое место коммуникации армии» могут поместиться вообще все гипотезы мира, поэтому просто ждем новых вводных и рассчитываем на публичный суд
Почему, как мне кажется, ситуация сложная для Телеграма:
– Если Павла отпустят под залог и дадут уехать, конспирологи поверят, что Телеграм скомпроментирован, Павел сдал «доступы» и репутация Телеграма как безопасного мессенджера пострадает
– Если Павла не отпустят, то у Телеграма пойдет вверх рейтинг популярности, но для этого нужно присесть и 100 биологическим детям Дурова придется рассказать, что их отец – сиделец
Пока что, выглядит так что Дуров не выйдет быстро – если его не отпустят в ближайшие сутки по недоразумению (допустим), то этот процесс серьезный и надолго
Отдельно отмечу какой же это бред – сажать ИТ-предпринимателей мирового уровня у себя в стране и рассчитывать, что стартаперы охотно будут строить стартапы в этой стране – тупой выстрел себе в ногу
Если мы знаем, что ТГ подчинялся запросам страны вроде Бразилии, то мы можем быть уверены, что ТГ подчинится официальным запросам США – лицо спецагентов там имадженировали, когда они поняли что франция им всех преступников из ТГ распугала и их снова нужно собирать в одном месте в новом мессенджере? Потому что преступники то никуда не денутся – даже с закрытием ТГ
The Verge поигрались с функцией Magic Editor, которая будет в Pixel 9, и пришли к выводу, что это инструмент для массовых обманов.
Всего за пару минут можно превратить обычное фото в место ДТП, грядущий теракт, место падения вертолёта или вечеринку с наркотиками.
Google утверждает, что промты на подобные темы не должны работать, но журналистов The Verge получилось пробиться сквозь ошибки.
@zavtracast
Добрался почитать статью SAM 2: Segment Anything in Images and Videos (старье, ей уже больше месяца!), искренне восхитился. Причем даже не только красивой демкой и высокими метриками на всех подряд zero-shot / semi-supervised бенчмарках по сегментации, а дизайном всего решения.
TL;DR такой:
- поставили новую задачу promptable video segmentation - в такой постановке задачу не решают, зато ее можно рассматривать как обобщение ранее известных задач;
- чтобы ее решить, подошли с обеих сторон - модель и данные;
- модель дизайнили под относительно быстрый стриминг инференс, пригодный и для видео, и для отдельных картинок, которые рассматриваются как частный случай видео из одного кадра;
- поддержка видео реализована через memory attention блок (выход енкодера проходит через self-attention на себя, а cross-attention - на memory, содержащий фичемапы предыдущих фреймов и предсказаний + вектора сегментируемого таргета);
- собрали огромный датасет из 600k+ масок, используя много итераций self-labeling с вовлечением разметчиков (human in the loop is all we need), в конце добившись среднего времени разметки кадра человеком 4.5 секунд;
- при помощи тех же self-labeling + валидацией человеками расширили датасет в четыре раза, и обеспечили этим еще и хорошую сегментацию фоновых объектов;
- для каждого куска пайплайна есть детальный ablation study.
Вообще не знаю, зачем пересказывать такую статью - она написана максимально понятно, вникать не придется, читается легче, чем телеграм-канал среднего ML-графомана. Но если читать все равно лень, можете посмотреть видео.
А вот и воркфлоу для liveportrait @ comfyui
git
guide
tweet
@derplearning
Ну за риггеров и моделлеров, а также текстурщиков. Еще остается место на корабле для аниматоров, но LivePortait заберет часть связанную с захватом движения.
Я уже начинал наливать за риггеров вот тут и тут. И надо сказать, процесс пошел.
Вот держите первые прототипы нейрорига, которые народ пилит для своих нужд. И это уже не китайские аспиранты с бумагами наперевес. Это взрослые мальчики из VFX индустрии.
Следуюшим постом дам еще более приближенный к VFX кейс по нейроригу.
А пока задумайтесь - на входе - одна картинка - фото, генерация, рендер, что-угодно.
Весь традиционный пайплайн типа моделинг-анимация-эффекты-рендеринг разворачивается вспять. На первом месте картинка, то бишь рендер. И на него мы наваливаем эффекты, анимацию и если надо перемоделинг (просто перегенерируем картинку).
Я об этом говорил лет 12 назад на закрытиях CG EVENT, но не думал, что это будут нейросетки, тогда Юнити и Унриал начинали взрывать 3Д.
В общем вода и жара в VFX-пайплайне пошли в обратную сторону.
@cgevent
Польский разработчик создаёт симулятор типичного славянского ремонта со всеми его атрибутами. И только по одному этому трейлеру можно понять, какой получится шедевр.
Называется Majster Symulator. Даты выхода игры пока нет, но есть страница в Стиме. Можете добавить в вишлист.
Это точно игра года
r/#Asmongold
Когда коварные французы отжали у тебя не только фичи из телеги, но и дельты
Когда неделю не фоткался в пустыне\ванной
Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE
Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.
(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)
Ладно, это бы я посмотрел
Harry Potter and the goblet of moonshine
Чюваки из Гугла упоролись и запустили doom на stable diffusion v1.4
Обучили rl-агента играть в дум, записали 900млн кадров 320х240, и обучили старую добрую sd v1.4 с контекстным окном в 64 кадра + 64 действия игрока вместо текста.
(Теперь понятно чем они вместо Gemini занимаются)
Подробнее
@derplearning
Перенос стиля на 3D объект с помощью Gaussian Splatting
Красивая статья о StyleSplat
переносе стиля на выделенные объекты. Редко пишу о статьях без кода и демок, но гауссианы — моя слабость.
О переносе стиля с картинки на сцены писала ранее. Все это быстро развивается и томится в ожидании своего применения в играх и кино.
Набирает популярность мем про фабрику треугольников. Мои любимые:
@derplearning
Пока Карпатый уже не может представить, как работать без копайлота или Cursor, Амазоновские перелопатил половину корпоративного спагетти-кода, юзая их Amazon Q*.
Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначало не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов.
Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год👍
С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁
* Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот тут про него.
@ai_newz
Максимально неожиданно рандомная кек новость дня:
LinkedIn (sic!) выкатил Liger - свой набор кернелов под triton.
Кто ещё не ворвался в опенсорс ии?
Теперь хочу какойнить рисерч от одноклассников штоле. Ну им битрикс24, чем они хуже сейлсфорса с их blip? 🥲
Github
@derplearning
Забрал из коментов ибо прекрасно.
Звёздные войны в стиле пластилиновой вороны.
Это просто Лора для Flux.