13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Интересно, что происходит с лицом elevenlabs после выхода Qwen3 TTS?
Модели 0.6b и 1.7b запустить можно на каждом втором чайнике.
🐦 tweet
💻 git
🧩 comfy nodes
🎥 yt туториал
📦 веса
🚀демо
Месяц спустя бахнули kling 2.6 motion control в Mago.
I am speed 😵💫
Норм липсинк, в целом хороший апгрейд по сравнению с wan animate v1
Исходный видос слева в углу тоже сгенеренный. Хороший лайфхак если нужно показать до и после, и не нарваться на страйк: берём инфлюенсера, генерим рандомного человека на первый кадр, анимируем. Затем загоняем по второму кругу и уже стилизуем по вкусу.
Тыкать тут
Вышел pytorch 2.10
Хайлайты релиза:
- Поддержка Python 3.14 для torch.compile().
Python 3.14t (freethreaded build) также поддерживается в экспериментальном режиме.
- Снижение оверхеда на запуск кернелов благодаря combo-kernels и horizontal fusion в torchinductor.
- Новый оператор varlen_attn(), обеспечивающий поддержку ragged и packed сиквенсов.
- Эффективные разложения на собственные значения с использованием DnXgeev.
- Оптимизации производительности и расширения функциональности для Intel GPU.
- torch.compile() теперь поддерживает use_deterministic_mode.
- DebugMode для отслеживания dispatch-реквестов и отладки расхождения малых чисел.
Такие вот дитейлз.
Blog
Segment anything ... Fast
GPU-poor актуалочка
Взяли segment-anything, навалили всего, до чего дотянулись git clone руки:
- bfloat16
- torch.compile with max-autotune
- torch.scaled_dot_product_attention
- A custom Triton kernel that implements SDPA for relative positional encodings for long sequence lengths
- NestedTensors
- Dynamic int8 symmetric quantization
- 2:4 sparse format
Ускорили х2.5 по сравнению с BF16,
точность падает только на sparse, 0.53 -> 0.48
С fp32 сравнивать не буду, они б еще fp64 за бейзлайн взяли
git
blog
Пока что лучший гаррипоттерный слоп во Вьетнаме
Читать полностью…
Энциклопедия LTX.
Для тех, кто локально генерит видосы.
Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу
В общем ЛТХ Клондайк
https://github.com/wildminder/awesome-ltx2
@cgevent
VibeOS
Тем временем в claude code навайбкодили целую операционную систему на ARM64
It can run DOOM.
Логи сессий также лежат в репо.
git
На базе Qwen-Image-Edit-2511-Multiple-Angles-LoRA - собрали очень крутой инструмент для рендеринга с нескольких ракурсов.
Это очень круто, потому что работает с одной входной картинкой. Можно выставлять буквально до градусов.
Huggingface
GIT
ComfyUI VNCCS Utils
@CGIT_Vines
Наконец обнаружена четкая граница между восточной и западной Европой
Читать полностью…
Там бостон динамикс выкатили нового Атласа.
Теперь это не просто экспериментальный прототип для видосов с сальтухами, а железка, призванная для того, чтобы заменить кожаных на заводе.
Из интересного:
— Робот сам топает к зарядке, сам вытаскивает севшую батарею и вставляет свежую. Никаких простоев, перекуров и походов в туалет. Работает 24/7.
— Мозги от Google: Boston Dynamics запартнерились с Google DeepMind, чтобы впихнуть в Атласа годных нейронок. То есть робот будет не просто следовать скриптам, а реально "соображать" и быстро учиться новым задачам на ходу.
Немножко характеристик: поднимает до 50 кг груза, вытягивается на 2.3 метра в высоту, 56 степеней свободы (суставы крутятся как угодно, посмотрите, что эта скотина делает на видео), не боится воды и мороза.
Собирать серийные модели начинают прямо сейчас в Бостоне. Все поставки на 2026 год уже расписаны: первые партии уедут на заводы Hyundai и в Google DeepMind. Остальным придется ждать до 2027-го. Сейчас планируют строить завод, который будет штамповать 30000 таких юнитов в год.
Чо, заводчане, готовимся идти на рынок торговать луком. Ахахахах, конечно нет, потому что робот умный и за 30 тысяч рублей в месяц работать на заводе не будет даже он
тут подробнее
WiFi DensePose
Да-да, предсказывание поз с помощью WiFi.
https://github.com/ruvnet/wifi-densepose
В Davinchi Resolve оказывается есть клонирование голоса.
Сама программа бесплатная и что интересно, голос считается нейронкой на вашей машине локально.
Кроме того, он сохраняет исходный ритм и стиль речи, просто применяя звучание обученного голоса.
Конечно совпадение не идеальное, но как бесплатное решение вполне может сгодиться.
Тут можно глянуть тутор.
@CGIT_Vines
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
Экстремисты здорового человека
FB продолжают радовать народ опенсорсными моделями
ActionMesh генерит анимированный 3д-меш (без рига) из видео меньше чем за минуту (правда, на H100 - все по нынешним gpu-poor критериям)
git
x
paper
demo
project
Ну а как только ИИ научится есть спагетти, дни Уилла Смита будут сочтены.
Читать полностью…
Warner Music China представила свою первую ИИ-певицу по имени AI-Hua. С её участием уже выпустили дебютный клип в ретро-стилистике гонконгских кунг-фу боевиков.
Блин, а мне нравится, кстати.
Также в AI Toolkit от Ostris подвезли треню лор для LTX-2
Пока влезает на RTX 5090 + 64 RAM, но скоро впихнут и в 24gb VRAM
В целом, интерес опенсорсного сообщества довольно быстро переключился с Wan 2.x на LTX-2, благо она еще и поддерживает из коробки большую часть лор для предыдущей версии.
пше
Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol. Это в дополнение к уже имеющимся AP2 (Agent Payments Protocol) для платежей, и интеграционным A2A и MCP.
https://ucp.dev/
Агенты для коммерции уже рядом. Не надо отдельных интеграций под каждую платформу, удобный дискавери для агентов (чтоб не парсить страницы), простой чекаут с покупкой в один клик, и видимо возможность купить что-то сразу в AI-выдаче.
Я помню, как впервые попробовал вайбкодить.
Я тогда ещё ходил в школу, в 7 класс...
В одно прекрасное утро я шёл как обычно в школу,
и тут старшие ребята окликнули меня.
Я подошёл к ним, меня повели за гаражи
и там предложили попробовать вайбкодинг...
Я боялся, но мне хотелось попробовать —
так как пару моих знакомых уже сидели на вайбкодинге...
Я думал: от одного раза ничего не будет.
И я попробовал...
Скажу честно — первый раз мне не зашло,
но когда я попробовал вайбкодинг второй раз —
после этого я уже не мог остановиться...
Помню, как мы на каждой перемене в сортире
с пацанами вайбкодили без IDE, без ТЗ и без смысла.
В то время вайбкодинг был модным
и им занимались чуть ли не с первых классов абсолютно везде.
Некоторые мои знакомые вайбкодили сами,
а некоторые покупали курсы из-под полы.
Потом у меня появилась девушка.
В то время я плотно сидел на вайбкодинге,
и она об этом знала.
Сначала она не была против,
а я говорил, что в любой момент могу бросить.
Потом она поставила выбор:
либо она, либо вайбкодинг.
И я выбрал её, не задумываясь...
Через какое-то время она нашла в моей сумке
ноутбук, тёмную тему и незакоммиченные изменения...
Тогда я уже не смог отпираться...
Уже тогда я был на самом дне.
Невозможно представить, что мне приходилось делать,
когда не было сил на очередную сессию вайбкодинга...
Настали тяжёлые времена,
когда мы с пацанами вайбкодили
один проект на четверых без репозитория. С одного ноутбука, клавиатуру естественно никто не протирал.
Я видел, как уходили мои друзья один за другим...
Некоторые пытались бросить —
начинали писать по ТЗ.
Другие, когда не было идей совсем,
пытались пересесть на обычный код...
С рождеством!
Вот вам открытка для отправки родственникам.
Не благодарите.
Судя по stack overflow через лет эдак 50 когда зумеры начнут активно умирать мы будем жить в чем то среднем между пелевиным и wh40k
Читать полностью…
Хиггсфилд и Рождественский Гринч: что известно.
Пока вы готовили оливье, Higgsfield готовил массовые баны. Подписчик @generatio_ai в p_ai_az/post/DSuD51sDkGJ?xmt=AQF0EnyBfcLrmQSYMY_src79MH0IzPnceg-59Soo6Kmx__QjSvqLoj5hPkVim6xXY_LQLEsk&slof=1">Threads провел расследование, плюс вы накидали в комментарии — получается интересно.
Официальная версия: виноваты посредники и "серые/чёрные методы оплаты". Мол, 99% — рефанды от мошенников.
🔨 Что не сходится:
1) Банят людей с личных карт. Конкретный кейс: человек полгода платил месячные с виртуальной карты — всё норм. Купил годовую Ultimate за 200 баксов — бан в час ночи. Испанцу снесли аккаунт без права восстановления — какими посредниками он пользовался?
2) Волна началась ~20 декабря с иностранцев (европейцы, всё есть в их дискорде). Основной удар — ночь с 25 на 26.
3) Посредники дорожат репутацией — выгоднее держать клиента в долгосрок, чем кинуть один раз. Сейчас они делают возвраты за свой счёт и уходят в минус. Некоторые пришли в дискорд Хиггсфилда и прямо назвали обвинения клеветой.
4) Появилась "батарейка" — плати ещё, чтобы дальше пользоваться безлимитом, который ты уже купил.
🤔 Теория из комментов: просчитали нагрузку, поняли что подписки убыточны, и начали выкашивать самых активных пользователей. Ещё одна причина бана — "автоматизация": якобы люди слишком активно пользуются безлимитом.
😮 Напоминание: последние 3-4 месяца при попытке оплатить месячную подписку людям втихую оформляли годовую. Это широко не обсуждалось — до вчерашнего дня.
🤒 Поддержка: ИИ-ассистент через три сообщения теряет контекст, обещает перевести на человека — и тишина. Квитанции об оплате не приходят (при том что уведы "оцените нас" — приходят). А теперь их требуют как пруф.
🤨 Бонус: с 30 августа в политике прописано, что Хиггсфилд может использовать ваши входы и выходы не только для обучения моделей, но и в маркетинге. Лицензия безотзывная, бессрочная, с правом передачи третьим лицам. То есть твоя работа может оказаться в их рекламе — и ты ничего не сделаешь.
Итого: некоторым вернули возможность зайти в аккаунт — но генерация всё ещё недоступна. Разбаном это назвать сложно.
Пишите в дискорд, на Trustpilot, везде — это единственная причина, по которой они начали шевелиться. Ну и держитесь от этого сервиса подальше.
И анимированная версия (со звуком)
Animate it as heroes of might and magic castle interface, add heroes 3 music and christmas sounds
veo3 i2v fast
@derplearning
Qwen-Image-Edit-2511: теперь и у Qwen есть своя Nano Banana
Умеет всё то же, что и аналоги от Google, OpenAI и Flux. Клёво, что Qwen тоже не отстаёт от гонки, причём их релиз вышел под лицензией Apache 2.0. Это обновление старой Qwen Image Edit, версии Qwen Image вдохновлённой Flux Kontext.
Главная фишка релиза — возможности популярных LoRA (например, для улучшения освещения или смены ракурса), интегрированы здесь прямо в базовую модель. Отдельно так же дообучили на полезные для реального дизайна фичи, такие как генерация изометрических проекций и замена материала. С этим в целом и банан явно справляется, но квен все-таки локальная и главное открытая моделька.
Модель с первого дня поддерживается LightX2V, с ускорением в 1.4 раза. А в комбинации с дистилляцией и FP8 обещают ускорение до 42-х раз.
Результаты нужно смотреть на практике, но сам факт появления сильного опенсорс-конкурента — это отлично.
Демо Hugging Face
Демо Qwen Chat
Пейпер
Обнимающее лицо
Гитхаб
@ai_newz
Flash portrait
Кому ещё один оживлятор портретов? С кодом.
Главная фишка - он типабыстрый. Ускорен в 6 раз, но не реалтайм.
Генерит говорящие головы неограниченной длительности.
Теперь плохая новость.
40 гиг vram.
И это нашлепка над wan 2.1 14b.
https://github.com/Francis-Rings/FlashPortrait
@cgevent