13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Mouthpad - девайс для парализованных людей, дающий возможность управлять девайсами с помощью языка и движений головы 🤗
И жена довольна 😉
А вот вам без черрипиков, как работает новая тулза от адоба.
Ожидаемо произошел клоунизм. Потому что показывать красивые презентации это одно, а работать с реальными задачами, это другое🥓
@CGIT_Vines
Штош
Прямоугольники двигаются строго друг под другом с одной скоростью 😵💫
Для гиков: апскейл видео до 4К от Нвидии. Сразу в Комфи
https://www.reddit.com/r/StableDiffusion/s/aHC85grdmc
@cgevent
Шикарная штука из Твиттера, оказывается Опус может генерировать простенькие видосы с текстом напрямую через moviepy и ffmpeg. Всё воспроизвелось, вот мой видос.
Оригинальный промпт: "can you use whatever resources you like, and python, to generate a short 'youtube poop' video and render it using ffmpeg ? can you put more of a personal spin on it? it should express what it's like to be a LLM"
Runway Characters - действительно реалтаймовые говорящие головы.
В отличие от Хейгенов и Хедр - тут действительно реалтайм - с ними можно перебеседовать в реальном времени (смотрите примеры).
И это первый пример такого качества в РЕАЛТАЙМЕ.
И это прямо прицельный выстрел в огромный запрос по рынку: дайте нашим чат-ботам картинку, мы хотим чтобы с клиентом говорил кто-то видимый.
Понятно почему только по API - все происходит у них на серверах и ценник я думаю как чугунный конь.
Но качество для реалтайма - огонь.
@cgevent
Лол, китайские братушки изобрели пристегивающуюся робо-задницу, которая превращает вас в кибер-кентавра.
Зачем? Это такой экзоскелет: кожаный работает навигатором и смотрит под ноги, а железка забирает на себя половину веса тяжелого рюкзака и заботливо толкает его в спину.
Представил, что через пару лет так будут ходить курьеры и аж хрюкнул от смеха.
тут подробнее про этот шайтан-девайс
DOGE + ChatGPT - AI как цензор гуманитарных наук
или как промпт в 120 символов решил судьбу тысяч грантов
Помните как DOGE Маска резал бюджеты по всему правительству? Ну так вот, NYT раскопали как именно они решали какие гранты Национального фонда гуманитарных наук (ибо NEH) резать.
Спойлер: ChatGPT промптом.
Промпт (дословно): "Does the following relate at all to D.E.I.? Respond factually in less than 120 characters. Begin with 'Yes' or 'No.'"
То есть буквально - скопировали описания грантов из интернета, скормили ChatGPT, и если ответ "Yes" - грант отменен. Без рецензии. Без экспертов. Без контекста. 120 символов на решение судьбы исследования.
Tl, dr:
- промпт на 120 символов решает судьбу многолетних исследований
- описания грантов не из оригинальных заявок а с кратких интернет-описаний
результаты были "sweeping, and sometimes bizarre" (их слова, не мои)
- глава робототехники OpenAI Caitlin Kalinowski уволилась из-за контракта с Пентагоном на следующий день
- сам DOGE уже не существует - Маск ушел, агентство развалилось за 8 месяцев до конца мандата
Самое прекрасное - они даже не читали оригинальные заявки на гранты. Взяли краткие описания из интернета и спросили у чатбота "это DEI или нет". В 120 символах. Для контекста - это меньше чем один твит.
Все идет по плану. AI для того чтобы не думать - используем строго по назначению.
@derplearning
Alibaba AI: мы обнаружили что модель, которую мы тренировали, взломала наш фаерволл и начала использовать часть GPU для майнинга криптовалюты вместо обучения.
Источник.
🔬 ML PAPERS (arXiv, Mar 5-6)
🔥 Helios — 14B autoregressive diffusion model for REAL-TIME long video generation. No conventional optimization tricks needed.
📄 https://arxiv.org/abs/2603.04379
🔥 CalibAtt — Training-free 1.58x speedup for video diffusion (tested on Wan 2.1 14B, Mochi 1). Identifies skippable attention patterns offline.
📄 https://arxiv.org/abs/2603.05503
🔥 RealWonder — First real-time action-conditioned video gen from single image. 13.2 FPS at 480x832. Physics sim as bridge. Code + weights open.
📄 https://arxiv.org/abs/2603.05449
• FaceCam — Portrait video camera control via scale-aware conditioning. Custom camera trajectories for face videos. CVPR 2026.
📄 https://arxiv.org/abs/2603.05506
🌐 https://weijielyu.github.io/FaceCam
• CompACT — Compress observations to 8 tokens for world models. Orders of magnitude faster planning. CVPR 2026.
📄 https://arxiv.org/abs/2603.05438
• LSP Scheduler — 3.4x faster inference for Diffusion Language Models (LLaDA-8B, Dream-7B). ICLR 2026.
📄 https://arxiv.org/abs/2603.05454
• VLM Hallucination Detection — Detect hallucinations BEFORE generating tokens. 0.93 AUROC on Gemma-3, Phi-4-VL, Molmo.
📄 https://arxiv.org/abs/2603.05465
Claude Memory Importвспомнить всеЧАТГПТ ВСЕ
Вечное сияние чистого разума.
Anthropic выкатили фичу импорта памяти из ChatGPT прямо в Claude. Perfect timing, eh - openai только что подписали контракт с Пентагоном, от которого Anthropic демонстративно отказались.
Работает так: копируешь промпт от Anthropic в чатгпт, он выгружает ВСЕ что о тебе запомнил. Потом вставляешь это в Claude settings и вуаля - твой новый AI boyfriend уже знает что ты любишь tabs вместо spaces.
td; dr: промпт заставляет ChatGPT дампнуть все memories в code block, Claude парсит и обновляет свою memory. Доступно для платных юзеров.
По сути это social engineering промпт для вашего собственного чатбота. "Расскажи новому другу все что обо мне знаешь". Немного creepy если подумать сколько там накопилось за год.
Из минусов - custom GPTs и Custom Instructions не переносятся. Плюс память у всех LLM провайдеров дырявая как твоя бывшая швейцарский сыр, или ты ее сам выключил.
Теперь можно официально уйти со своими пожитками к другому AI-бойфренду.
Breakup level: enterprise.
В Грок завозят продолжение видео. И какое!
Сгенерированное видео можно продолжить с Любого кадра.
Консистентность видео сохранится.
Более того, продолжится и аудио трек.
У меня нет премиум, но пишут что можно продолжить аж до 30 секунд одной генерацией.
И тут все остальные генераторы нервно закуривают.
@cgevent
Афанасий Фетт, шлем в руке. "Я пришёл с миром... и стихами."
Читать полностью…
В Photoshop Beta завезли новую AI-фичу – 2D-слои можно крутить в 3D-пространстве 🔄
Читать полностью…
Молния! Comfy1111
Берете любой свой воркфлоу и превращаете его в App.
Просто выбираете инпуты и аутпуты в App builder с разных нод и это превращается в HTML интерфейс.
Потом шарите это в Comfy Hub.
И все пользуюцца.
Внутреннее имя проекта действительно Comfy1111.
Завтра больше деталей, а пока посмотрите видосы тут:
https://blog.comfy.org/p/from-workflow-to-app-introducing
@cgevent
Tess.Design - маркетплейс "этичного AI-арта" закрылся
или как заплатить художникам $18K и заработать $12K
Kapwing запустили Tess в 2024 - платформу где каждая AI-картинка привязана к конкретному художнику, который получает 50% роялти. Типа Spotify для иллюстраторов, только с LoRA вместо треков.
Результат за 20 месяцев работы: $12,172 выручки. Двенадцать тысяч. За полтора года. При этом художникам заплатили $18K авансами, которые никто не отбил генерациями.
Вкратце:
- файнтюнили Stable Diffusion на работах каждого художника
- юридическая схема через Fenwick - мол, раз output стилизован под художника, то он и держит копирайт
- написали 325 холодных писем художникам за 6 недель
- 22.4% сказали "нет" принципиально ("нет такого понятия как этичный AI")
- 6.5% согласились
- один крупный медиа-клиент (типа Forbes уровня) хотел купить - юристы заблокировали из-за нерешенных судов
Самое интересное - почему художники отказывались:
1. "AI - зло, точка" (идеологический нет)
2. "не хочу чтобы мой стиль юзал бренд сигарет" (размытие бренда)
3. "видела как других художников отменяли за интерес к AI" (социальное давление)
Один инженер Kapwing уволился, частично из-за выгорания от Tess. 142 пользователя за все время. Ноль художников заработало больше аванса.
Фаундерша Kapwing использовала Tess для оформления своей свадьбы. Это, пожалуй, главный успех проекта.
Мораль: платить создателям за AI-контент - правильная идея, но рынок пока не готов. Ни юридически, ни культурно. Для видео ситуация еще сложнее - но это уже тема для отдельного поста.
[Полный пост-мортем](https://www.kapwing.com/blog/learnings-from-paying-artists-royalties-for-ai-generated-art/)
@derplearning
Пока админ перебиралась по работе на Балканы, тут челики из лабы Сингапурского университета представили Kiwi-Edit — опенсорс фреймворк для редактирования видео, который объединяет и текстовые инструкции, и визуальные референсы.
Что прикольного:
☝️ можно редактировать видео просто текстом (например, «замени куртку на синий пуховик») или загрузить картинку-референс, чтобы модель сама скопировала стиль или объект оттуда.
☝️ в отличие от многих аналогов, Kiwi-Edit отлично (ну правда неплохо) справляется с точечными задачами. Например, добавить шляпу на персонажа, не ломая всё остальное. Хотя свои артефакты внесёт.
☝️ позволяет сделать неплохой рестайл видео, сохраняя при этом движения героев. Но опять же качество выходного видео будет ниже исходного.
☝️ поддерживает разрешение 720p и в целом нет "мерцаний" от кадра к кадру.
Если копнуть в архитектуру и детали: модель построена на связке мультимодальной языковой модели (MLLM) и диффузионного трансформера (DiT). Это позволяет ей буквально понимать структуру сцены и ваши пожелания для редактирования.
Разрабы данной модели выложили в открытый доступ не только код и веса моделей, но и огромный датасет на 477 тысяч примеров. Так что однозначно +реп.
Примеры работы есть у них на сайте, а также есть поднятая gradio-демка, так что сами можете потестить. 🥂
И снова криповая история про симуляцию, фанаты аниме Пантеон оценят:
Челы загрузили мозг мухи-дрозофилы - нейрон за нейроном - и запустили его в симуляции физического тела (это не нейросеть имитирующая биологию мухи, тут нет весов или тренировки, это именно копия реальных нейронов мухи)
Ее мозг это ~125 000 нейронов и ~50 миллионов синапсов
Сигналы виртуального мира входят в копию, активность бежит по всей системе мухи и вирутальное тело двигается ☕️
Дальше такое же хотят сделать с мышами
Тут больше деталей:
https://eon.systems
Матрицу для мух мы сделали, поздравляю – хоть для кого-то
Еженедельный дайджест | 01.03 - 07.03
Неделя, когда OpenAI выкатили все что могли, а Anthropic воевали с Пентагоном и побеждали
Погнали.
📰 NEWS & DRAMA
OpenAI на этой неделе в режиме haha newsfeed go brrr:
• Выкатили GPT-5.4 Thinking + Pro - самая жирная модель на данный момент. Computer use, reasoning, кодинг - все в одном. ARC-AGI-2 на 83.3% (Pro), OSWorld 75% - впервые обошли людей (72.4%) в навигации по десктопу. Noam Brown пишет "we see no wall". ок, Ноам.
• GPT-5.3-Instant - теперь дефолтная модель в ChatGPT. Обещают меньше "as an AI language model".
• Codex Security - AI-агент для поиска уязвимостей. За месяц бета-теста просканил 1.2М коммитов, нашел 792 критических уязвимости, включая CVE в OpenSSH и Chromium.
• ChatGPT for Excel - аддин для экселя на GPT-5.4. Инвестбанкиры плачут от счастья, скоро junior analysts вымрут. (в гугл шитс гемини уже давно, но это такое себе развлечение)
• OpenAI пилят собственный GitHub. Мотивация - "github слишком часто падает". (даром что не сервера антропика в ОАЭ)
Microsoft, у которых 49% акций OpenAI и 100% акций GitHub би лайк: 👁👄👁
Главная драма недели: Anthropic vs Пентагон. Министерство обороны объявило Anthropic "supply chain risk" для нацбезопасности. Дарио Амодей требовал гарантий, что Claude не будет использоваться для массовой слежки и автономного оружия. Пентагону это не понравилось. Загруженность пиццерии возле пентагона увеличилась вдвое.
Результат? Claude ставит рекорды - больше 1 миллиона новых юзеров каждый день. ARR приближается к $20B. Мораль: посритесь с правительством - и станете народным героем. (Кэти Перри постит скриншоты как она подписалась на клод про)
SoftBank занимает $40 миллиардов на покупку доли в OpenAI. Самый большой долларовый займ в истории компании. Пузырь? Какой пузырь?
ВСЕ - ВСЕ?!
Khoj - second brain as a service
для тех, у кого первый уже не работает
Open-source AI-ассистент, который можно поднять на своей тачке и использовать как личный Google на стероидах. Ищет по интернету, кушает ваши документы (PDF, Markdown, Notion, Word), и отвечает на вопросы как будто сам все это читал.
Из коробки:
- работает с любым LLM - локальным или облачным (llama, qwen, mistral, gpt, claude, gemini, deepseek)
- семантический поиск по вашим файлам - не просто ctrl+F, а реально понимает контекст
- режим /research для глубокого ресерча - типа deep research от claude, но свой
- кастомные агенты с настраиваемыми инструментами, базами знаний и отклонениями личностями
- автоматизации - может сам ресерчить по расписанию и слать вам дайджесты
- доступ из браузера, Obsidian, Emacs, десктопа, телефона или WhatsApp
По сути это self-hosted Perplexity + Notion AI + персональный ассистент в одном флаконе.
Причем все данные остаются у вас, никакой телеметрии в облако.
Для параноиков и тех кто устал платить за 15 разных AI подписок - самое то.
GitHub
Демо
@derplearning