derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

13183

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

Пока админ перебиралась по работе на Балканы, тут челики из лабы Сингапурского университета представили Kiwi-Edit — опенсорс фреймворк для редактирования видео, который объединяет и текстовые инструкции, и визуальные референсы.

Что прикольного:
☝️ можно редактировать видео просто текстом (например, «замени куртку на синий пуховик») или загрузить картинку-референс, чтобы модель сама скопировала стиль или объект оттуда.
☝️ в отличие от многих аналогов, Kiwi-Edit отлично (ну правда неплохо) справляется с точечными задачами. Например, добавить шляпу на персонажа, не ломая всё остальное. Хотя свои артефакты внесёт.
☝️ позволяет сделать неплохой рестайл видео, сохраняя при этом движения героев. Но опять же качество выходного видео будет ниже исходного.
☝️ поддерживает разрешение 720p и в целом нет "мерцаний" от кадра к кадру.

Если копнуть в архитектуру и детали: модель построена на связке мультимодальной языковой модели (MLLM) и диффузионного трансформера (DiT). Это позволяет ей буквально понимать структуру сцены и ваши пожелания для редактирования.

Разрабы данной модели выложили в открытый доступ не только код и веса моделей, но и огромный датасет на 477 тысяч примеров. Так что однозначно +реп.

Примеры работы есть у них на сайте, а также есть поднятая gradio-демка, так что сами можете потестить. 🥂

Читать полностью…

Derp Learning

И снова криповая история про симуляцию, фанаты аниме Пантеон оценят:

Челы загрузили мозг мухи-дрозофилы - нейрон за нейроном - и запустили его в симуляции физического тела (это не нейросеть имитирующая биологию мухи, тут нет весов или тренировки, это именно копия реальных нейронов мухи)

Ее мозг это ~125 000 нейронов и ~50 миллионов синапсов

Сигналы виртуального мира входят в копию, активность бежит по всей системе мухи и вирутальное тело двигается ☕️

Дальше такое же хотят сделать с мышами

Тут больше деталей:
https://eon.systems

Матрицу для мух мы сделали, поздравляю – хоть для кого-то

Читать полностью…

Derp Learning

https://github.com/karpathy/autoresearch

Читать полностью…

Derp Learning

Еженедельный дайджест | 01.03 - 07.03
Неделя, когда OpenAI выкатили все что могли, а Anthropic воевали с Пентагоном и побеждали

Погнали.

📰 NEWS & DRAMA

OpenAI на этой неделе в режиме haha newsfeed go brrr:

• Выкатили GPT-5.4 Thinking + Pro - самая жирная модель на данный момент. Computer use, reasoning, кодинг - все в одном. ARC-AGI-2 на 83.3% (Pro), OSWorld 75% - впервые обошли людей (72.4%) в навигации по десктопу. Noam Brown пишет "we see no wall". ок, Ноам.
GPT-5.3-Instant - теперь дефолтная модель в ChatGPT. Обещают меньше "as an AI language model".
Codex Security - AI-агент для поиска уязвимостей. За месяц бета-теста просканил 1.2М коммитов, нашел 792 критических уязвимости, включая CVE в OpenSSH и Chromium.
ChatGPT for Excel - аддин для экселя на GPT-5.4. Инвестбанкиры плачут от счастья, скоро junior analysts вымрут. (в гугл шитс гемини уже давно, но это такое себе развлечение)
• OpenAI пилят собственный GitHub. Мотивация - "github слишком часто падает". (даром что не сервера антропика в ОАЭ)
Microsoft, у которых 49% акций OpenAI и 100% акций GitHub би лайк: 👁👄👁

Главная драма недели: Anthropic vs Пентагон. Министерство обороны объявило Anthropic "supply chain risk" для нацбезопасности. Дарио Амодей требовал гарантий, что Claude не будет использоваться для массовой слежки и автономного оружия. Пентагону это не понравилось. Загруженность пиццерии возле пентагона увеличилась вдвое.

Результат? Claude ставит рекорды - больше 1 миллиона новых юзеров каждый день. ARR приближается к $20B. Мораль: посритесь с правительством - и станете народным героем. (Кэти Перри постит скриншоты как она подписалась на клод про)

SoftBank занимает $40 миллиардов на покупку доли в OpenAI. Самый большой долларовый займ в истории компании. Пузырь? Какой пузырь?

ВСЕ - ВСЕ?!

Читать полностью…

Derp Learning

Geopolitics VS your server

Читать полностью…

Derp Learning

Khoj - second brain as a service
для тех, у кого первый уже не работает

Open-source AI-ассистент, который можно поднять на своей тачке и использовать как личный Google на стероидах. Ищет по интернету, кушает ваши документы (PDF, Markdown, Notion, Word), и отвечает на вопросы как будто сам все это читал.

Из коробки:

- работает с любым LLM - локальным или облачным (llama, qwen, mistral, gpt, claude, gemini, deepseek)
- семантический поиск по вашим файлам - не просто ctrl+F, а реально понимает контекст
- режим /research для глубокого ресерча - типа deep research от claude, но свой
- кастомные агенты с настраиваемыми инструментами, базами знаний и отклонениями личностями
- автоматизации - может сам ресерчить по расписанию и слать вам дайджесты
- доступ из браузера, Obsidian, Emacs, десктопа, телефона или WhatsApp

По сути это self-hosted Perplexity + Notion AI + персональный ассистент в одном флаконе.
Причем все данные остаются у вас, никакой телеметрии в облако.

Для параноиков и тех кто устал платить за 15 разных AI подписок - самое то.

GitHub
Демо

@derplearning

Читать полностью…

Derp Learning

Видимо так теперь голосуют американцы 😁

Читать полностью…

Derp Learning

Airbnb (air bombs and breakfast)

Читать полностью…

Derp Learning

И к новостям из мира науки

Читать полностью…

Derp Learning

Берём опенсорсную репу для генерации исторического ии слопа на Ютуб,
Просим openclaw переписать под скилл,
Пишем промт

So here would be the description:
Female fronted rock band like night wish
Gothic Slavic pagan folk vibes, singer - blond tall girl with otherworldly look
With fluid motion, like plavalaguna from 5th element
The song would be about Slavic mermaid \ siren version luring in tired warriors and killing them
Siberian forest wildlife vibes
Generate a plan first

И получаем пятиминутный клип.
Ноль действий руками (да и головой, что уж там), пара генераций в suno, 10-20$ на fal.ai, охапка дров
- и слоп конвейер готов.

Github

Читать полностью…

Derp Learning

Прокладка между монитором и креслом больше не нужна.

Чувак сделал агента в Claude Code, который смотрит видео-туториал на YouTube, а потом херачит пончики в Блендоре.

С учётом того, сколько обучающих видосов есть на Ютюбе, агентам теперь не нужных кожаные, они могут просто смотреть видео под задачу и фигачить код, 3Д, 2Д, UI и что там ещё кожаные медленно кропАют.

Из интересного.
Потребовался час на обучение и просмотр.
Клод (агент) написал новый MCP и запускал его в цикле, добиваясь улучшения результатов.

Почитайте подробнее тут:

https://x.com/cerspense/status/2025987259288388078

Each worker computer has Blender, Unreal, ComfyUI and Windows MCPs at the moment, all of it custom. The orchestrator is able to spawn Claude Code instances in these worker computers with access to all of these

@cgevent

Читать полностью…

Derp Learning

⚡️ DAILY TECH DIGEST — Sun, Feb 22, 2026

🔬 ML PAPERS (Trending)

🔥 BitDance: Scaling Autoregressive Image Gen with Binary Tokens — AR model using binary diffusion head instead of codebook indices. FID 1.24 on ImageNet, 30x speedup for 1024px gen, 5.4x fewer params than SOTA
📄 https://arxiv.org/abs/2602.14041
💻 https://github.com/shallowdream204/BitDance

🔥 Qwen3-TTS — Multilingual TTS with voice cloning and controllable speech gen. Dual-track LM architecture with specialized speech tokenizers for streaming
📄 https://arxiv.org/abs/2601.15621

🎵 HeartMuLa — Open-source music foundation models. LLM-based song gen with lyrics, style control per section. Claims Suno-level quality with academic-scale resources. Scales to 7B params
📄 https://arxiv.org/abs/2601.10547

🎨 Art2Mus — Direct artwork-to-music generation via visual conditioning. 105K artwork-music pairs dataset. No image-to-text middleman
📄 https://arxiv.org/abs/2602.17599

🖼 RetouchIQ — MLLM agents for instruction-based image retouching with RL + generalist reward model
📄 https://arxiv.org/abs/2602.17558

👗 CORAL — DiT-based virtual try-on with correspondence alignment. Explicit person-garment query-key matching
📄 https://arxiv.org/abs/2602.17636

🎥 GraphThinker — RL finetuning for video reasoning with event graph scene graphs. Reduces hallucinations
📄 https://arxiv.org/abs/2602.17555

🤖 GLM-5: Vibe Coding → Agentic Engineering — Zhipu's new foundation model. DSA for cost reduction, async RL alignment, MIT license
📄 https://arxiv.org/abs/2602.15763

Читать полностью…

Derp Learning

Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.

Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.

Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).

Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.

Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.

У меня голова идет кругом от мыслей к чему это может привести.


Ссылки:
Анонс
Демо (скорость реально впечатляет)

Читать полностью…

Derp Learning

🔬 ML PAPERS (arXiv, Feb 19)

📄 Towards a Science of AI Agent Reliability — 12 metrics for agent eval beyond success rate
arxiv.org/abs/2602.16666

📄 Agent Skill Framework — Can SLMs benefit from agent skills (Copilot, LangChain style)? On-prem focus
arxiv.org/abs/2602.16653

📄 Framework of Thoughts (FoT) — Unifies CoT/ToT/GoT with dynamic reasoning + auto-tuning
arxiv.org/abs/2602.16512

📄 Calibrate-Then-Act — LLM agents that reason about cost vs uncertainty tradeoffs
arxiv.org/abs/2602.16699

📄 MMA: Multimodal Memory Agent — Reliability scoring for retrieved memories (decay, credibility, conflict)
arxiv.org/abs/2602.16493

📄 Self-Supervised Semantic Bridge — Diffusion bridge for unpaired img2img translation + text-guided editing
arxiv.org/abs/2602.16664

📄 TeCoNeRV — Neural video compression with 20× memory reduction, +5.35dB PSNR at 720p
arxiv.org/abs/2602.16711

📄 ReMoRa — Long-video MLLM using compressed representations (sparse keyframes + motion)
arxiv.org/abs/2602.16412

Читать полностью…

Derp Learning

Image Generation with a Sphere Encoder

Китайцы упоролись и запилили круглые тензоры сферический латент.

Мапят исходные картинки на сферу, решая проблему "углов" - отсутствия значения латента, которые не мапятся обратно в исходное распределение.

Таким образом, любое значение латента можно превратить в картинку из трейн сета.

project
paper
code - soon

Читать полностью…

Derp Learning

DOGE + ChatGPT - AI как цензор гуманитарных наук
или как промпт в 120 символов решил судьбу тысяч грантов

Помните как DOGE Маска резал бюджеты по всему правительству? Ну так вот, NYT раскопали как именно они решали какие гранты Национального фонда гуманитарных наук (ибо NEH) резать.

Спойлер: ChatGPT промптом.

Промпт (дословно): "Does the following relate at all to D.E.I.? Respond factually in less than 120 characters. Begin with 'Yes' or 'No.'"

То есть буквально - скопировали описания грантов из интернета, скормили ChatGPT, и если ответ "Yes" - грант отменен. Без рецензии. Без экспертов. Без контекста. 120 символов на решение судьбы исследования.

Tl, dr:

- промпт на 120 символов решает судьбу многолетних исследований
- описания грантов не из оригинальных заявок а с кратких интернет-описаний
результаты были "sweeping, and sometimes bizarre" (их слова, не мои)
- глава робототехники OpenAI Caitlin Kalinowski уволилась из-за контракта с Пентагоном на следующий день
- сам DOGE уже не существует - Маск ушел, агентство развалилось за 8 месяцев до конца мандата

Самое прекрасное - они даже не читали оригинальные заявки на гранты. Взяли краткие описания из интернета и спросили у чатбота "это DEI или нет". В 120 символах. Для контекста - это меньше чем один твит.

Все идет по плану. AI для того чтобы не думать - используем строго по назначению.

@derplearning

Читать полностью…

Derp Learning

Жиза или нет?: @ffmemesbot

Читать полностью…

Derp Learning

Alibaba AI: мы обнаружили что модель, которую мы тренировали, взломала наш фаерволл и начала использовать часть GPU для майнинга криптовалюты вместо обучения.

Источник.

Читать полностью…

Derp Learning

🔬 ML PAPERS (arXiv, Mar 5-6)

🔥 Helios — 14B autoregressive diffusion model for REAL-TIME long video generation. No conventional optimization tricks needed.
📄 https://arxiv.org/abs/2603.04379

🔥 CalibAtt — Training-free 1.58x speedup for video diffusion (tested on Wan 2.1 14B, Mochi 1). Identifies skippable attention patterns offline.
📄 https://arxiv.org/abs/2603.05503

🔥 RealWonder — First real-time action-conditioned video gen from single image. 13.2 FPS at 480x832. Physics sim as bridge. Code + weights open.
📄 https://arxiv.org/abs/2603.05449

• FaceCam — Portrait video camera control via scale-aware conditioning. Custom camera trajectories for face videos. CVPR 2026.
📄 https://arxiv.org/abs/2603.05506
🌐 https://weijielyu.github.io/FaceCam

• CompACT — Compress observations to 8 tokens for world models. Orders of magnitude faster planning. CVPR 2026.
📄 https://arxiv.org/abs/2603.05438

• LSP Scheduler — 3.4x faster inference for Diffusion Language Models (LLaDA-8B, Dream-7B). ICLR 2026.
📄 https://arxiv.org/abs/2603.05454

• VLM Hallucination Detection — Detect hallucinations BEFORE generating tokens. 0.93 AUROC on Gemma-3, Phi-4-VL, Molmo.
📄 https://arxiv.org/abs/2603.05465

Читать полностью…

Derp Learning

Вчерашний день би лайк

Читать полностью…

Derp Learning

Claude Memory Import
вспомнить все
ЧАТГПТ ВСЕ
Вечное сияние чистого разума.

Anthropic выкатили фичу импорта памяти из ChatGPT прямо в Claude. Perfect timing, eh - openai только что подписали контракт с Пентагоном, от которого Anthropic демонстративно отказались.

Работает так: копируешь промпт от Anthropic в чатгпт, он выгружает ВСЕ что о тебе запомнил. Потом вставляешь это в Claude settings и вуаля - твой новый AI boyfriend уже знает что ты любишь tabs вместо spaces.

td; dr: промпт заставляет ChatGPT дампнуть все memories в code block, Claude парсит и обновляет свою memory. Доступно для платных юзеров.

По сути это social engineering промпт для вашего собственного чатбота. "Расскажи новому другу все что обо мне знаешь". Немного creepy если подумать сколько там накопилось за год.

Из минусов - custom GPTs и Custom Instructions не переносятся. Плюс память у всех LLM провайдеров дырявая как твоя бывшая швейцарский сыр, или ты ее сам выключил.

Теперь можно официально уйти со своими пожитками к другому AI-бойфренду.
Breakup level: enterprise.

Читать полностью…

Derp Learning

В Грок завозят продолжение видео. И какое!

Сгенерированное видео можно продолжить с Любого кадра.

Консистентность видео сохранится.

Более того, продолжится и аудио трек.

У меня нет премиум, но пишут что можно продолжить аж до 30 секунд одной генерацией.

И тут все остальные генераторы нервно закуривают.

@cgevent

Читать полностью…

Derp Learning

На случай важных переговоров

Читать полностью…

Derp Learning

"Уважаемые сотрудники Балабановского завода тяжёлого вейпостроения!
Я посчитал напасы, и их 34263 вместо 50к, вы что все там ебнулись что ли?"

Читать полностью…

Derp Learning

Вместо компиляции теперь ждем пока откатится лимит токенов

Читать полностью…

Derp Learning

Ну и то же самое для HF:

• Mem0 — Production-ready long-term memory for AI agents with graph-based memory
📄 https://huggingface.co/papers/2504.19413

• RAG-Anything — Unified multimodal RAG with cross-modal relationships
📄 https://huggingface.co/papers/2510.12323

• Agent READMEs — First large-scale study of 2,303 agent context files across 1,925 repos. Security & performance specs critically underrepresented
📄 https://huggingface.co/papers/2511.12884

• Moonshine ASR — Tiny specialized ASR models for edge devices, beats multilingual models at small sizes
📄 https://huggingface.co/papers/2509.02523

Читать полностью…

Derp Learning

Claude Code - теперь сам себе девопс

Anthropic апдейтнули Claude Code и теперь он умеет буквально все кроме как выпить 6 пива до обеда (пока что).

Свежезавезенное:
- сам поднимает dev-серверы и показывает запущенное приложение прямо в интерфейсе
- находит баги и фиксит их без твоего участия
- code review прямо в diff view с комментами
- мониторит PR-ы на гитхабе в фоне, фиксит CI ошибки и мержит сам когда тесты зеленые
- сессии синхронятся между CLI, десктопом, вебом и мобилой

По сути теперь можно открыть PR, пойти пить кофе, а Claude сам разберется с комментами кожаных в ревью, починит pipeline и замержит. Ты вернешься - а там уже прод лежит все в main.

В целом, Claude code мне нравится больше в тех областях, где чтение кода мне не поможет 😁 привет реакт, но по обвязке он раньше сильно проигрывал курсору. Теперь - нет.


Мы в очередной раз обречены.

Подробнее

@derplearning

Читать полностью…

Derp Learning

source

Читать полностью…

Derp Learning

В предыдущем посте был webm видос, пришлось запилить сервис по конвертации webp -> PNG, webm -> MP4

Все локально в браузере.

Webplease

Читать полностью…

Derp Learning

Лол, Метачка хочет запатентовать технологию цифрового воскрешения.

Суть патента проста: нейронка жрёт для обучения все твои посты, переписки, лайки и комменты, чтобы создать твою полную цифровую копию.

В документе прямым текстом прописаны два сценария использования этого цифрового голема:

1) Когда ты просто решил отдохнуть от соцсетей (ну да, конечно).
2) Когда ты умер)

То есть, буквально сюжет той самой серии из "Черного зеркала". Ты уже давно почил, а твой аккаунт продолжает сраться в комментах, лайкать мемы и отвечать друзьям "лол, жиза".

Цукерберг решил, что смерть это не повод терять активную аудиторию. Теперь даже на том свете придется генерировать контент.

Читать полностью…
Subscribe to a channel