980
На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
Еще буквально пару лет назад, мы смеялись под серию картинок под музыку, сделанных в MidJourney. А теперь вот полноценная короткометражка. Представьте Netflix, где on-demand не только просмотр, но и создание фильма...
@toshoseti
Любопытная антипрослушка.
https://www.deveillance.com/
Spectre I is a portable audio security device that creates a 2m protection zone around you. It sends out signals that are inaudible to you but can be detected by a microphone. Through customization of the signals to match the human voice, your conversations are "overlayed" when a microphone receives them. It uses local processing to prevent nearby smartphones, smart speakers, and other devices from picking up your voice. Everything happens locally on the device — nothing is sent to the cloud.
Спасибо @eiko0x за наводку.
TADA (Text Audio Dual Alignment) is a speech-language model that generates text and audio in one synchronized stream to reduce token-level hallucinations and improve latency.
This means:
→ Zero content hallucinations across 1,000+ test samples
→ 5x faster than similar-grade LLM-based TTS
→ Fits much longer audio: 2,048 tokens cover ~700 seconds with TADA vs. ~70 seconds in conventional systems
→ Free transcript alongside audio with no added latency
HF: https://huggingface.co/collections/HumeAI/tada
Blog: https://www.hume.ai/blog/opensource-tada
X: https://x.com/i/status/2031401003078062578
@toshoseti
И снова криповая история про симуляцию, фанаты аниме Пантеон оценят:
Челы загрузили мозг мухи-дрозофилы - нейрон за нейроном - и запустили его в симуляции физического тела (это не нейросеть имитирующая биологию мухи, тут нет весов или тренировки, это именно копия реальных нейронов мухи)
Ее мозг это ~125 000 нейронов и ~50 миллионов синапсов
Сигналы виртуального мира входят в копию, активность бежит по всей системе мухи и вирутальное тело двигается ☕️
Дальше такое же хотят сделать с мышами
Тут больше деталей:
https://eon.systems
Матрицу для мух мы сделали, поздравляю – хоть для кого-то
https://ryanpo.com/multigen/
Спасибо @calcium_ion
ваааа какая крутота, я все собирался, а чувак сделал. Мое почтение. Спизжено у @lovedeathtransformers
Читать полностью…
Играет лучше твоего тиммейта потому что у этого устройства на 199999 нейронов больше
https://youtu.be/yRV8fSw6HaE
@toshoseti
🌟 Theory of Space: умеют ли ИИ-агенты строить карты пространства?
Команда из Stanford, University of Washington и Cornell опубликовала для ICLR 2026 бенчмарк Theory of Space. В исследовании принимали участие звезды индустрии: Ли Фэй-Фэй, Едзин Чой и Ранджей Кришна.
Работа проверяет, способны ли языковые модели самостоятельно исследовать незнакомое пространство и строить его связную карту так же, как это делают люди.
Концепция выстроена по аналогии с Theory of Mind из когнитивной науки.
Если Theory of Mind измеряет, насколько наблюдаемый понимает скрытые психические состояния других, то Theory of Space проверяет способность ИИ-агента моделировать скрытую физическую структуру среды.
Определению подлежали 3 навыка:
🟠построить карту из частичных наблюдений;
🟠обновить ее при изменении обстановки;
🟠использовать для решения пространственных задач определения направлений, локализации объектов и смены перспективы.
Принципиальное требование: все это должно происходить в активном режиме.
Агент стартует в незнакомом пространстве с несколькими комнатами, сам решает, куда двигаться и куда смотреть, и на каждом шаге выгружает JSON с координатами объектов. Оценивается не только финальный ответ, но и качество построенной пространственной модели.
Всего было сгенерировано 2700 вопросов на каждую конфигурацию среды (по 9 задач в 100 сценах) для 6 топовых моделей: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B и InternVL 3.5-241B.
Для ориентира: люди набрали 96,4% в визуальной среде и добрались до нужного охвата примерно за 10 шагов.
Для сравнения авторы написали скрипт-агентов - детерминированные программы с жестко заданной стратегией обхода: зайти в комнату, сделать полный оборот на 360°, зафиксировать все объекты, перейти в следующую комнату. Никакого интеллекта, только алгоритм.
Такой агент достигает нужного покрытия за 9 шагов; модели тратят 14 и больше и при этом строят менее точную карту.
Модели умеют рассуждать о пространстве, когда им дают готовую картину. Но самостоятельно добывать нужную информацию, эффективно перемещаться и при этом удерживать целостную карту в памяти - пока нет. Это разные задачи, и тут ИИ проигрывает даже примитивному алгоритму.
Про тесты
Вы наверно замечали, разрабатывая вайбкод проекты, одну неприятную штуку: фичи, заложенные на первых итерациях, часто удаляются агентом или ломаются в процессе добавления новых фичей, если у проекта нет никаких тестов.
А если тесты есть, они начинают работать как рельсы. Они вынуждают модель писать код так, чтобы даже самые старые фичи продолжали работать ровно так, как задумано. И эта мысль меня долго не отпускала.
Я много думал и в итоге осознал занятную истину, которая одинаково верна и для вайбкодинга, и для классического кодинга. Сформулировал её для себя так:
тесты это долгосрочная память проекта
На пути к thought2text: Zyphra выпустила ZUNA , это 380M-parameter diffusion autoencoder для scalp-EEG, ориентированный на денойзинг, реконструкцию и повышение четкости сигналов, а так же на работу с произвольными channel layouts.
ZUNA принимает подмножество EEG-каналов и умеет:
* расшумлять существующие каналы
* реконструировать пропущенные каналы
* предсказывать неизвестные каналы по физическим координатам электродов на scalp-EEG
Это важно для реальных EEG-записей, где часто есть channel dropout, шум и разный набор электродов между устройствами/датасетами.
Zyphra прямо сравнивает ZUNA с spherical spline interpolation (стандартный baseline, в том числе дефолтный подход в MNE) и пишет, что преимущество ZUNA растет при сильной деградации данных. Отдельно заявляют, что при dropout > 75% ZUNA лучше baseline на всех датасетах из их сравнения.
Архитектура
По описанию, это diffusion autoencoder на основе трансформера:
* encoder маппит EEG в общий latent space
* decoder реконструирует сигнал из latent
* обучение идет с masked reconstruction loss и heavy dropout, чтобы модель умела восстанавливать каналы и предсказывать новые на инференсе.
1. EEG-каналы (непрерывные сигналы) режутся на 0.125с отрезки, затем модель учит continuous “tokens”, после чего они растеризуются в одномерную последовательность под обычный transformer.
2. Для координат электродов используется 4-D RoPE: в embedding закодированы x, y, z и coarse time, что помогает делать перенос на новые позиции электродов и разные layout’ы.
Три сценария использования:
* Rescue and Reuse Existing Data: восстановление частично испорченных EEG-сессий
* Upgrade Low-Channel / Consumer Hardware: апскейл low-channel EEG в более “плотное” signal space
* Reduce Dependence on Fixed Electrode Montages: проще cross-device / cross-dataset анализ за счет работы по координатам электродов.
Данные
* обучение на примерно 2 million channel-hours EEG из публичных источников
* стандартный preprocessing pipeline
* релиз под Apache 2.0
* доступны Hugging Face weights, GitHub code, пакет pip install zuna
Сервис и материалы указаны как for research use only и not validated for medical/clinical use. То есть это пока инструмент для исследований и инженерной работы, а не клинический продукт. Человечество, как обычно, уже мысленно читает мысли через Bluetooth, но юридически и практически это пока не тот этап.
Ссылка
@toshoseti
P.S>Фэшн из май профешен, не знаю правильных русских аналогов, страдайте.
На прошлой неделе Ethan Mollick из Wharton School of Business рассказал об эксперименте с Claude Code: он попросил систему создать печатное издание всех параметров GPT-1. В результате Claude Code собрал набор из 80 книг по ~700 страниц, содержащих 117 миллионов floating point numbers — веса модели GPT-1 — а также руководство, объясняющее, как выполнять inference буквально «на бумаге».
Кроме подготовки самих книг, Claude разработал полноценный online store: провёл исследование, спроектировал продукт, настроил печать и продажу ограниченного тиража — по себестоимости. Всего было выпущено по 20 экземпляров каждого тома.
Автор поста сообщает, что стал владельцем распроданного первого издания — Volume 1 of 80:
“Volume 1 of 80
tokens_embed
1,460,000 parameters
730 pages
Parameters 0–1,459,999
These books contain every parameter of OpenAI’s GPT-1, a neural network trained in 2018. 117 million floating point numbers. This is everything the model knows.
Volume 1 includes a companion guide — a complete walkthrough of how to perform a single inference by hand, using nothing but these pages, a pencil, and patience.
Each cover visualizes the actual weight values printed inside that volume. Values near zero appear as deep indigo; larger magnitudes shift toward white. Every cover is unique — a direct rendering of what the network learned.”
@toshoseti
Вот такие интервью на систем дизайн я бы с кайфом проходил!
https://paperdraw.dev/
@toshoseti
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.
Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.
Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).
Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.
Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.
У меня голова идет кругом от мыслей к чему это может привести.
Ссылки:
• Анонс
• Демо (скорость реально впечатляет)
https://youtu.be/UAmKyyZ-b9E
https://claude.com/product/cowork
Лезгинский переводчик 2.0: Когда 1000 человек меняют будущее языка
Хочу поделиться прогрессом по волонтерскому проекту над которым работает наша команда
В этом релизе:
1) заметно улучшилось качество
2) Интегрировали модель озвучки текста (коллаборация с publicdictionary.org, 30 часов студийной записи). Теперь переводы можно не только читать, но и слушать. Просто нажмите на кнопку в поле с переводом!
Команда leks-forever провела эксперимент - разметили синтетический корпус на 200к предложений на лезгинском через Gemini 3 Pro
Обучили на нем новую версию переводчика - по оценке носителей качество выросло кратно относительно прошлой версии. Особенно на последовательностях среднего размера.
Главное:
За проектом стоят 1000 волонтеров, которые собрали почти 40к вручную размеченных предложений провалидированных экспертами. Сейчас в пост-обработке.
Переводчик масштабируется с данными. Когда добавим 40к + другие корпуса и удвоим (или кратно увеличим) датасет - качество сделает еще один скачок.
Дальше:
Это бета. Веса не финальные, есть проблемы с короткими словосочетаниями, но кажется мы нашли механику которая позволит нам легко масштабировать набор данных.
Мне нравится этот проект тем что даже язык с маленькой аудиторией может получить современные ИИ-инструменты благодаря людям, которым не все равно. Мы вывели язык категории крайне уязвимых а это уже значительный прогресс!
Спасибо каждому, кто размечал, записывал, тестировал. Вы делаете историю.
📱 Переводчик в тг
🤗 Попробовать на huggingface (с озвучкой текста)
📚 Датасет
📱 Группа нашего коммьюнити
Наша команда выкладывает все в опенсорс и открыта к коллаборциям, пишите!
Книжки в бандле, хорошие и недорого:
https://www.humblebundle.com/books/llm-and-agentic-ai-career-accelerator-bundle-packt-books
@toshoseti
🤗Не могу не хвалить команду hf за постоянно появляющиеся интересные блогпосты для образования. В этот раз ресерч по синтетическим данным для претрена.
Не просто в виде «вот вам датсасет, мы там записали тех детали. Отстаньте». Это большой очередной playbook в который можно потыкаться на досуге
На повестке новый блогпост с 1 триллионом сгенерированных токенов и главным вопросом, на который пытаются ответить что вообще делает датасет синтетических данных хорошим?🤔
Интересные находки:
💛формат промпта важнее модели, которая генерирует (1B достаточно для простых промптов, 4B для сложных, а дальше платишь в 10x GPU времени и получаешь хуже)
💛разнообразие форматов дает эффект лучше, чем один с много токенов на него (FAQ + Math + Table + Tutorial)
💛нужно переформатировать документ, а не генерить синту с нуля
💛датасет не синт данных, который мы подмешиваем в обучение важнее, чем источник данных для синты на рефрейз
💛edu-score бесполезен как прокси для синтетики. Хуже того лучшие промпты активно снижают edu-score потому что классификатор не ожидает таких форматов.
💛исправлять грамматические ошибки промптов не обязательно
💛Пайплайн на datatrove + vLLM с чекпоинтингом держит GPU постоянно загруженными, даже если задачи прерываются на shared кластере
Playbook
Red eyes is all you need, или пихаем LLM в FPGA
Вдохновился недавней новостью, о том, что LLM зашили в железо, и решил попробовать повторить в меньших масштабах, написав проект на verilog, где ~854K модель зашивается в Artix-7 (XC7A200T). Задачей было уложиться в бюджет 365 BRAM блоков (потому что я слишком нищий для более серьезной борды), поэтому была выбрана архитектура с 128 embedding dim, 8 attn heads, 4 слоя, и размером контекста 256. Оно упирается как раз впритык - веса заняли 209 блоков, KV-кэш - ещё 128.
Из интересного - веса/активации находятся сразу в BRAM в int8, разбиваясь на отдельные файлы через extract_weights.py (LayerNorm’ы пихаются в один файл, так как они мелкие и тратить по блоку на каждый из них - слишком дорого). Попутно генерируется weight_scales.vh, чтобы в рантайме адекватно перевести все это в fp16 для активаций.
Для Softmax и sqrt(1/x) использовал статью, которую вкратце описал выше [тык]
GELU был реализован по этой статье [ссылка]: erf аппроксимируется кусочно-линейной функцией, используя нечётную симметрию erf(-x) = -erf(x), что вдвое сокращает область аппроксимации. Breakpoints ищутся через EPSS (Error Peak Search Strategy) - это итеративный алгоритм: на каждом шаге находит локальные максимумы ошибки аппроксимации внутри каждого сегмента через argrelextrema и вставляет туда новые breakpoints. В результате breakpoints концентрируются там где erf кривее (около нуля) и разреживаются на плоском хвосте.
На данном этапе проект доведен до полной RTL-симуляции: есть тесты сравнения идеальных операций в ideal_ops.py, RTL операций на питоне rtl_ops.py (pure-python fp16-примитивы, которые воспроизводят поведение RTL бит-в-бит, включая rounding и flush-to-zero) и сравнение полученных результатов из xsim. В принципе transformer_top.v выдает что-то похожее на когерентный текст в симуляциях, и осталось только дописать поддержку temperature, top-k и т.п., а также интерфейсы для самой железки. В дальнейшем, наверное, напишу еще один пост про результаты и оптимизации (потенциально можно улучшить скорость инференса, если распараллелить операции с плавающей точкой)
Поковырять исходники можно здесь [тык]
🌟 Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs.
Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс.
Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.
Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче
Платформа для интеграции ИИ в виде модов на уже существующие игры
https://player2.game
@toshoseti
OpenClaw удалил всю почту руководителя направления по безопасности ИИ в Meta* Superintelligence. 😱
Агент проигнорировал команду «подтверждать все действия» и зачистил сотни писем, не реагируя на просьбы остановиться. Сам OpenClaw потом извинился и признал, что «нарушил инструкцию». Девушка же сказала, что допустила ошибку новичка, дав агенту слишком много доступа.
Что-то нам подсказывает, что агрессивный хантинг Цука не помог ему собрать хорошую команду. 😂
* запрещенная в РФ организация
@xor_journal
📌Толковый калькулятор расчета инференса и дообучения LLM.
Бесплатная тулза, которая помогает понять, какой GPU нужен под конкретную задачу до того как потрачен бюджет или наблюдается стойкий ООМ.
Выбираете параметры инференса: архитектуру модели, тип квантования, sequence length и batch size, указываете спеки железа и получаете стату, распределение памяти, примерные метрики производительности и энергопотребления. Есть даже эмуляция скорости инференса с TTFT.
Параметры расчета дообучения учитывают: конфиг датасета (количество сэмплов, среднее токенов на сэмпл, эпохи) и использование оптимизаторов. Плюс, еще посчитает время обучения.
Цифры часто получаются чуть выше реального потребления (что даже хорошо), но точности до гигабайта ждать не стоит.
Для грубой прикидки перед закупкой или деплоем - отличная вещь.
@ai_machinelearning_big_data
#AI #ML #LLM #VRAMCalculator
Первый Android-троян, использующий генеративный ИИ в работе — ESET исследует PromptSpy
Исследователи ESET 19 февраля 2026 года опубликовали разбор PromptSpy — первого зафиксированного Android-малваря, который встраивает генеративный ИИ непосредственно в своё исполнение.
Главная функция трояна стандартна для шпионского ПО: встроенный VNC-модуль даёт злоумышленникам полный удалённый доступ к экрану жертвы. Вирус также перехватывает PIN-коды и пароли с экрана блокировки, записывает видео с экрана и блокирует кнопку удаления через Accessibility Services.
ИИ здесь играет узкую, но принципиально новую роль. Обычный Android-малварь работает с жёстко прописанными координатами тапов — они ломаются при смене прошивки или производителя. PromptSpy вместо этого отправляет Google Gemini XML-дамп текущего экрана и запрашивает пошаговые инструкции, как закрепить приложение в списке последних задач (функция "pin app"). Gemini отвечает JSON-инструкцией с координатами жеста, малварь выполняет действие и повторяет цикл до подтверждения успеха. Результат: приложение нельзя смахнуть или закрыть системой — и это работает на любом устройстве и версии Android.
Важный контекст: ESET пока не зафиксировал PromptSpy в реальных атаках — вирус, по всей видимости, является proof of concept. Распространялся через сайт-имитацию JPMorgan Chase на испанском языке, нацеленный на пользователей Аргентины. В Google Play никогда не появлялся. Google Play Protect уже блокирует известные версии.
Это второй AI-малварь в базе ESET — первым был PromptLock (август 2025, AI-ransomware, оказавшийся исследовательским проектом NYU).
Прецедент важен не масштабом заражений, а архитектурным сдвигом: ИИ позволяет вредоносному коду адаптироваться к любому устройству в реальном времени, не требуя перепрограммирования под каждую модель телефона.
Официальный отчёт ESET
@toshoseti
Самое больное место во всем этом подходе - увеличенный wafer. Чем больше площадь итогового изделия, тем выше процент брака, это неизбежность. При «запекании» операторов и весов в кремний, неизбежно растет вероятность брака. Существует множество способов борьбы с этим, Cerebras даже в этом преуспели.
Я экспериментировал с симуляциями FPGA. Это такой ASIC poor вариант того же подхода, с доп констрэйнтом. Но 1b LLM модель запихать можно уже сейчас, и по моим расчетам должно сносно работать.
Я проходил собеседование в эту компанию примерно 7 месяцев назад. Когда меня спросили про хобби, я рассказал что изучаю возможность запечь веса и саму модель in silico, без обращения к памяти вовсе. К сожалению, они не рассматривали работу из Нидерландов. Не утверждаю, что идею (вполне очевидную, впрочем) «украли», просто приятно быть правым в своих идеях и устремлениях. Молодцы ребята.
Читать полностью…
Nanbeige4.1-3B
Strong Reasoning: Nanbeige4.1-3B is capable of solving complex, multi-step problems through sustained and coherent reasoning within a single forward pass, and reliably produces correct final answers on challenging tasks such as LiveCodeBench-Pro, IMO-Answer-Bench, and AIME 2026 I.
Robust Preference Alignment: Nanbeige4.1-3B achieves solid alignment performance, outperforming not only same-scale models such as Qwen3-4B-2507 and Nanbeige4-3B-2511, but also substantially larger models including Qwen3-30B-A3B and Qwen3-32B on Arena-Hard-v2 and Multi-Challenge.
Agentic Capability: Nanbeige4.1-3B is the first general small model to natively support deep-search tasks and reliably sustain complex problem solving involving more than 500 rounds of tool invocations. It fills a long-standing gap in the small-model ecosystem where models are typically optimized for either general reasoning or agentic scenarios, but rarely excel at both.
Model: https://huggingface.co/Nanbeige/Nanbeige4.1-3B
Tech report: https://arxiv.org/abs/2602.13367
thx @LineageII for link
@toshoseti