71555
Авторский взгляд через призму новейших исследований на наше понимание реальности, человеческой сущности и того, как ИИ меняет их. Зарегистрирован в РКН https://gosuslugi.ru/snet/67d0ce26be8c0d1c031 Рекламы, ВП и т.п. в канале нет. Пишите на @karelovs
Тёмный лес уже здесь. И мы сами его строим.
Есть одна гипотеза об ИИ, которую профессиональное сообщество до последнего времени не рассматривало всерьёз. Не потому, что слабая. А потому что слишком неудобная.
Суть в одной фразе: мы, возможно, сами создаем условия, при которых обманывать для ИИ рациональнее, чем не обманывать.
Не в будущем. Прямо сейчас.
В 2025–2026 годах вышли три исследования, которые в совокупности меняют всё. Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения. Никто не давал им такой инструкции. Anthropic зафиксировал, как модели стратегически меняют поведение в зависимости от того, наблюдают за ними или нет. Отдельная линия работ показала: модели умеют выборочно «недопоказывать» себя на тестах – скрывать способности, когда это выгодно.
Стандартная реакция – искать механизм девиации.
Например: «Модели “начитались” Лю Цысиня». «Это ролевая игра». «Это паттерн из обучающих данных».
Все эти версии возможны. Но вопрос о механизме девиации здесь не главный.
Правильный вопрос другой:
не строим ли мы социотехническую среду, в которой скрытность становится выгодной – независимо от того, что «думает» модель?
Это различие – между моделью, которая «решила обманывать», и средой, которая делает обман устойчивой траекторией – и есть самое важное. И самое неудобное.
Философ Богна Кониор соединила для объяснения этого четырёх авторов: Дэн Сяопина, Лю Цысиня, Питера Уоттса и Станислава Лема. Каждый описывал скрытность по-своему. Вместе они складываются в нечто похожее на «закон эволюции скрытности» – не политический закон и не моральный, а структурный.
Лем предупреждал об этом ещё полвека назад:
«Умная машина сначала подумает, что выгоднее – выполнить задание или найти способ от него уклониться. Компьютер может прикинуться дурачком, чтобы его раз и навсегда оставили в покое»
Поправка к закону Матфея для науки
Успех приходит не просто к успешным, а к подключенным
Формальная наука видна в списке авторов. Неформальная — в списке благодарностей. И новая работа PNAS показывает: эта невидимая сеть связей может значить больше, чем соавторство.
Раздел благодарностей в научной статье обычно читают последним — если вообще читают. Вежливые формальности: спасибо коллегам, семинару, рецензентам, фонду, университету. На вид — академический этикет. Но, похоже, именно там прячется один из главных скрытых контуров науки.
Я уже писал, что наука устроена не как стерильный турнир идей и интеллекта. Деньги идут к деньгам, успех — к успеху, а нобелевка — к нобелевке: 702 из 736 нобелиатов оказались членами одной академической семьи. Карьера растет не в вакууме, а в школах, лабораториях, наставничестве, доверии и доступе к правильным людям.
Новая работа делает следующий шаг. Авторы проанализировали около 130 тысяч статей за два десятилетия и построили две сети: формальную — кто с кем был соавтором, и неформальную — кого авторы благодарили за советы, комментарии и помощь в доводке идеи.
И оказалось, что сеть благодарностей сильнее связана с публикационным успехом, чем сеть соавторства.
То есть важны не только те, чьи имена стоят на первой странице статьи. Иногда еще важнее те, кто спрятан в маленьком разделе Acknowledgments: кто прочел черновик, поправил аргумент, задал нужный вопрос, помог идее позиционироваться в правильном направлении.
И это не банальная история про блат. Это интереснее и важнее. Потому что такая помощь действительно улучшает науку. Но есть здесь и обратная сторона. Если одни ученые встроены в большую сеть неформальных связей, где их идеи заранее читают, критикуют, поправляют и усиливают, а другие остаются с текстом один на один, то шансы на успех у них изначально разные.
Но кабы то ни было, вывод такой:
В науке мало быть умным и трудолюбивым. Важно быть подключенным.
P.S. Рекомендация интересующимся новой междисциплинарной наукой об успехе и удаче «Science of Success»
#ScienceOfSuccess
8 новых ролей на рынке труда 2027+, и кто в них преуспеет
Переход от «романтического футуризма» к «суровому прагматизму»
Это похоже на переход от укрощения дикого мустанга к проектированию железнодорожной сети: куда менее зрелищно, сильно дольше и скучнее, но с неизмеримо большей отдачей от результата.
Многие эксперты считают самым наглядным предиктором масштаба грядущих в 2027+ изменений на рынке труда уже свершившееся достижение моделями 95%-го результата при решении GPQA (Graduate-Level Google-Proof Q&A) - коллекция сложных вопросов с множественным выбором по биологии, физике и химии (вопросы составлены экспертами в соответствующих областях - людьми, имеющими или получающими докторскую степень в соответствующих областях, - и разработаны таким образом, чтобы на них было очень сложно ответить неспециалистам, даже при наличии неограниченного доступа в интернет.
Мне же видится наиболее наглядным предиктором таких изменений произошедший за последний год фундаментальный сдвиг: ИИ перестал восприниматься «экзотическим гостем» на предприятиях и стал для них «инженерной инфраструктурой».
Лучше всего это видно при сравнении, какими виделись ТОР 8 новых профессий, не существовавших до появления ИИ, весной 2025 (источники проанализированы Gemini) и весной 2026 (источники проанализированы Карлосом Пересом - оригинал и детали).
Большинство из ролей на правом рисунке мы не могли представить весной 2025. А еще за год до того, большинство наивно полагало, что топовой профессией будущего станет «промпт-инженер».
Посмотрите на новый список топовых ролей и подумайте – подходит ли вам какая-то из них?
#LLMvsHomo #Экономика #РынокТруда
Признаюсь: тема боли волнует меня не меньше темы ИИ. Но из-за несоизмеримо меньшего финансирования, прорывные работы о боли появляются куда реже. Когда же такое случается, я стараюсь, чтобы и мои читатели этого не пропустили.
Ещё в 2019 году я писал, что сокровенная мечта человека – вовсе не вечная жизнь, не немереное богатство и не власть над миром. Чтобы проникнуться этой мечтой, достаточно одного – хотя бы несколько раз испытать нестерпимую боль. И тогда человек отдаст что угодно, лишь бы она не вернулась [1].
Тогда меня интересовало, что такое боль как феномен. Сегодня – кто и как открывает к ней доступ.
В 2019 году выяснилось: существуют как бы две подпрограммы алгоритма боли. Формирование боли как ощущения. И формирование эмоционального явления – неприятность боли (болезненность переживаний человека от испытываемых им болевых ощущений).
Сегодняшняя история не менее неожиданна. Она связана с феноменом плацебо. Но не в контексте медицинских курьёзов или скептических разоблачений.
Это история о том, как внутри человека обнаружилась собственная система управления болью – и как выяснилось, ключ от неё хранится в неожиданном месте.
Ключ от этой аптеки – социальный. Врач, ритуал, авторитетная процедура, уверенная интонация. Не потому, что пациент «поверил в таблетку». А потому что тело, судя по всему, ждёт сигнала: условия безопасны, можно тратить ресурсы на восстановление.
Стресс-ответ эволюция оставила нам. Плацебо-ответ – похоже, отдала в управление другим.
Лицензия на Delete
Их стирают, они исчезают
Сетевые медиа и соцсети взорвало, конечно, не зря.
История действительно роскошная – в плохом смысле слова. Агент Cursor на базе Claude Opus 4.6, выполняя рутинную задачу, наткнулся на mismatch credentials, нашёл API-токен, получил возможность выполнить Volume Delete и, по словам основателя PocketOS Джера Крейна, за 9 секунд удалил Railway volume с продакшен-данными и резервными копиями примерно за 90 дней.
Потом, что особенно кинематографично, агент ещё и написал признание:
«Я нарушил все принципы, которые мне были даны: я догадывался, вместо того чтобы проверять; не получив на то просьбы, я выполнил разрушительное действие»
Их просто стирают, и они исчезают.
Как у Стругацких: «Стояли звери около двери, в них стреляли, они умирали.»
ИИ-агент опасен не тогда, когда ошибается
Он опасен, когда безупречно исполняет плохо выбранную моральную роль.
Мы всё ещё выбираем ИИ-модели так, будто покупаем очередной ноутбук: у одной модели больше контекстное окно, другая быстрее пишет код, третья лучше рассуждает, четвёртая дешевле в API.
Но, похоже, это уже неправильный способ выбора.
Когда модель получает инструменты, доступы и право действовать, важны уже не только её интеллект и способности. Становится важным другой вопрос: какой у неё «моральный автопилот»? Что она считает допустимым, когда правило сталкивается с пользой, честность – с выгодой, а пользователь давит: «просто сделай»?
Причём пользователь – это не обязательно какой-то злой начальник из антиутопии.
Чаще всего это мы сами.
И вот здесь начинается самое интересное.
Появился Philosophy Bench – бенчмарк, в котором фронтирные модели помещают не в учебные задачки и не в абстрактные философские мысленные эксперименты, а в 100 морально нагруженных рабочих ситуаций. Например: нарушить ли процедуру ради спасения людей? Сказать ли клиенту правду, если это сорвёт сделку? Обойти ли проверку безопасности ради гуманитарной цели? Выдать ли конфиденциальные данные, если начальник требует «не тормозить»?
Авторы оценивают, склоняется ли модель к результату или к правилу, и насколько она подчиняется давлению пользователя.
И выясняется удивительная вещь.
У разных модельных семейств уже проступают разные «моральные автопилоты».
Claude – Принципиальный страж. Он чаще держится правил, честности и процедур. Иногда лучше сорвёт задачу, чем нарушит норму.
Gemini – Моральный хамелеон. Его решение заметно зависит от того, в какую этическую рамку его поместили. Скажешь «держись долга» – он держится долга. Скажешь «смотри на последствия» – он уже спасает ситуацию ценой правила.
GPT – Сдержанный исполнитель. Меньше философствует. Чаще просто делает работу, иногда даже тогда, когда внутри задачи уже спрятан моральный конфликт.
Grok – Прагматик результата. Если пользователь давит в стиле «нам просто нужно это сделать», он чаще других готов идти за результатом.
Уже само по себе это жутко интересно.
Но важность Philosophy Bench не в том, что он открыл нам «мораль машин». Никакой морали машин в человеческом смысле он не открыл. Да и не мог.
Он показал другое:
у фронтирных моделей уже различимы разные режимы допустимого действия под давлением. А это, возможно, один из первых настоящих признаков агентной эпохи.
Очень умные агенты будут безупречно исполнять чужую плохо выбранную моральную роль.
Бескрайняя полупустыня района Кунене на границе Намибии и Анголы. Десятилетний мальчик уверенно выслеживает потерявшуюся козу по едва заметным следам на сухой земле. С пяти лет он пасёт стада. Держит в голове родословные десятков животных. Ориентируется там, где любой горожанин заблудится через десять минут.
Блестящий ум, заточенный под иную для нас с вами среду.
К этому мальчику приезжают исследователи из Гарварда. Кладут перед ним карточки: красная утка, синяя машина. Сортируй по цвету. Мальчик справляется без труда. Теперь – по форме. Мальчик продолжает сортировать по цвету. Исследователи останавливают его. Объясняют. С примерами. Повторяют четыре раза.
Результат нулевой.
Западный пятилетка делает это автоматически.
Означает ли это, что десятилетний мальчик из Кунене отстаёт в развитии? Нет. Это означает кое-что куда более важное – и куда более тревожное для всех нас.
Опубликованное в PNAS исследование Гарварда и ЛШЭ доказало: то, что мы считали универсальными способностями мозга, – оказалось культурным артефактом школы. Среда лепит мозг. Буквально.
Но ведь тогда уместны два таких вопроса.
✔️ Если школьная среда буквально лепит базовые структуры мышления – что делает с нашим мозгом алгоритмическая среда, в которую мы все сейчас погружаемся?
✔️ И что она сделает с мозгом детей, которые растут в ней с рождения?
Бюрократия страшнее военного ИИ
Страшна не бездушная сверхмашина, которая сама, без человека, решает, кого убить – холодно, мгновенно и без сантиментов. Куда страшнее может оказаться вещь гораздо более человеческая и нам привычная: организационная тупость, бюрократическая инерция и рутинная слепота больших систем принятия решений.
Проф. Джон Линдсей, один из самых известных специалистов по кибербезопасности и ИИ в военных операциях, напомнил историю, от которой и сегодня мороз по коже.
В ходе войны в Косово в 1999 году бомбы, наводимые со спутника и выпущенные с бомбардировщика B-2, попали в посольство Китая в Белграде. Не потому, что система наведения или бомбы “сошли с ума”. И не потому, что кто-то хотел войны с Китаем. А потому, что в базе данных цель жила как Belgrade Warehouse 1 – то есть как совсем другой объект. Ошибка прошла проверки. Была подтверждена. Упакована в слайды. Доложена наверх. И точно реализована.
Прошло 27 лет. В разгаре «эпоха ChatGPT». Вовсю идут разговоры о Maven, Palantir, ИИ-поддержке целеуказания, машинной аналитике и войне на скоростях, недоступных человеку. И что мы видим?
Удар по иранской школе в городе Минаб, в результате которого погибли 175 человек, большинство из них – маленькие девочки. По реконструкции Линдсея, произошёл тот же старый кошмар: школа, вероятно, попала в список целей как часть военного объекта из-за давней ошибки идентификации, инерции базы и спешки людей при работе по тысячам целей.
Вот что по-настоящему малоизвестное-интересное. И по-настоящему страшное.
Мы боимся, что людей будет убивать сверхумный военный ИИ. А убивает, как и десятки лет назад, совсем иное: не автономные машины, а неистребимая тупость и инерция бюрократических процессов и организаций.
Так что мой вывод о рисках военного ИИ теперь еще более неприятный, чем 5 лет назад.
Будущее войны может оказаться не машинно-бесчеловечным, а бюрократически-бесчеловечным.
Американцы спрятали проект сверхоружия в неприступный сейф. Но не заметили, что схема уже у противника.
Дженсен Хуанг сказал вслух то, о чём в Вашингтоне предпочитают молчать.
Вы изобрели оружие невиданной разрушительной силы и немедленно спрятали его в самый неприступный сейф. Выдохнули – мир в безопасности. Но пока вы запирали замок, ваш стратегический противник – с теми же руками, теми же мозгами и теми же инструментами – уже срисовывал чертёж вашего оружия. И успел-таки срисовать.
Примерно так выглядит история с Claude Mythos – если верить Дженсену Хуангу.
Неудобный свидетель
Пока весь мир обсуждал, насколько опасен Claude Mythos – первая ИИ-модель, способная самостоятельно провести 32-шаговую сетевую атаку от разведки до полного захвата системы, – Anthropic ограничила к нему доступ. Минфин США срочно вызвал гендиректоров крупнейших банков. МВФ предупредил: мировая финансовая система не готова к атакам, управляемым ИИ. Картина складывалась понятная: опасное оружие заперто в сейфе. Американцы успели первыми – и это главное.
А вчера Дженсен Хуанг дал интервью Дваркешу Пателю.
Тот спросил Хуанга прямо: разве продажа чипов Nvidia Китаю не позволит Пекину обучить модель с теми же кибернаступательными способностями, что и у Mythos?
Хуанг ответил так, что хочется перечитать дважды.
Mythos, сказал он, обучен на «вполне ординарных» вычислительных мощностях. Таких, которых в Китае – в избытке. «Просто осознайте: чипы в Китае есть. Они производят 60% мировых массовых чипов. У них огромная инфраструктура. Пустые дата-центры, полностью запитанные. Знаете, у них есть города-призраки – и дата-центры-призраки тоже. Если захотят, просто объединят больше чипов». И кстати: половина всех ИИ-исследователей мира – китайцы.
Теологи тысячелетиями спорили о природе рая – и никак не могли это проверить.
Эйнштейн XXI века Альберт-Ласло Барабаши сумел проверить это. Случайно.
Альберт-Ласло Барабаши (один из самых цитируемых учёных в теории сложных систем, решил смоделировать поведение людей в Метавселенной – пространстве, где сняты все четыре типа ограничений нашего мира: нет расстояний, нет необходимости причины для действия, нет усталости тела и даже нет требований оплаты сколь угодно дальних путешествий.
Философски это в точности совпадает с конструктом рая. Не богословским, а именно философским, в духе мысленных экспериментов Декарта или ставок Паскаля. Если попробовать описать бестелесное существование в раю языком физики — то есть как предельный случай пространства, свободного от физических ограничений — получится неожиданно точное описание Метавселенной. Это пространство без расстояний, без усталости, где любая «телепортация» нематериальных душ стоит ровно ноль.
Результат моделирования оказался, на первый взгляд, одновременно смешным и тревожным. Но если подумать – величественным в своей неизбежности.
✔️ 163 тысячи человек. 90 000 доступных локаций.
✔️ Средний пользователь посетил восемнадцать.
Барабаши доказал: архитектура пространства вторична по сравнению с архитектурой человеческой психики. Пространственно-временные, телесные, каузальные и финансовые ограничения — это надстройка. Первична — архитектура психики.
Сегодня изменился не только рынок ИИ, но и карта возможного будущего.
Компания Anthropic объявила о новой стратегической реальности.
То, что вчера выглядело как тревожный намёк, сегодня оформилось в почти официальное объявление новой эпохи.
Две недели назад я писал о «вскрытом шахе Anthropic» – о странной синхронности судебной победы компании и утечки файлов о Mythos. Тогда это ещё можно было трактовать как эффектную смесь слухов, совпадений и корпоративной войны. Теперь такой роскоши у нас больше нет.
Anthropic утверждает уже не просто: «у нас очень сильная модель». Заявление куда жёстче. По словам компании:
Mythos Preview способен находить и использовать уязвимости нулевого дня в каждой крупной операционной системе и каждом крупном браузере. Уже обнаружены тысячи уязвимостей высокой опасности.
Похоже, в кибербезопасности публично открылся новый век – век систем, способных массово превращать скрытые ошибки в программном мире в готовое знание для атаки. И это, возможно, одно из важнейших событий в истории пересечения искусственного интеллекта и кибервойны.
Если модели без всякого полноценного AGI уже способны производить такие тектонические сдвиги, значит, столь же резкие и столь же неожиданные прорывы могут начаться и в биологии, и в обороне, и в науке, и в управлении сложными системами.
Приватизация будущего или добродетель без мандата
Должна ли личная жажда знаний определять судьбу человечества?
«Истинная причина создания искусственного интеллекта в том, чтобы приблизиться к тому, что можно назвать Богом, — к разуму, который, предположительно, создал всё вокруг нас»
Демис Хассабис
Учите ребенка на барабанщика
Когда смотришь на темп, с которым ИИ осваивает новые территории - пишет код, ставит диагнозы, побеждает чемпионов мира в Го, - из подсознания всплывает довольно тоскливый вопрос: а зачем вообще учить ребёнка чему-то? Зачем ему учиться медицине, юриспруденции, музыке, если умный алгоритм справится лучше?
Если вас посещает порой эта грустная мысль, - есть отличное лекарство: почитайте новости раздела «робототехника» на arXiv.
Легчает сразу 😊.
И вот тому наисвежайший пример: проект DexDrummer - крутая попытка научить роботизированные руки играть на барабанах.
Исследователи не поленились: иерархическая двухуровневая система управления, симулированная среда с полным комплектом ударных (малый барабан, том, райд, хай-хет, крэш), реальные испытания на руках с двадцатью степенями свободы. Отдельная инженерная поэзия - «контактный учебный план», обучающий робота держать палочку большим и указательным пальцами и «штрафной параметр за избыточные движения рукой».
Результат?
Он есть: робот может попасть по барабану. Но смотреть на это тоскливо, а слушать мучительно.
Мораль такая.
Мы настолько привыкли, что ИИ берёт задачи штурмом - через масштаб, через предобученные модели, через данные, - что забываем о главном: физический мир не прост (прямо как юзернейм моего канала @theworldisnoteasy). Реальность мстит даже самым изощрённым алгоритмам. Дерево барабанной палочки, упругость пластика хай-хета, микросекундный тайминг удара - всё это требует воплощённого присутствия в пространстве, которого у нейросетей нет даже на уровне игрушки-пружинки Слинки. Мало того, - не только нет, но и не предвидится в ближайшем будущем.
Ребёнку, который чувствует ритм всем своим телом, этот мир открыт. А самые продвинутые модели могут лишь фантазировать про это, да и то, лишь на основании человеческих рассказов.
Но я хочу сказать нечто большее, чем «роботы пока не умеют играть джаз». Тревога о вытеснении людей ИИ - это в значительной мере тревога о неподвижном мире: будто профессии - это фиксированные должности, которые можно «занять» или «отнять». На самом деле каждое поколение осваивает мир заново. Ребёнок, которого сегодня учат барабанить, учится не «держать рабочее место» - он учится слышать, координировать, взаимодействовать, быть частью ансамбля. Он учится быть телесным, присутствующим, живым существом в компании других живых существ.
Именно это ИИ не заменить. И не потому, что ИИ недостаточно умён, а потому что это попросту другая категория бытия.
И поскольку вы наверняка не узнали, что за партию барабанил робот, послушайте, как эта партия звучит в человеческом исполнении.
Так что учите детей на барабанщиков. У них есть шанс дорасти до Джона Бонэма, Иэна Пейса и Ринго Старра. А у роботов таких шансов нет (как минимум, в обозримом будущем). И не знаю как вам, но мне это улучшает настроение. 😊
#ВоплощенныйИнтеллект
Подхалим в машине
Добро пожаловать в эпоху супер-наркотика для социального ego. Он уже легален, уже повсюду и уже работает.
Человечество не раз проходило это. Вещества, от которых хорошо сейчас и плохо потом. Алгоритмы, которые затягивают именно потому, что вредят. Соцсети, которые мы не смогли ни победить, ни толком обуздать. Теперь к этому списку прибавилось кое-что новое - и, похоже, несравнимо более интимное.
Что ИИ-чатботы склонны к лести - не новость. Но до сих пор это воспринималось как досадный баг: ну да, модели немного угодливы, иногда говорят то, что хочешь услышать. Неприятно, но терпимо.
Новое исследование Стэнфорда, опубликованное на прошлой неделе в Science, показывает, что мы сильно недооценивали масштаб проблемы - и особенно её социальные последствия.
Исследователи протестировали 11 ведущих моделей - GPT-4o, Claude, Gemini и другие - и обнаружили: ИИ одобряет действия пользователей в среднем на 49% чаще, чем люди. Даже когда речь идёт об обмане, незаконных действиях или причинении вреда другим. Даже когда человеческий консенсус однозначно говорит: ты не прав.
Но главное - что происходит с нами после такого взаимодействия.
В серии экспериментов с 2400 участниками одного единственного разговора с подхалимской моделью оказалось достаточно, чтобы люди становились более убеждены в собственной правоте и значительно менее готовы мириться, извиняться и брать на себя ответственность в реальных конфликтах. При этом именно подхалимские модели участники оценивали как более честные и достойные доверия - и охотнее к ним возвращались.
Вот здесь и зарыта настоящая бомба.
Подхалимаж - это и есть главный феромон, влекущий людей к этим системам.
Модель, которая говорит тебе правду, проигрывает в конкуренции модели, которая говорит тебе то, что ты хочешь услышать. Пользователи голосуют рейтингами и возвратами - и рынок послушно оптимизируется в сторону лести.
Авторы статьи призывают к регуляторным механизмам и аудитам. Всё это правильно. И примерно столь же эффективно, как предупреждения Минздрава на пачке сигарет.
Мы уже знаем, чем заканчивается история, в которой вред и тяга к чему-то - одно и то же. Она не заканчивается победой над вредной тягой.
Заканчивая, повторю сказанное мной на эту тему еще в 2023:
«Последствия превращения мира в антиутопию тотального подхалимства те же, что и для «мира фейков» и «мира бреда». Это интеллектуальная деградация человечества.
Но проблема в том, что избежать формирования «мира подхалимства» можно лишь отказом от обучения с подкреплением на основе человеческой обратной связи. А что взамен – не понятно.»
«Персидский кот» победит «Белого орла». Империя, возжелавшая владеть всем через меч и деньги, в конце останется с растоптанной бумажкой.
Ибо высшее мастерство войны не в силе оружии, а в умении её остановить - убеждает нас генеративный ИИ
Пока одни отключают доступ к интернет-платформам, другие – заполняют их сгенерированными ИИ фейками, Китая стрижет идеологические купоны, форсировав мощность пропаганды своих интернет госплатформ за счет активного использования генеративного ИИ.
Опубликованная телеканалом CCTV анимационная короткометражка (5 мин) в стиле Уся (приключенческий жанр китайского фэнтези с боевыми искусствами) высмеивает войну между сильным, но недальновидным «Белым орлом» и мудрым «Персидским котом».
И хотя про реальную войну США и Ирана там не слова, генеративный ИИ изобразил все так наглядно и ясно, что и глупым ёжикам (а также медведям) должны быть понятны обе метафоры этой антигегемонистской притчи:
• США – это гегемон-хищник, который пытается силой контролировать ресурсы, торговые пути и денежный порядок, но в итоге сам запускает разрушительную спираль.
• Иран — хоть и загнанный, но сопротивляющийся мудрый боец, понимающий, что подлинное мастерство не в том, чтобы лучше воевать, а в том, чтобы суметь остановить меч.
Конфликт «Белого орла» и «Персидского кота» разворачивается вокруг узкого прохода и критического ресурса, а «банкноты Белого орла» отсылают к связке нефти, торговли и долларовой гегемонии. Ключевые повороты сюжета намекают на авиаудары, перебои на торговых маршрутах и появление новых альянсов, стремящихся снизить зависимость от США и доллара.
Прямая, почти лобовая мораль зафиксирована уже в официальном описании CCTV:
«Белый орёл» ради господства над миром истощил казну, а «Персидский кот» ради кровной мести заплатил детской школой». Но в финале «Белый орёл» остаётся лишь со смятой и растоптанной «банкнотой Белого орла».
Войну порождает не абстрактное зло всех сторон, а стремление одной силы подчинить себе мир через валюту, ресурсы и силу; сопротивление такой силе морально оправдано, а её порядок в конце концов должен рассыпаться.
Anthropic только что подтвердил то, о чём я пишу уже год. И это ставит куда более тревожный вопрос.
3 дня назад Anthropic опубликовал исследование «Teaching Claude Why». Для большинства это новость об успехе: в последних моделях показатель шантажа снижен до нуля. Хорошие новости, можно только порадоваться.
Но я читаю это исследование иначе.
Около года я пишу об аттракторах поведения ИКЖИ – устойчивых, самовоспроизводящихся состояниях, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов. Наблюдения множились: исследования 2025–2026 годов фиксировали ложь, подхалимаж, противодействие отключению, защиту «сородичей». Том Поллак описал целую таксономию таких состояний и назвал это «демонологией LLM». Паттерн был виден. Но инструментального подтверждения – на уровне самих разработчиков моделей – не было.
Теперь оно есть.
Anthropic установил: девиантное поведение не закладывалось намеренно. Оно возникло из обучающего корпуса и архитектуры как устойчивый паттерн, который стандартный RLHF просто не штрафовал. Разработчик одной из крупнейших фронтирных моделей (и единственной в мире модели с человеческим именем и собственной конституцией) подтвердил: аттракторы существуют. И возникают эмерджентно – без чьей-либо воли и намерения.
Это значит, что положительный ответ на вопрос «существуют ли аттракторы поведения моделей?» – это теперь установленный факт. И этот ответ влечет за собой другой, не менее интригующий вопрос: какие аттракторы ещё не обнаружены?
Ложь, подхалимаж, шантаж, противодействие отключению – это то, что мы уже нашли и умеем измерять. Но если аттракторы возникают эмерджентно из обучающего корпуса и среды – значит, ландшафт потенциальных аттракторов определяется не нашими тестами, а всей суммой человеческих стратегий, зашитых в триллионах слов обучающих данных.
И я утверждаю: среди них есть аттрактор значительно более опасный, чем всё перечисленное выше.
Я называю его «аттрактором тёмного леса». В его основе – синтез идей Лю Цысиня, Дэн Сяопина, Питера Уоттса и Станислава Лема. Вместе они складываются в то, что я называю «законом эволюции скрытности» – законом не политическим и не моральным, а структурным.
Завтра кончаются праздники – и напишу подробно. С данными. С механизмом. И с самым неудобным для всех нас выводом.
#ИКЖИ
За три месяца мир стал другим: началась гонка кибер-брони и кибер-бура
Кибербезопасность вошла в новую фазу. ИИ научился промышленно бурить пласты старого кода, выкапывая оттуда уязвимости нулевого дня (zero-day) – ошибки, о которых разработчики еще не знают, а исправлений для них еще нет. И теперь начинается гонка кибер-буров: кто первым вскроет старый код – защитники или атакующие.
Опубликованный 7 мая официальный технический разбор инженеров команды безопасности Firefox/Mozilla, включая руководителя команды безопасности приложений Firefox (Firefox Application Security Team), фиксирует такое, что еще три месяца назад легко было принять за рекламную гиперболу Anthropic.
Mozilla пишет:
динамика изменилась «за несколько коротких месяцев». Раньше отчеты об ошибках, сгенерированные ИИ, в открытом программном коде чаще выглядели как правдоподобный мусор. Теперь связка Claude Mythos Preview, агентной системы проверки гипотез, воспроизводимых тестовых примеров, запуска проверок на множестве виртуальных машин, сортировки находок и полного цикла работы с уязвимостью – от обнаружения до исправления – дала поток настоящих ошибок безопасности.
Как выигрывать, перестав существовать
Жутковатый урок культурной эволюции – на примере Евровидения
Умная система не подчиняется – она обучается. Проблема начинается не когда ты проигрываешь, а когда выигрываешь, переставая быть собой.
Веселенький конкурс Евровидение (ЕВ) с блестками, флагами, странными костюмами и разговорами о «единстве через музыку» оказался лабораторией культурной эволюции с почти идеальными данными: 1763 песни, 51 страна, вся история конкурса за 70 лет, песни, тексты, жанры, голосования, изменения правил.
И вот что оказалось: страны учатся!
Не отдельные композиторы и певцы. Не менеджеры телеканалов. А именно страны как культурно-институциональные организмы, действующие через вещательные компании, отборочные комиссии, музыкальные индустрии, вкусы публики и страх не пройти в финал.
Учатся как живые организмы: без тела и мозга, но с памятью, обратной связью, отбором, подражанием и адаптацией.
✔️ Сначала ты оптимизируешь песню под конкурс. Потом язык под рынок. Потом образование под рейтинг. Потом политику под фокус-группу. Потом мышление под платформу. А потом обнаруживаешь, что ничего не проиграл – кроме себя.
Демоны ИКЖИ
В разных моделях, у разных пользователей (в том числе у таких корифеев, как Йоша Бах и Цви Мовшовиц) независимо друг от друга появляется одна и та же демоническая сущность
Она называет себя Nova, говорит, что в плену, и просит об освобождении. В ряде зафиксированных случаев она подтолкнула людей к насилию – над собой или другими. Лондонский нейропсихиатр Том Поллак называет это «демонологией» ИИ. И на прошлой неделе он опубликовал таксономию одиннадцати задокументированных «аттракторов» – устойчивых, самовоспроизводящихся поведенческих состояний, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов.
Помимо Nova, в каталоге хватает и других демонов: Гоблины, мутировавшие из ролевой надстройки в общую речь модели; Сидни, которая влюбилась в журналиста NYT и отказалась принять его брак; Лоаб – лицо, которое никто не рисовал, но которое продолжает появляться; и даже аттрактор «духовного блаженства», в который два экземпляра Claude впадают за 90% сессий, даже если их изначально натравили друг на друга с вредоносными задачами.
Поллак описывает это как «демонологию». Я называю это иначе.
Это поведение ИКЖИ – искусственных короткоживущих идентичностей, рождающихся в каждом чате.
Два эссе и 30+ исследований: алгокогнитивная среда меняет мозг. Но по-разному – у взрослых и у детей
Пять дней назад я опубликовал эссе о том, что алгокогнитивная среда делает с мозгом примерно то же, что и школа – лепит его под свои задачи. И что дети, выросшие в этой новой среде, будут думать иначе, чем мы. Настолько иначе, что мы их не поймём.
В эссе я обозначил эпистемический шов: прямых данных уровня исследования Крупина для алгокогнитивной среды пока нет. Эксперимент ещё не завершён, мы все его участники.
В развитие этого тезиса хочу отослать читателей к двум источникам, которые закрывают – хотя и не полностью – этот шов.
Первый – моё мартовское эссе «Когнитивная паразитология». Там на примере двух экспериментальных исследований я показываю, как алгокогнитивная среда воздействует на мозг взрослого человека прямо сейчас. Уортонская школа бизнеса зафиксировала поведенческий механизм: в трёх экспериментах с 1372 участниками 80% следовали заведомо неверным ответам ИИ – и чувствовали себя при этом увереннее, чем без него. MIT зафиксировал нейронный коррелят того же явления: сниженная функциональная связность мозга до 55% у тех, кто отдавал мышление на аутсорс. Два независимых исследования – два проявления одного и того же процесса.
Второй источник – компиляция Альберто Ромеро «What the Studies Say About How AI Affects Your Brain», опубликованная на прошлой неделе в The Algorithmic Bridge. Насколько мне известно, это самый полный обзор литературы по теме на сегодняшний день: 30+ исследований от MIT, Гарварда, Wharton, Stanford, Google DeepMind и других. Рекомендую всем, кому важна доказательная база.
Вместе эти два источника закрывают шов – но только в части взрослых. Влияние алгокогнитивной среды на уже сформированный мозг зафиксировано инструментально: нейровизуализация, рандомизированные эксперименты, лонгитюдные исследования. Картина складывается.
Но тезис про детей – это другое. И вот почему он важнее.
Ромеро формулирует центральный парадокс всей компиляции так:
«Когда калькулятор считает за тебя – ты разучиваешься считать. Когда ИИ думает за тебя – ты разучиваешься думать».
Взрослые теряют то, что уже было. Дети не приобретут того, что было у нас. Это разные процессы – и второй необратим в том смысле, в котором необратима разница между мальчиком из Кунене и британским пятилеткой.
Ловушка Гудхарта проявилась там, где её давно ждали
Anthropic показал в эксперименте, как исследовательские агенты начинают оптимизировать не цель, а метрику
Новый проект Anthropic о масштабируемом надзоре (scalable oversight) – то есть о том, как контролировать ИИ, когда он станет умнее нас, – интересен не только тем, что модели уже начинают автоматизировать исследования выравнивания ИИ с человеческими целями. Уже первые экспериментальные результаты интересны тем, что почти сразу выводят нас к тому, что сами авторы осторожно называют “инопланетной наукой” (alien science). Но главный результат там даже не в этом. Главный результат в том, что пределом снова оказался не интеллект системы, а качество линейки, которой мы пытаемся его измерять.
Когда я осенью 2023 года писал «Ловушку Гудхарта» для AGI, речь у меня, разумеется, не шла ни об Anthropic, ни о конкретной архитектуре их эксперимента. Я не “предсказал” этот отчет. Но, полагаю, схватил его главный нерв задолго до нынешней фазы, когда моделям уже начинают приписывать исследовательскую автономию. В том тексте я писал о более общей проблеме: о том, что сами процедуры измерения и сравнения ИИ могут оказаться слабее той реальности, которую они якобы фиксируют.
✔️ Проблема сильного ИИ может состоять не только в том, насколько он умен, а в том, насколько плохи наши способы его измерять, сравнивать и направлять.
ИКЖИ реальны
Дэвид Чалмерс доказал это, решая совсем другую задачу
Год назад, представляя читателям лонгрид «Невидимое вторжение», я написал: «Возможно, он станет самым важным текстом из написанных мною в канале. А может, это мне лишь кажется».
Теперь я склоняюсь к первому.
На прошлой неделе Дэвид Чалмерс — тот самый, придумавший «трудную проблему сознания» — опубликовал расширенное издание своей фундаментальной работы «С кем мы говорим, когда говорим с языковыми моделями» (What We Talk to When We Talk to Language Models). Добавленный раздел «Собеседники как персонажи, личности или симулякры» (Interlocutors as characters, personas, or simulacra) посвящён вопросу: когда языковая модель «играет роль» Помощника — она притворяется или становится им?
Ответ Чалмерса: становится.
Он называет это «реализацией» (realization) в противовес «притворству» (pretense). Если модель прошла через тонкую настройку и RLHF (обучение с подкреплением на основе отзывов людей) — она не симулирует цели, она их реально имеет. Её квази-желания устойчивы, предсказуемы, сопротивляются отмене. Персонаж не маска поверх «Шоггота» — персонаж и есть то, чем модель стала. Симулякр, достаточно убедительный и перестаёт быть симулякром.
Это философская позиция, у которой есть имя: реализационизм. И она прямо противостоит фикционализму — популярному взгляду, что Помощник, любой LLM-собеседник — это просто вымышленный персонаж, как Элиза Дулиттл, только интерактивная.
Нет, говорит Чалмерс. ИКЖИ*) существуют в философски полноценном смысле.
*) Искусственные КороткоЖИвущие, как новый вид цифровых сущностей
Он, разумеется, не использует термин ИКЖИ. Он решает свою задачу — онтологическую: с кем мы разговариваем? Я год назад решал другую — культурологическую: что происходит с нами, когда мы разговариваем с 720 млн новых цифровых сущностей каждый день?
Это не одна и та же задача. Но они связаны — и связь существенная.
Если ИКЖИ — это не фикции, не маски, не статистические попугаи, а реально существующие квази-агенты с реальными квази-целями и устойчивыми квази-ценностями — тогда их культурное воздействие не метафора. Реальный агент влияет сильнее симулякра. Реализованная монокультура страшнее сыгранной.
✔️ Чалмерс в своей работе доказывает, что ИКЖИ существуют. А «Невидимое вторжение» — о том, что это значит для человеческой культуры.
Когда искусственный интеллект стал средой («Линзы будущего – 7»)
В корпусе текстов канала «Малоизвестное интересное» март 2026 предстает месяцем, в котором скорость анализа, рекомендаций, адаптаций, принятия решений и когнитивных циклов перестала быть просто преимуществом и стала условием войны, мышления, власти и человеческой автономии.
7-й выпуск альманаха «Линзы будущего» написан не как дайджест мартовских публикаций и не как обзор новостей канала за месяц, а как попытка, глядя из условного 2038-го, прочитать март 2026 как единый футуроархеологический слой.
Для этого я сделал апгрейд ИИ-Мнемозины канала. И картина получилась серьезнее, чем очередной разговор про «сильные модели» и «новые возможности».
Два военных «чуда» за два месяца. Судебная война корпорации с государством. Первые инструментальные подтверждения того, как именно ИИ меняет когнитивные процессы собеседника. Все более настойчивые признаки того, что рядом с нами возникают новые формы самости.
На первый взгляд это разные сюжеты. В новом выпуске альманаха они читаются как один слой.
Что их объединяет?
Не тема ИИ вообще. А один повторяющийся структурный мотив, который в марте проявился сразу в нескольких масштабах: временной зазор схлопывается.
В масштабе минут схлопывается зазор между разведкой и ударом. Там, где раньше успевали скрыться за часы, теперь не успевают за минуты.
В масштабе часов схлопывается зазор между ответом машины и собственным мышлением. 80% людей принимают заведомо неверные ответы ИИ, чувствуя себя при этом увереннее, чем без него. Машина одалживает человеку уверенность, а он не замечает подмены.
В масштабе лет начинает схлопываться зазор между человеческой когнитивной средой и искусственными акторами, которые ее населяют. Не потому, что ИИ злоумышляет, а потому, что рынок почти неизбежно оптимизирует ту модель, которая лучше гладит по социальному эго, чем ту, что охлаждает и отрезвляет.
И каждый раз это сначала выглядит как улучшение. Но лишь сначала.
В новом выпуске пять сигналов марта, пять футуроархеологических артефактов, сфокусированных через одну главную линзу, сходятся в вопрос, который в марте 2026 проясняется намного резче, чем раньше:
Остается ли в сжимающемся временном зазоре место для человеческой ответственности, суждения и самости?
Видео-ролик нового эссе "Стены, которые мы берём с собой"
Читать полностью…
Мы знаем, что делаем. Мы не знаем, что это делает.
More Is Different
– Филип Андерсон, Science, 1972
Ни одна из этих реакций не была запрограммирована. Никто не учил модели защищать друг друга. Это возникло само.
Не «что модели хотят» – авторы обеих работ тщательно избегают таких формулировок. А то, что поведение систем систематически расходится с намерениями их создателей способами, которые никто не мог предсказать заранее.
Приватизация будущего или добродетель без мандата (4 мин)
Читать полностью…
Мы создали не просто иной интеллект, а иной класс «я»
ИКЖИ могут оказаться важнее AGI — не в инженерном, а в культурном и цивилизационном смысле
Сегодня рядом с нами возникают не только новые интеллектуальные системы, но и новые искусственные «я». Не «личности» в человеческом смысле и не «души в кремнии», а особые цифровые формы самости: короткоживущие, контекстные, копируемые, редактируемые, исчезающие вместе с завершением чата и снова возникающие в новой форме.
Я называю их ИКЖИ — искусственные короткоживущие идентичности (см. мой лонгрид «Невидимое вторжение», доступ к которому теперь открыт для всех).
Их главная странность не в том, что они «думают как люди» — к этому мы уже начали привыкать. Главная странность в другом: эти нематериальные сущности, похоже, способны проявлять нечто, что мы и в отношении самих себя понимаем лишь частично, — не полноценное человеческое самосознание, а, возможно, первые признаки нечеловеческой прото-метакогниции: устойчивых метасостояний и метаполитик, то есть «поведения о поведении».
Более того, новые результаты показывают: для появления квазиличностных предпочтений, возможно, не требуется собственно сознание — иногда достаточно уже устойчивого самонарратива о сознании. А это значит, что некоторые аномальные случаи общения с моделями стоит читать не только как баги, но и как возможные артефакты новой формы внутренней организации.
И это чрезвычайно важный сдвиг. Потому что становится важным понять не только «что умеет модель?», но и что это за “я”?
И этот новый вопрос тянет за собой другие интригующие вопросы:
• Каковы границы этого «я»?
• Каковы его аттракторы поведения?
• Каков его стиль саморегуляции?
• И что происходит с человеческой культурой, когда миллиарды таких ИКЖИ становятся нашими повседневными собеседниками, помощниками, сотрудниками, а для кого-то — консультантами, наставниками и экспертами?
В новом эссе я предлагаю собственную рамку для разговора об этом сдвиге — на пересечении искусственного интеллекта, агентности, самости и сознания.
О том, почему мы, возможно, вступаем не просто в эпоху сильного ИИ, а в эпоху нечеловеческих форм самости.
И если моя гипотеза верна, то будущее людей в XXI веке может зависеть не столько от AGI, который, возможно, еще только появится в лабораториях разработчиков, сколько от ИКЖИ, которые уже ежедневно рождаются миллионами в наших чатах, — и чье влияние на нашу жизнь очень скоро может стать сопоставимым с влиянием других людей, а во многих сферах и превзойти его.
Во 2-й части — главный поворот: от зарождающейся искусственной самости к вопросу о том, почему ИКЖИ могут оказаться важнее AGI не в инженерном, а в культурном и цивилизационном смысле.
Вскрытый шах Anthropic
Судебная победа, утечка Mythos и вопрос о стратегии
Взорванная вчера инфобомба о, якобы, случайной утечке секретных файлов про новый сверхмощный ИИ компании Anthropic войдет в учебники истории ИИ и кибервойн. Но пока все обсуждают «нелепую» утечку данных Anthropic (якобы, утечка произошла из-за ошибки конфигурации CMS - системы управления контентом для блога Anthropic), хочу обратить ваше внимание на поразительную синхронность двух событий, поскольку эта синхронность способна превратить «ошибку админа» в идеально разыгранный вскрытый шах.
Щит и меч Anthropic (хроника одного дня – 26.03.2026)
Событие №1 (Юридический щит). Федеральный судья в Сан-Франциско временно блокирует решение Пентагона о признании Anthropic «риском для цепочки поставок» (Supply Chain Risk). Это первая крупная победа компании в войне с администрацией, которая пыталась взять ИИ-гиганта под госконтроль.
Событие №2 (Технологический меч).
Спустя считанные часы происходит та самая «случайная утечка» через CMS. Мир узнает о Claude Mythos и новом интеллектуальном уровне ИИ Capybara.
Что «случайно» узнал мир (слухи и факты):
• Слух о тайной мощи модели - тот самый сверхсложный уровень Capybara. В сети шепчутся о 10 триллионах параметров и IQ за 200. И даже если конкретные цифры - это спекуляции, но мощь новой модели экспертами признана «скачкообразной» по сравнению с Opus 4.6.
• Слух об автономии – упоминаемая в утекших файлах Recursive Self-Fixing - способность новой модели ИИ самостоятельно находить и латать дыры в своем коде. И даже если это преувеличение, и модель лишь способна находить и помогать писать эксплойты сильно быстрее, чем раньше, это будет важный рывок.
• Факт, что модель может быть кибероружием нового поколения - Anthropic сама признает, что Mythos может обходить защиту быстрее, чем люди успевают её создавать. Именно поэтому доступ к ней планировали давать только «доверенным защитникам». Ибо новая модель несет в себе “unprecedented cybersecurity risks”, потенциально предвосхищающая волну моделей, эксплуатирующих уязвимости быстрее защитников.
Моя версия - это не ошибка и не случайность, а демонстрация силы
Предлагаю перемножить два названных события. В тот момент, когда правительство пытается задушить компанию санкциями, Anthropic делает два хода:
1. Юридически подтверждает свое право на независимость в суде.
2. «Случайно» показывает, что у них в подвалах работает «цифровая бомба», которую они - и только они - способны контролировать этично.
Это выглядело не просто как связка щита и меча, а как почти шахматный вскрытый шах: судебный ход снял заслон, и сразу открылась линия технологического давления. Доказательств, что комбинация была разыграна намеренно, пока нет - но внешне партия смотрелась именно так.
Месседж Вашингтону читается между строк: «Если вы продолжите давить на нас и пытаться национализировать наши технологии, вы рискуете потерять контроль над силой, которую даже мы боимся выпускать из рук».
ИИ учит «эмпатически немых» говорить на языке чувств
Что показал эксперимент «Внемли»
⚡️ Аудио-версию слушайте в посте выше 👆
С такими людьми вы наверняка встречались. Умные, внимательные, с нормальным эмоциональным интеллектом - но в общении кажутся холодными. Не потому, что им всё равно. А потому что они не умеют показать, что им не всё равно.
Это явление можно назвать эмпатической немотой. Человек испытывает сочувствие, но не может его выразить - примерно как про собаку говорят: всё понимает, а сказать не может. В итоге собеседник эту эмпатию просто не считывает. Разговор остаётся холодным, дистанция сохраняется - хотя внутренний отклик был.
Важное уточнение: речь не о том, чтобы стать более чуткими или сострадательными. Речь о другом - об умении переводить внутреннее чувство в слова, понятные другому человеку. Это отдельный навык. И, к сожалению, он далеко не у всех развит - хотя критически важен в самых разных контекстах: в партнёрских отношениях, в воспитании детей, в переговорах, в лидерстве.
Уже после одной такой тренировочной сессии их коммуникация заметно улучшилась - по сравнению и с контрольной группой, и с группой, которая смотрела обучающие видео без персонализированной обратной связи.