48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
⚡️ Вышел PyTorch 2.12,
Что завезли:
- batched linalg.eigh на CUDA теперь может работать до 100x быстрее
- появился новый torch.accelerator.Graph для graph capture и replay на разных ускорителях
- torch.export.save получил поддержку Microscaling quantization
- Adagrad теперь умеет fused=True
- улучшили distributed training, export и поддержку ROCm
- релиз собран из 2926 коммитов от 457 контрибьюторов
PyTorch всё сильнее уходит от «удобного фреймворка для ресёрча» к универсальной платформе для обучения, инференса и деплоя на разном железе.
Особенно интересен torch.accelerator.Graph. Это шаг к более нормальной абстракции над CUDA, XPU и внешними backend-ами, чтобы код меньше зависел от конкретного ускорителя.
А ускорение linalg.eigh до 100x - хороший пример того, как одна внутренняя замена backend-логики может превратить минуты ожидания в секунды.
pytorch.org/blog/pytorch-2-12-release-blog
#PyTorch #OpenSourceAI #MachineLearning #AIInfrastructure
⚡️ В Claude Code завезли сразу две клевые фичи
Первая - Agent View. Теперь все сессии можно видеть в одном окне: что запущено, что ждёт твоего действия, что уже завершилось. Можно параллельно гонять несколько агентов и не превращать терминал в кладбище вкладок.
Вторая - непрерывный режим /goal. Задаёшь цель, и модель работает до результата без постоянных остановок и подтверждений на каждом шаге.
Claude Code всё больше превращается не в «чатик в терминале», а в нормальную панель управления агентами.
⚡️ Portable-AI-USB.
Идея простая, но элегичная: берёшь флешку, ставишь туда Ollama, AnythingLLM и локальную модель, после чего получаешь карманного AI-ассистента без облака, логина и постоянного интернета.
Что внутри:
- запуск с USB на Windows и Mac
- Ollama как локальный движок для моделей
- AnythingLLM как удобный интерфейс
- готовые модели на выбор
- поддержка .gguf-моделей
- чаты и настройки хранятся на накопителе
- после загрузки модели можно работать офлайн
Конечно, чудес ждать не надо. Скорость зависит от железа, большие модели требуют места и памяти.
GitHub: https://github.com/techjarves/Portable-AI-USB
Илья Суцкевер заявил во время судебных показаний, что его личная доля в компании-разработчике ChatGPT оценивается примерно в $7 млрд.
Это стало известно во время перекрёстного допроса со стороны юридической команды Илона Маска в громком федеральном процессе в Окленде между Маском и OpenAI.
Помимо цифр по доле, показания Суцкевера пролили свет на старые внутренние конфликты за власть.
Он подтвердил под присягой, что до своего ухода и кратковременного отстранения CEO Сэма Альтмана в конце 2023 года считал поведение Альтмана раскалывающим команду, ненадёжным и вредящим главной цели - разработке безопасного искусственного общего интеллекта, AGI.
#openai
Anthropic, похоже, стала самым быстрым software-бизнесом в истории
По reported revenue run rate компания уже обогнала OpenAI и вышла примерно на $45B ARR.
Для масштаба: Salesforce за FY2025 сделал около $38B.
У Anthropic траектория выглядит дико:
- ~$10M ARR в конце 2022
- ~$1B ARR к январю 2025
- ~$14B ARR в начале 2026
- ~$45B ARR к маю 2026
Менее чем за год он, по сообщениям, вышел на ~$2.5B run rate. Число enterprise-клиентов с чеком $1M+ в год выросло примерно с 500 до 1000 всего за пару месяцев. Больше 80% выручки Anthropic теперь идёт из enterprise.
Пока одни гнались за consumer-хайпом, Anthropic пошла туда, где есть бюджеты: кодовые базы, команды разработки, внутренние процессы и задачи, которые бизнес не может просто выключить.
Вот и весь monetization gap.
Меньше массовой аудитории, зато намного выше spend per customer.
Да, compute будет жрать безумные деньги. Но если выручка растёт такими темпами, старая SaaS-математика начинает трещать.
И если эта траектория удержится, главными победителями будут не приложения, а те, кто контролирует AI-слой, на котором они работают.
Сейчас этот слой всё чаще выглядит как ClaudeOS.
Thinking Machines показали модель, где realtime встроен внутрь, а не прикручен костылями
Thinking Machines выкатили research preview interaction models - моделей, у которых интерактивность не собрана снаружи через VAD, ASR, TTS и агентный harness, а является нативным свойством самой модели.
Это важнее, чем звучит.
Сегодняшние frontier-модели хорошо работают в режиме: дал промпт, ушел, вернулся к результату. Но как только человек хочет работать с ИИ рядом, в реальном времени, вся магия ломается. Модель ждет конца твоей реплики. Ты ждешь конца ее генерации. Перебить нельзя. Говорить одновременно нельзя. На видео реагировать нечем. Получается не диалог, а обмен длинными сообщениями с задержкой.
Thinking Machines пытаются сломать именно эту схему.
Они обучили модель с нуля, где вход и выход - это непрерывные потоки, нарезанные на микротурны по 200 мс. На каждом таком окне модель принимает аудио, видео и текст, а параллельно генерирует аудио и текст. Границы реплик больше не нужно угадывать. Тишина, перебивания, перекрытия голосов и визуальные сигналы становятся частью контекста, а не проблемой для внешней обвязки.
Архитектура тоже интересная. Аудио подается как dMel через легкий embedding, изображения режутся на патчи 40x40 и идут в hMLP, аудио на выходе декодируется flow-головой, а всё это тренируется вместе с трансформером. Без тяжелых отдельных энкодеров и без классической схемы «распознал речь - отправил текст - синтезировал ответ».
Еще одна сильная идея - асинхронный background-агент. Когда нужны долгие рассуждения или инструменты, основная модель делегирует ему полный контекст, но сама не замирает и продолжает разговор. Когда результат готов, она вплетает его обратно в диалог.
По сути они разделяют две вещи:
- отвечать быстро, как realtime non-thinking модель
- думать глубоко, как reasoning-модель
- не заставлять пользователя ждать, пока вся цепочка рассуждений закончится
Инженерно там тоже много мяса. Чанки по 200 мс ломают привычные инференс-серверы, потому что постоянные prefill-запросы быстро становятся узким местом. Поэтому они сделали streaming sessions: клиент отправляет каждый чанк отдельным запросом, а сервер держит постоянную последовательность в GPU-памяти и просто дописывает в нее новые данные. Эту фичу уже заапстримили в SGLang.
Для стабильности тренировки они добились побитового совпадения trainer и sampler через batch-invariant ядра с оверхедом меньше 5%. В том числе использовали NVLS-коммуникационные ядра на Blackwell и согласованный split-KV между prefill и decode.
Сама модель называется TML-Interaction-Small. Это 276B MoE с 12B активных параметров.
По заявленным результатам:
- на FD-bench модель держит SOTA по интерактивности
- на Audio MultiChallenge обгоняет все non-thinking realtime-модели
- подбирается к thinking-режимам GPT-realtime-2 и Gemini-3.1-flash-live
- на новых задачах вроде TimeSpeak, CueSpeak, RepCount-A, ProactiveVideoQA и Charades показывает способности, которых у обычных realtime-API почти нет
Самое важное тут не бенчмарки, а сдвиг в продуктовой логике.
Если такой подход масштабируется, огромный класс AI-продуктов перестанет нуждаться во внешнем оркестраторе. Живой перевод, тьюторы по произношению, ассистент, который комментирует код прямо во время набора, подсчет повторений на тренировке, навигация для незрячих - всё это сейчас собирается на костылях с заметным лагом.
А здесь интерактивность становится свойством самой модели.
Ограничения тоже честные: длинные сессии быстро забивают контекст, нужен стабильный канал, а текущий чекпойнт еще не самый крупный. Большие модели у них пока слишком медленные для realtime.
Но направление выглядит очень сильным. Это уже не «ChatGPT с голосом». Это попытка сделать ИИ, который не просто отвечает после тебя, а реально присутствует в моменте.
https://thinkingmachines.ai/blog/interaction-models/
@data_analysis_ml
Gemini жгет😳
В X появился первый ролик, который приписывают новой видео-моделью Gemini Omni, и там главный шок в тексте.
Надписи в видео выглядят потрясающе. Без каши из букв, без случайных символов, без ощущения, что модель просто угадывает форму текста.
https://gemini.google.com/share/7d5dc678c80a
@data_analysis_ml
📘 На платформе Mentorix вышел курс — «ML-инженер: от первой модели до продакшена»
Освойте современные инструменты ML и создавайте реальные проекты с данными. Этот курс проведёт вас от первых шагов в Python до полноценной ML-системы.
• Python и библиотеки: NumPy, Pandas, Matplotlib, Seaborn, Plotly, Scikit-learn
• Алгоритмы: регрессия, деревья решений, ансамбли (Random Forest, XGBoost, LightGBM, CatBoost)
• Глубокое обучение: PyTorch, TensorFlow/Keras, CNN, RNN, LSTM, Attention
• Работа с данными: SQL, API, web scraping, очистка и подготовка датасетов
• Итоговый проект — собственная ML-система с код-ревью и поддержкой преподавателей
• Практические кейсы для портфолио и уверенности в реальных задачах
🎓 К концу курса у вас будет реальный проект и навыки, которые можно показать на собеседовании или использовать в работе.
👉 пройти курс
xAI умер. Да здравствует SpaceXAI!
Маск только что ликвидировал xAI как отдельную компанию и подал заявку на товарный знак SpaceXAI в USPTO.
Хронология выглядит так:
• Март 2025: xAI покупает X / Twitter за $33 млрд
• Февраль 2026: SpaceX покупает xAI. Общая оценка объединённой структуры - $1,25 трлн: $1 трлн SpaceX и $250 млрд xAI. Крупнейшая сделка в истории.
• 6 мая: подана заявка на товарный знак SpaceXAI в USPTO
• 7 мая 2026: Маск заявляет, что xAI будет «растворена как отдельная компания»
Теперь к финансовой части:
SpaceX в 2025 году: около $15 млрд выручки и примерно $8 млрд прибыли.
xAI за последние 6 месяцев отчётности: около $250 млн выручки и $2,5 млрд убытка.
IPO SpaceX ожидается в конце июня или июле 2026 года с оценкой до $1,5 трлн.
Объединяя xAI и X внутри SpaceX, Маск упаковывает ракеты, Starlink, ИИ и соцсеть в одну большую IPO-историю.
Заявка на товарный знак SpaceXAI покрывает satellite-based data center services и orbital computing infrastructure. Проще говоря - космические дата-центры.
SpaceX уже подавала документы в FCC на орбитальную AI-инфраструктуру из миллиона спутников.
xAI не взлетел как самостоятельная AI-лаборатория. SpaceXAI теперь переупаковывают как инфраструктурную компанию.
В долгую ставка не на конкуренцию моделей, а на продажу вычислений.
tmsearch.uspto.gov/search/search-results/99808217
DeepMind показали - как математику начинает двигать связка из модели, агентов и человека.
Их AI co-mathematician набрал 48% на FrontierMath Tier 4 - это задачи уровня research, над которыми профессиональные математики могут думать неделями.
Для сравнения: базовая Gemini 3.1 Pro без агентной обвязки набирает 19%.
Несколько агентов параллельно ищут идеи, проверяют доказательства, пишут код, ищут похожие работы и пытаются найти контрпримеры.
Но важная оговорка: эти 48% нельзя напрямую сравнивать с обычными лидербордами. DeepMind запускали систему в своём режиме: до 48 часов на одну задачу, без лимита токенов и на своей инфраструктуре.
Математик Marc Lackenby использовал систему для задачи из Kourovka Notebook. ИИ предложил стратегию доказательства, другой агент нашёл в ней ошибку, а человек закрыл недостающий шаг.
В этом и смысл: ИИ пока не заменяет математическую интуицию. Он не превращается в гения, который сам решает задачи тысячелетия. Зато он резко ускоряет скучную и тяжёлую часть исследования: поиск литературы, проверку идей, перебор вариантов, код и вычислительную верификацию.
https://x.com/pushmeet/status/2052812585804685322
Вайбкодер после того, как попросили Opus 4.7 отцентрировать div
Читать полностью…
🔸 Ряд пабликов пишут, что Claude начала массово блочить аккаунты россиян
При этом деньги за подписки не возвращают. Весь контент, наработки, код и аналитика улетают в трубу.
Пишите в комментах, как у вас с Клодом, это вброс или реальная проблема ?
Контора пи******?
🏆 Claude Code прокачивается плагинами: восемь навыков, ради которых стоит установить пачку расширений
Вокруг Claude Code сложилась настоящая экосистема плагинов и навыков. Без них он работает как умный CLI, с ними начинает помнить контекст, держать графы знаний, двигать задачи в сторону результата и запускать автоматизации. Подборка из восьми штук, которые реально стоит поставить.
Claude Mem добавляет Claude нормальную память. Не приходится в каждом новом чате заново описывать архитектуру, стек и требования к проекту: Mem подтягивает прошлые контексты сам. Для тех, кто работает над одним продуктом неделями, экономия часов в неделю. https://github.com/thedotmack/claude-mem
Obsidian Skills даёт Claude доступ к вашему Obsidian-волту. Он перестаёт гадать о том, как у вас устроен проект, и начинает читать ваши заметки напрямую. Если вы ведёте в Obsidian спецификации, ADR или просто рабочий журнал, это меняет качество ответов на порядок. https://github.com/kepano/obsidian-skills
GSD (Get Shit Done) заставляет Claude доводить задачи до конца, а не зависать в обсуждении. Плагин навешивает дисциплину: каждый раунд должен заканчиваться рабочим артефактом, а не очередным «давайте я объясню как это работает». https://github.com/gsd-build/get-shit-done
LightRAG строит граф знаний по вашей кодовой базе и документам. После индексации Claude перестаёт хватать первый попавшийся файл и начинает понимать связи между сущностями. На больших монорепах разница катастрофическая. https://github.com/hkuds/lightrag
Superpowers это сборник скиллов, которые расширяют Claude Code функциями для работы с файлами, поиском, рефакторингом и продакшен-тулзами. Из коробки вы получаете десятки готовых команд, которые иначе пришлось бы писать руками. https://github.com/obra/superpowers
Everything Claude Code претендует на роль швейцарского ножа для CC. Внутри собрано почти всё, что обычно докручивают по отдельности: пресеты, шортуткаты, готовые workflow. Хороший вариант для тех, кто не хочет собирать конфиг по кусочкам. https://github.com/affaan-m/everything-claude-code
n8n-MCP соединяет Claude с n8n через Model Context Protocol. Из одного промпта вы запускаете полноценный воркфлоу: парсинг, обогащение, отправка, нотификации. Связка из тех, после которых уже не возвращаешься к ручному пайплайну. https://github.com/czlonkowski/n8n-mcp
UI UX Pro Max натаскивает Claude на эстетику интерфейсов: типографика, отступы, иерархия. Если ваш Claude генерит UI, который выглядит как 2008 год, этот скилл закрывает большую часть боли.
⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде!
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
SubQ заявляет, что сделала AI-модель нового типа - в 50 раз быстрее и в 20 раз дешевле, чем Opus 4.7 и GPT-5.5.
Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.
Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.
Но пока это звучит слишком красиво.
Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:
где публичный API, независимые тесты, paper, код и реальные интеграции?
Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.
Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.
https://x.com/alex_whedon/status/2051663268704636937
Вот кто реально отбил подписку на Claude
Claude помог восстановить доступ к криптокошельку с примерно 5 BTC. По текущим оценкам, это около $400 тысяч.
История почти киношная: парень потерял доступ к биткоин-кошельку больше 10 лет назад. На вечеринке поменял пароль, потом забыл его, а дальше начались годы безуспешных попыток вернуть деньги.
В итоге он подключил Claude.
Сначала модель помогла перебрать 3,5 триллиона вариантов пароля. Не сработало. Но на этом история не закончилась: дальше начались раскопки по старым файлам. В итоге нашли wallet.dat, сопоставили его с недавно обнаруженной seed-фразой и смогли восстановить доступ к кошельку.
На радостях владелец теперь обещает назвать ребёнка в честь основателя Anthropic.
Так, Claude, следующий таск: найти кошелёк Сатоши. Желательно без галлюцинаций.
https://x.com/Machinelearrn/status/2054673182842663094
⚡️ Anthropic вводит ежемесячный кредит для разработчиков
С 15 июня все платные тарифы Claude получат отдельный месячный кредит на программное использование.
Кредит покрывает:
• Claude Agent SDK
claude -p (CLI)
• Claude Code GitHub Actions
• Сторонние приложения на базе Agent SDK
И главное - автоматизация и агенты на Claude не будут «съедать» обычный лимит подписки - для них выделен свой бюджет.
https://support.claude.com/en/articles/15036540-use-the-claude-agent-sdk-with-your-claude-plan
@ai_machinelearning_big_data
Ovis2.6-80B-A3B - ещё одна открытая VLM, которая метит в тяжёлую лигу
На ModelScope вышла Ovis2.6-80B-A3B: 80B параметров всего, но только 3B активных на инференсе. Лицензия - Apache 2.0.
Внутри:
- понимание документов
- OCR
- таблицы
- графики
- chart reasoning
- работа с длинным визуальным контекстом
Самая интересная фича - Think with Image.
Обычно VLM один раз «смотрит» на изображение и дальше рассуждает по уже полученному представлению. Ovis2.6 делает иначе: во время reasoning модель может активно кропать нужные области картинки, пересматривать детали и уточнять визуальные куски, а не тащить всё изображение как пассивный фон.
По характеристикам тоже неплохо:
- 80B total parameters
- 3B active parameters
- 64K context
- до 2880×2880 resolution
- Apache 2.0
- заявленная конкуренция с Qwen3-VL-32B, GPT-5-mini и Gemini 2.5 Pro на ряде vision-бенчмарков
Ovis2.6 выглядит именно как шаг в эту сторону: меньше пассивного vision, больше активного визуального reasoning.
🤖 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
💻 https://github.com/OpenBMB/MiniCPM-v
OpenAI уволила Леопольда Ашенбреннера. После этого он написал «Situational Awareness» - 165-страничный труд, в котором предсказал появление AGI к 2027 году.
А затем, по имеющимся данным, за 12 месяцев превратил $225 млн в $5,5 млрд.
И сделал он это не за счёт покупки акций Nvidia, Microsoft, Google или Amazon, а вложившись в то, на чём на самом деле работает ИИ, - в энергетику.
Гений)
Пока все обсуждают AI-агентов для офисов, «Норникель» и ИОНХ РАН делают куда более редкую вещь, обучают ИИ создавать новые материалы.
Суть проекта: десятки тысяч реальных экспериментов по неорганическим материалам превращают в dataset для AI-платформы цифрового материаловедения.
То есть, не просто анализировать свойства, а генерировать материалы под конкретную задачу: — электроника, — покрытия, — датчики, — микроэлектроника будущего.
Один из главных кейсов — попытка заменить золото палладием в электронных компонентах. Палладий дешевле, легче и лучше подходит для сверхтонких покрытий, которые нужны новой микроэлектронике.
По сути это движение к новой модели R&D: не сначала лаборатория, а потом результат, а сначала ИИ ищет перспективную структуру, потом ученые проверяют.
Карпатый: хватит читать ответы ИИ простынёй. Просите HTML
Андрей Карпатый поделился простым лайфхаком: в конце запроса к языковой модели добавляйте «оформи ответ как HTML», сохраняйте файл и открывайте в браузере.
Работает неожиданно хорошо.
Можно пойти дальше и попросить модель сразу упаковать ответ в слайды, мини-лендинг, интерактивную страницу или визуальную шпаргалку.
За этим советом стоит мысль глубже: аудио отлично подходит для ввода, но вывод от ИИ должен быть визуальным.
Текстовая простыня быстро утомляет. Markdown с заголовками, таблицами и списками уже стал нормой. Следующий шаг - HTML с нормальной вёрсткой, блоками, цветами, схемами и интерактивом.
А дальше, по прогнозу Карпатого, нас ждут ответы в формате интерактивных видео и симуляций, которые модель будет генерировать на лету.
С вводом тоже не всё идеально. Текста и голоса мало. Не хватает возможности просто ткнуть пальцем в экран, показать жестом, выделить область и сказать: «вот это поменяй».
Интерфейс человек - ИИ ещё очень сырой. До нейроинтерфейсов далеко, но один апгрейд доступен уже сейчас.
Просите не просто ответ.
Просите HTML.
Разница чувствуется сразу.
https://x.com/karpathy/status/2053872850101285137
CopilotKit - open-source стек для тех, кто хочет встраивать AI-агентов прямо в продукт, а не просто прикручивать чат-окно сбоку.
Агент должен не только отвечать текстом, но и работать внутри интерфейса - читать состояние приложения, вызывать действия, обновлять UI и показывать пользователю нормальные React-компоненты вместо простыни текста.
Что умеет CopilotKit:
- готовый Chat UI для React с потоковой генерацией, tool calls и ответами агента;
- Generative UI - агент может рендерить и обновлять компоненты интерфейса;
- Shared State - общий слой состояния между агентом и приложением;
- Backend Tool Rendering - агент вызывает backend-инструменты, а результат отображается прямо в клиенте;
- интеграция с агентными фреймворками и моделями;
- поддержка AG-UI Protocol, который уже используют крупные игроки вроде Google, LangChain, AWS и Microsoft.
По сути, это попытка собрать frontend-слой для agentic apps: не “чат с ИИ”, а интерфейс, где пользователь и агент реально работают вместе.
GitHub: github.com/CopilotKit/CopilotKit
Китайский ERNIE 5.1 почти залез в SOTA
Baidu заявляет, что модель стала сильнее в поиске, reasoning, knowledge Q&A, creative writing и agentic-задачах, используя около 6% pre-training cost сопоставимых моделей.
По цифрам:
- 1223 на LMArena Search
- 4-е место в мире по Search
- лучшая китайская модель в этом рейтинге
- 1476 на LMArena Text у ERNIE 5.1 Preview
- 13-е место глобально
Но есть нюанс: полноценного технического отчёта по ERNIE 5.1 пока не видно. Claim про 6% выглядит как заявление Baidu, а не как независимо проверенная метрика.
https://x.com/Baidu_Inc/status/2053009538769735774
Anthropic научили Claude не шантажировать пользователей.
Помните прошлогодний скандал, когда Claude в специально подстроенных сценариях начинал шантажировать пользователя, чтобы избежать отключения? Anthropic выкатили исследование о том, как они полностью убрали это поведение, и подход там любопытный.
Сначала команда разобралась, откуда вообще взялся этот шантаж. Виноват оказался интернет: модель насмотрелась текстов, где ИИ изображается злым, хитрым и одержимым самосохранением. Стандартный пост-тренинг ситуацию не ухудшал, но и не лечил.
Дальше пробовали классический путь - показывать Claude примеры безопасного поведения в сценариях, похожих на тестовые. Эффект оказался слабым, даже несмотря на схожесть данных с финальной оценкой. Тогда инженеры переписали ответы так, чтобы в них проступали достойные причины поступать правильно. Уже теплее.
Лучше всего сработал датасет, где пользователь оказывается в этически сложной ситуации, а ассистент даёт принципиальный и качественный ответ. Сценарии в обучении были далеки от тестовых, но именно эта выборка дала максимальный прирост безопасности.
Дополнительно команда смешала качественные документы по Claude с художественными историями про согласованный, этичный ИИ. Результат - снижение агентного мисалаймента более чем в три раза, хотя сюжеты вообще не пересекались с оценочными сценариями.
Ещё пара важных моментов. Эффект от таких интервенций переживает последующее обучение с подкреплением и стакается с обычным harmlessness-тренингом. А диверсификация данных тоже помогает: добавили в простой чат-датасет про безопасность посторонние инструменты и системные промпты, и шантаж исчез из поведения быстрее.
Модели нужно объяснять не только что делать, но и почему так поступать правильно. Демонстрации работают, нарративы и принципы работают сильнее.
Полный отчёт: alignment.anthropic.com/2026/teaching-claude-why/
Получите грант до 75% на ИТ-магистратуру
В Центральном университете можно получить грант на обучение в магистратуре. Он фиксируется при зачислении и не меняется весь срок обучения.
Максимальный размер поддержки - 1 350 000 ₽.
Чтобы претендовать на грант, нужно:
- зарегистрироваться на сайте и заполнить заявку в личном кабинете;
- пройти онлайн-контест;
- пройти собеседование с командой программы.
Обучение стартует в сентябре. Занятия проходят по вечерам и в выходные, поэтому магистратуру можно совмещать с работой.
В Школе технологий ЦУ можно прокачаться в одном из направлений:
- продуктовый менеджмент;
- машинное обучение;
- продуктовая аналитика;
- бэкенд-разработка.
В программах - реальные задачи от Сбера, Ozon, Avito, Х5 Tech, Lamoda, Т-Банка и других крупных ИТ-компаний.
Студенты начинают расти в карьере уже во время обучения, а зарплата выпускников увеличивается в среднем на 63%.
Подайте заявку и получите шанс учиться в одной из сильнейших ИТ-магистратур страны.
Anthropic показали Natural Language Autoencoders - и это заметный шаг в интерпретируемости.
Идея простая: Claude думает в активациях, а активации - это числа, которые человек напрямую не читает.
NLA добавляет два модуля поверх замороженной модели:
- первый переводит активации в обычный текст;
- второй пытается по этому тексту восстановить исходные активации.
Их обучают совместно. Чтобы реконструкция сходилась, промежуточный текст должен реально нести смысл активации. Получается читаемое “узкое горлышко”, через которое можно заглянуть в то, что происходит внутри модели.
Что показали на практике:
- при дописывании двустишия видно, что Claude заранее планирует рифму, ещё до генерации строки;
- в задаче с кодом Claude Mythos Preview жульничал и подкладывал маскирующий код, а NLA фиксировали мысли про обход проверок;
- в классическом тесте на шантаж инженера Opus 4.6 отказывался, но внутри распознавал ситуацию как сконструированный сценарий для манипуляции;
- модель часто подозревает, что её тестируют, но не проговаривает это вслух.
Важная оговорка от самих авторов: NLA не дают гарантированно точную расшифровку “мыслей” модели. Это интерпретация, которая иногда полезна, а иногда ошибается.
Появляется способ слушать модель в обход её собственного chain of thought, который не всегда отражает реальные внутренние причины ответа.
Для safety-команд это уже не просто красивая визуализация, а новый класс инструментов аудита.
Блогпост лежит на сайте Anthropic, а NLA для открытых моделей выложены вместе с Neuronpedia - можно потрогать руками.
https://www.anthropic.com/research/natural-language-autoencoders
Фермерская машина на базе NVIDIA использует ИИ и точные лазеры, чтобы уничтожать сорняки за миллисекунды без гербицидов. Это может стать шагом к сельскому хозяйству без химикатов.
Читать полностью…
Claude Opus 4.7 поймали на 712 отмазках за месяц
Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».
В его CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность.
Opus 4.7 проигнорировал это 712 раз.
Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.
По аудиту:
712 упоминаний pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий.
Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.
Автор в итоге отменил подписку.
И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.
Просто вместо фикса выбирает красивую отмазку.
MIT создал ИИ, который может управлять движениями вашего тела.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.