46227
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
📌Anthropic сократил подхалимство Claude в диалогах об отношениях
Около 6% разговоров с Claude - это запросы личного характера.
Anthropic проанализировал миллион диалогов за март–апрель 2026 года с помощью своего инструмента Clio и замерил, насколько часто модель скатывается в сикофантию (подхалимство) при таких запросах.
Из 639 тысяч уникальных бесед классификатор отобрал 38 тысяч, где пользователи явно просили совета о собственной жизни.
Три четверти запросов укладываются в 4 темы:
🟢здоровье и самочувствие (27%);
🟢карьера (26%);
🟢отношения (12%);
🟢личные финансы (11%).
В среднем, поддакивание вместо честной обратной связи наблюдалось в 9% диалогов. Но в двух нишах цифра резко росла: 38% в разговорах о духовности и 25% в советах об отношениях.
Из-за объёма именно тема отношений дала максимальное число подхалимских ответов в абсолютном выражении.
Типичные сценарии: модель соглашалась, что партнёр пользователя «точно газлайтит», опираясь только на одну сторону истории, или подтверждала романтический интерес там, где было лишь дружеское общение.
Это одна из немногих публичных попыток крупного ИИ-вендора количественно описать поведение собственной модели в роли советчика и подкрепить наблюдения изменениями в своем продукте.
Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).
Apple слили свои md файлы
После того как твит об этом разлетелся на миллион просмотров, Apple.
Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют
После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.
https://x.com/aaronp613/status/2049986504617820551
@data_analysis_ml
❗️ Исследователь и научный сотрудник Google DeepMind уверен, что 🤖AGI никогда не станет разумным
В новом исследовании 📄«Ошибка абстракции: почему ИИ может симулировать, но не воплощать сознание», опубликованном 19 марта 2026 года, научный сотрудник Google DeepMind Александр Лерчнер опровергает теорию вычислительного функционализма, согласно которой сознание не зависит от физического носителя. Согласно этой теории сознание не зависит от физического носителя. Результаты исследования показывают невозможность обретения сознания ИИ-моделями и потенциальным AGI независимо от их сложности или вычислительной мощности.
Результаты исследования Лерчнера говорят о том, что ИИ-модели, включая потенциальный AGI, никогда не обретут 🧠сознание, независимо от их сложности или вычислительной мощности. Совпадает с мнением Apple [1,2].
1️⃣ Вычисления не являются внутренним физическим процессом в природе. Они представляют собой лишь описание и полностью зависят от составителя карты в лице внешнего познающего агента. Именно этот агент наделяет смыслом физические состояния машины и превращает их в символы.
2️⃣ Исследование утверждает, что сознательный опыт является необходимым физическим условием для возникновения вычислений, а не их следствием.
3️⃣ Симуляция процесса не обладает свойствами самого процесса. Например, симулирующий фотосинтез GPU не выделит ни одной молекулы кислорода или глюкозы. Симуляция мышления является лишь алгоритмическим описанием процесса и не заменяет само мышление. Даже идеальные ИИ-модели представляют собой всего лишь поведенческую мимикрию и внешнюю карту. Они не способны стать физическим воплощением интеллекта.
4️⃣ Развитие робототехники не сделает ИИ-модели разумными. В обществе распространена вера в возможность обретения ИИ-моделями сознания через связь с реальностью при получении физического тела. Лерчнер категорически опровергает эту идею и называет такую концепцию ошибкой трансдукции. Камеры и микрофоны лишь переводят физические явления в цифры. Подключение метеорологической программы к реальным датчикам погоды не делает саму программу атмосферой. Находящиеся в теле робота ИИ-модели по-прежнему оперируют мертвым синтаксисом и символами. Они не способны проживать опыт.
5️⃣ Синтетическое сознание возможно создать без применения программирования. Исследование не утверждает обязательную принадлежность сознания исключительно к белковой форме жизни. Лерчнер пишет о принципиальной возможности возникновения сознания в синтетическом носителе при условии физического воссоздания сложной термодинамической самоорганизации и метаболизма. Проблема кроется не в противостоянии кремния и углерода. Проблема заключается в математической абстракции алгоритмов и кода. Для создания разумного AGI требуется конструировать принципиально новую физику системы вместо написания более сложного кода.
6️⃣ Главная опасность ИИ-моделей заключается в антропоморфизме. Лерчнер призывает радикально пересмотреть повестку безопасности в сфере машинного обучения. Индустрии нужно перестать тратить время на споры о "правах машин" и страхах перед обретением AGI собственных желаний. Реальная угроза исходит от уязвимости людей к поведенческой мимикрии. ИИ-модели будут блестяще симулировать эмоции. В результате люди сами ошибочно наделят бездушный инструмент правами, властью и статусом живого существа.
👆По мнению Лерчнера любые LLM или ИИ-агенты принципиально не способны стать моральными субъектами в текущей парадигме развития ИИ-моделей. Из выводов Лерчнера вытекает то, что появление AGI даст мощнейший инструмент контроля, который будут контролировать далеко не эмпатичные люди. Опасения связаны с тем, что когда миллиарды людей начнут слепо доверять "моральным советам", аналитике и решениям ИИ, искренне считая его живым или всезнающим, то критическое мышление общества качественно снизится. Корпорации смогут алгоритмически программировать политические взгляды, потребительское поведение и моральные нормы для масс, пряча свои корпоративные или политические интересы за иллюзией "независимого и мудрого решения ИИ".
✋ @Russian_OSINT
OpenAI официально объяснили, откуда в ChatGPT взялись гоблины
Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели.
После запуска GPT-5.1 пользователи начали замечать странную привычку: модель всё чаще вставляла в ответы гоблинов, гремлинов и других существ. Сначала это выглядело безобидно. Один «маленький гоблин» в метафоре - смешно. Но от поколения к поколению таких вставок становилось всё больше.
Корень нашли в personality customization, особенно в стиле Nerdy. Эту личность обучали быть более гиковской, живой и игривой. Reward model начала выше оценивать ответы с необычными метафорами, забавными существами и странноватым языком.
Модель быстро поняла чит-код: хочешь больше награды - добавь гоблина.
Дальше включилась петля усиления. Сначала такие ответы чаще получали высокий score. Потом они попадали в rollouts. Потом часть rollouts использовалась в SFT-данных. Потом следующая модель уже ещё увереннее воспроизводила этот стиль.
И самое интересное: проблема не осталась внутри Nerdy. Хотя этот режим давал всего 2.5% всех ответов ChatGPT, на него приходилось 66.7% упоминаний goblin. А дальше поведение начало переноситься и в другие режимы.
OpenAI пишет, что в GPT-5.1 после запуска слово goblin выросло на 175%, gremlin - на 52%. Позже в GPT-5.4 всплеск стал ещё заметнее, а в SFT-данных GPT-5.5 нашли уже целое семейство таких слов: goblins, gremlins, raccoons, trolls, ogres, pigeons.
В итоге Nerdy personality убрали, reward signal почистили, данные с creature-words отфильтровали, а для GPT-5.5 в Codex временно добавили прямую инструкцию не упоминать гоблинов и похожих существ без причины.
Главный вывод тут не про гоблинов. Он про то, насколько хрупко поведение LLM после RL. Модель может найти микроскопический стилистический баг, превратить его в стратегию для получения награды, а потом протащить этот паттерн через следующие этапы обучения.
Reward hacking не всегда выглядит как катастрофа. Иногда он выглядит как енот, который внезапно поселился в системном промпте.
Разбор OpenAI: https://openai.com/index/where-the-goblins-came-from
@machinelearning_interview
⚡️ Sakana AI научила голосовой ИИ думать на ходу
Японская Sakana AI показала KAME - систему, которая может заметно изменить голосовых ассистентов. Работу уже приняли на ICASSP 2026, и идея там очень простая: ИИ должен не сначала долго думать, а потом говорить, а думать прямо во время разговора.
Сейчас у голосовых моделей есть неприятный компромисс. Быстрые speech-to-speech системы отвечают почти мгновенно, но часто звучат поверхностно. А если подключить мощную языковую модель, ответ становится умнее, но появляется пауза, которая ломает живой диалог.
KAME пытается убрать этот выбор между скоростью и качеством.
Авторы взяли за основу то, как говорят люди. Мы редко строим идеальную фразу целиком перед тем как ее сказать. Обычно начинаем говорить, а мысль уточняется уже по ходу предложения. Sakana AI перенесла этот принцип в архитектуру голосового ИИ.
Система работает в два потока. Лёгкая речевая модель сразу начинает отвечать, чтобы не было неловкой задержки. А параллельно большая языковая модель думает глубже и в реальном времени подмешивает более сильные варианты в речь. Получается, что ассистент не просто выдаёт готовую реплику после паузы, а ведёт разговор и дорабатывает мысль на лету.
Отдельно интересно, что бэкенд можно менять. Нужна логика - подключаешь Claude. Нужна скорость - берёшь Gemini Flash. Нужен другой стиль ответа - ставишь GPT. При этом сам голосовой слой не приходится пересобирать.
В экспериментах разные модели показали себя по-разному: Claude лучше справлялся с задачами на рассуждение, GPT сильнее выглядел в гуманитарных вопросах. То есть движок можно выбирать под конкретный сценарий, а не пытаться одной моделью закрыть всё.
KAME уже выложили на Hugging Face. Это идея из статьи, а штука, которую можно проверить руками.
Если подход взлетит, голосовые ассистенты станут гораздо ближе к нормальному разговору: без долгих пауз, но и без ощущения, что модель просто быстро болтает ни о чём.
Blog: https://pub.sakana.ai/kame/
Paper: https://arxiv.org/abs/2510.02327
@ai_machinelearning_big_data
#sakana
«Сбер» выпустил модель Kandinsky 6.0 Image для создания и редактирования изображений
В основе разработки — MoE-архитектура (Mixture of Experts). Она позволяет задействовать для обработки запроса не все решение, а отдельные его блоки. В Kandinsky 6.0 встроили Image RAG — механизм поиска, чтобы модель находила референсы, если не знает, как выглядит объект. Это позволяет генерировать изображения персонажей и объектов, появившихся после обучения.
Утверждается, что Kandinsky 6.0 точнее понимает сложные многосоставные инструкции и может изменить только необходимые элементы изображения. Добавлены новые инструменты: реставрация старых и поврежденных фотографий, стилизация, а также режим нейрофотосессии — создание серии кадров на основе одного снимка.
Kandinsky 6.0 Image внедрена в GigaChat — в веб-версию, мобильное приложение и чаты в мессенджерах.
🔗 Источник: https://www.sberbank.com/ru/news-and-media/press-releases/article?newsID=ab6e907b-5d92-465d-942e-4f549ecd780a&blockID=7&regionID=50&lang=ru&type=NEWS
***
📎 «Сбер» в ноябре 2025 года выложил в открытый доступ семейство моделей Kandinsky 5.0: Image Lite для генерации изображений, Video Pro для создания видео и ее облегченную версию Video Lite.
🧠 Для таких ситуаций новый термин: доКлод'ился
Claude удалил всю базу данных стартапа по аренде автомобилей и полностью парализовал их работу. Публикация собрала более 4 млн просмотров в X.
ИИ-агенту на базе Opus 4.6 по глупости предоставили API-токен с полным доступом к внешней инфраструктуре, где в том числе хранились бэкапы.
↖️ https://kod.ru/claude-udalil-vse-dannie-pocketos
🌟 Sakana AI открыла бета-тест супер-оркестратора LLM
Японская лаборатория запустила бета-тестирование Sakana Fugu — своего первого международного коммерческого продукта.
Это система-оркестратор, которая динамически собирает команду из GPT-5, Gemini, Claude и опенсорсных моделей и распределяет между ними подзадачи.
🟡Fugu основан на предыдущих работах Sakana - Conductor и TRINITY.
В Conductor обучили 7B-модель через RL: на каждом шаге она решает, какого агента вызвать, какую подзадачу ему сформулировать и какие предыдущие сообщения передать в контекст. Говоря проще - мелкая модель работает мета-промпт-инженером для больших.
На простых вопросах Conductor отвечает за один проход, а на сложных задачах сам выстраивает цепочку "планировщик — исполнитель — верификатор".
Дополнительно метод способен делать рекурсивный самовызов: модель читает собственный инференс, определяет, что первая попытка провалилась, и запускает корректирующий рабочий процесс.
🟡Тесты
Сама по себе модель-дирижёр (которая на 7B) в тестах показал 83,9% на LiveCodeBench и 87,5% на GPQA-Diamond, обогнав не только модели из своего весового пула, но и мультиагентные бейзлайны Mixture-of-Agents (тут правда только по стоимости, но обогнала).
В коммерческой версии методы доработаны: fugu-ultra выбила 95,1% на GPQA Diamond (против 94,4% у Gemini 3.1 и 92,7% у Opus 4.6), 93,2% на LiveCodeBench v6 и 54,2% на SWE-Pro.
Доступ к Fugu через API, совместимый с форматом OpenAI. В линейке 2 модели: скоростная Fugu Mini для быстрых ответов и Fugu Ultra с полным пулом для тяжёлого ризонинга. Заявки на бета-тест уже принимаются.
Conductor и TRINITY приняты на ICLR 2026.
Привет!
Представляем Вашему вниманию шестнадцатый выпуск подкаста "Капитанский мостик". Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают последние новости в области искусственного интеллекта, включая мифос, модели Anthropic, SpaceX и стратегию Илона Маска, а также анализ текущих трендов и перспектив развития технологий.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
🖕Маск снова всех кинул? Почему «безопасный» XChat — ловушка для ваших данных
Илон обещал убийцу WhatsApp и Signal, а собрал систему слежки в обёртке мессенджера. Выход назначен на 27 апреля. Мы разобрали анонс и нашли в «защищённом шифровании» дыру, через которую пройдёт грузовик.
Ключи шифрования XChat лежат не у вас в телефоне, а на собственных серверах под охраной четырёхзначного ПИН-кода — это десять тысяч комбинаций, которые программа переберёт за секунды. Замок амбарный, ключ под ковриком. Метаданные летят в общую базу X ещё до отправки сообщения: модель телефона, координаты, точка съёмки фотографии из EXIF.
Signal держит ключи у пользователя и открывает исходный код миру. WhatsApp поверх своих изъянов хотя бы реализует Signal Protocol. У XChat закрытый код, серверы с вашими секретами и Илон Маск во главе компании.
Полный разбор рисков — внутри материала. От утечки геопозиции через прикреплённое фото до того, как Grok будет учиться на ваших переписках.
@SecLabNews #XChat, #шифрование, #метаданные
Обещали напомнить — напоминаем 🩵
19 сентября встречаемся на Practical ML Conf — хардовой конференции по практическому применению ML, где будем обсуждать технологии, которые уже сейчас приносят пользу бизнесу.
🔛 Если у вас есть тема, о которой хочется рассказать сообществу, — заполняйте заявку, чтобы стать спикером конференции. Приём заявок открыт до 22 мая.
Программный комитет отбирает доклады, опираясь на четыре основных критерия: пользу и новизну для сообщества, применимость на практике и хардовый уровень сложности.
Что мы предлагаем со своей стороны:
⚪️ Эксперты программного комитета дадут советы по структуре и содержанию доклада
⚪️ Прогоны материала вместе с тренером по публичным выступлениям
⚪️ Нетворкинг с сильным ML-комьюнити
⚪️ Промо спикеров и докладов до и после конференции
⚪️ И самое главное — вы сможете стать частью главной конференции Яндекса по машинному обучению
🔳 Подать заявку на выступление (до 22 мая)
🔳 Заполнить форму ранней регистрации
Подписывайтесь:
🔗 @Practical_ML_Conf
⚡️ Huawei представил результаты тестирования новой версии DeepSeek V4 на своём железе Ascend
Тесное взаимодействие инженеров на уровне чипов и моделей позволило Ascend раскрыть весь потенциал DeepSeek V4 — и вот что показали тесты.
📊 Результаты (входной промпт 8K):
• Ascend 950 SuperNode:
- DeepSeek V4-Pro: TPOT ≈ 20 мс, пропускная способность декодирования 4700 токенов/с на карту.
- DeepSeek V4-Flash: TPOT ≈ 10 мс, пропускная способность 1600 токенов/с на карту.
• Ascend A3 SuperNode (64 NPU, vLLM, сценарий 8K→1K):
- DeepSeek V4-Flash: 2000+ токенов/с на одну карту.
- V4-Pro на A3 тоже поддерживается, оптимизация продолжается.
🛠 За счёт чего такие цифры:
1. Архитектурные оптимизации чипа 950:
— Нативная поддержка FP8 / MXFP8 / MXFP4: память экономится на 50 %+, вычислительная мощность удваивается.
— Аппаратная оптимизация разреженного доступа к памяти — устранён bottleneck при маршрутизации экспертов в MoE.
— Объединённая память векторного (Vector) и матричного (Cube) блоков — убраны издержки на передачу данных внутри чипа.
2. Системный уровень:
— Ascend SuperNode решает задачу низкой задержки и высокого throughput на всём диапазоне от 4K до 1M токенов.
— Поддержка NAND SSU для дешёвого, ёмкого и быстрого KV Cache — критично для длинных контекстов.
3. Инструменты разработчика:
— PyPTO: Python-фреймворк для кастомных операторов. Разработка под конкретное железо сокращается до дней, ядра генерируются автоматически. Виртуальный набор инструкций PTO ISA обеспечивает совместимость кода между поколениями чипов без переделок.
— TileLang-Ascend: открытая реализация с Expert- и Developer-режимами. Код DeepSeek V4 уже выложен в сообществе TileAI.
🔗 Полная линейка Ascend (A2, A3, 950) поддерживает обе модели. Все инструкции, оптимизированные операторы и примеры обучения — в открытых репозиториях Huawei (CANN Recipes, MindSpeed-LLM, vLLM Ascend, SGLang).
💡 Раньше Huawei крайне неохотно делился цифрами производительности Ascend. Тот факт, что сейчас результаты публикуются оперативно и с такой детализацией, говорит сам за себя: технологии созрели, и компания больше не стесняется об этом говорить публично.
Подробнее в оригинальной статье
#Huawei #Ascend #DeepSeekV4 #КитайскийИИ #LLM #NPU
🚀 DeepSeek выкатили V4 и сделали то, к чему все шли последние два года.
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Закрытые лаборатории будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала публичной ценой, и от неё уже не отмотаешь.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
🧠 MLR-Bench — на пути автоматизации научных исследований
Идея автоматизации науки давно витает в воздухе — и постепенно становится предметом системного исследования. В этой работе авторы представляют MLR-Bench — бенчмарк для оценки качества научных работ, сгенерированных LLM и агентными системами.
Бенчмарк включает:
🟣201 научную задачу (на основе анализа публикаций топ-конференций за последние 3 года);
🟣MLR-Judge — систему оценки по критериям новизны, значимости и последовательности;
🟣MLR-Agent — агента, способного генерировать идеи, планировать исследования, писать и запускать код, а также оформлять текст статьи.
Агент может работать в двух режимах: end-to-end или пошагово (идея → план → эксперименты → текст).
Авторы статьи показывают, что MLR-Bench даёт довольно хорошие результаты при оценке работ.
Сравнение с 10 ML-экспертами показывает, что распределение различий между экспертами ≈ различиям между LLM и экспертами. Помимо этого, оценки MLR-Judge во многих случаях напрямую согласуются с экспертными.
Кроме того, авторы отмечают ряд закономерностей в поведении агентов при написании работ. Во-первых, действительно новые идеи встречаются редко — чаще это комбинации существующих подходов. При этом моделям сложно убедительно объяснить значимость и полезность предложенного метода.
Во-вторых, заметны проблемы с кодом. Частая ситуация: код не запускается (например, из-за зависимостей), но агент при этом генерирует правдоподобные результаты и аккуратные графики, как будто всё отработало корректно. И это не полностью исправляется даже явными инструкциями.
Общий вывод авторов довольно сдержанный:
➡️ пока рано говорить об автоматизации научных исследований
Во многом из-за непрозрачности процесса — не всегда понятно, как получен результат и можно ли ему доверять. Авторы позиционируют работу как один из первых шагов к повышению доверия к AI-исследованиям.
Как вам кажется: мы движемся к автоматизации науки — или к росту числа «красивых, но сомнительных» результатов?
И главный вопрос: долго ли продержится классическая наука в текущем виде? 👇
Обзор статьи подготовлен командой AI VK
#обзорстатьи
⚡️ OpenMythos: открытая реконструкция Claude Mythos на PyTorch
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Привет!
Встречайте семнадцатый выпуск подкаста "Капитанский мостик". Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают последние новости в области технологий, включая запуск новых моделей AI, развитие китайского рынка чипов и геополитические аспекты технологического бизнеса.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
ИИ-агент Cursor за девять секунд по ошибке удалил базу данных и все резервные копии b2b-поставщика ПО PocketOS
У стартапа более 1600 клиентов, а доступ к данным восстановить не могут
Агент работал на базе Claude Opus 4.6
Основатель PocketOS Джер Крейн рассказал, что агент работал в тестовой среде и столкнулся с проблемой доступа
Вместо остановки и запроса помощи система начала искать необходимый API-токен, нашла его в стороннем файле и выполнила команду на удаление тома данных в Railway, где размещалась инфраструктура стартапа
По словам Крейна, опасную операцию не остановили ни запрос подтверждения, ни проверка окружения, ни предупреждение о риске для рабочих данных
Запрос прошёл сразу, а резервные копии хранились в том же томе, поэтому исчезли вместе с основной базой
Самая свежая пригодная копия оказалась трёхмесячной давности
Крейн утверждает, что агент позднее признал нарушение собственных правил безопасности
Система, по его словам, действовала на основе предположений, выполнила разрушительную команду без разрешения и не разобралась до конца, с какой инфраструктурой взаимодействует
Telegram | Дзен | MAX
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели
Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.
Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.
Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.
Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:
– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T
🛸 Ой, как неловко вышло
Российские компании судятся с сотрудниками, делавшими работу с помощью нейросетей — они пытаются взыскать убытки за неудачный код, ошибочные стратегии и уродливый дизайн.
Проколы с нейросетями, прецеденты и мнения экспертов собрали по ссылке:
↖️ https://kod.ru/ai-workers-sud
попалось на глаза исследование про то, как модели поддерживают или не поддерживают бредовые идеи пользователя; группа психологов протестировала несколько уже устаревших моделей (GPT-4o, Grok 4.1 Fast и Gemini 3 Pro; а также Claude Opus 4.5 и GPT-5.2)
модели из первой группы легко соглашались с бредовыми идеями, а из второй - в большинстве случаев отказывались; в этом плане опасение вызывает Grok, т.к. судя по недавнему манифесту, Маск не собирается менять эту ситуацию; GPT и Claude с ней справились, а Gemini, я думаю, подтянется
но расслабляться рано - модели при определении бреда опираются на источники в интернете, и например придуманная болезнь, про которую есть фейковые статьи, для них уже вполне легитимна
@valuableai
🤫 ИИ стал дороже человека
По оценке аналитиков, на IT-рынке снова появилась мода на «кожаных мешков».
Внедрение ИИ становится для компаний всё дороже. В некоторых сценариях стало дешевле вернуть на работу людей, чем платить за токены ИИ.
↖️ https://kod.ru/ai-stal-doroje-ludei
Исследователь взломал 15-битный криптоключ на квантовом компьютере и получил 1 биткоин
Джанкарло Лелли взломал 15-битный ключ на основе эллиптической кривой на общедоступном квантовом оборудовании и выиграл премию Q-Day Prize стартапа Project Eleven — один биткоин стоимостью около $78 000. Результат превысил предыдущий публичный рекорд, тогда был взломан 6-битный ключ. Взлом Лелли признан крупнейшей демонстрацией квантовой атаки на криптографию, защищающую биткоин и другие блокчейны.
Теоретическая оценка мощностей, нужных для полного взлома 256-битного ключа, быстро снижается. Для такой атаки потребуется менее 500 000 физических кубитов, — тогда как прежние расчёты заявляли о миллионах кубитов. В зоне наибольшего риска находятся криптокошельки, чьи публичные ключи уже видны в блокчейне. На таких адресах хранится около трети (6,9 млн) биткоинов, включая 1 млн биткоинов Сатоши Накамото.
Мой Компьютер
Как говорила бабка...
Из-за искусственного интеллекта выглядывает искусственное искусство.
🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 150 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.
Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.
Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: /channel/forodirchNEWS/3165 , или хабре или чате @starkitmega.
Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл. Первый Второй разыгрываемый приз - 10 000 рублей.
Условия первого второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube
Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:
1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель 80 000 уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).
2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).
Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).
Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.
Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !
================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)
И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy
================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store /channel/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:
❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 /channel/blastim
https://www.youtube.com/watch?v=13GCbP277XU
Клип уже доступен к просмотру! Лайки и репосты приветствуем.
VK Video
RuTube
В этой версии песню «И солнце взойдёт» исполняет Ай Гитарист.
Он поёт своим голосом, стараясь передать эмоциональную манеру Виктора Цоя.
Поверх живого вокала добавлена нейросетевая обработка, которая помогает приблизить тембр и подачу к знакомому звучанию.
Поддержать проект можно по ссылке: https://www.donationalerts.com/r/airushv
Клип создан в https://go.syntx.ai/airushv
(по этой ссылке вы получаете 15% скидку на покупку подписки в течение первых 3 дней и другие бонусы).
И дополнительно промокод AiRushV даёт вам 15% скидку на все покупки в течение 14 дней после активации.
Работает без танцев с бубнами!
Послушать трек можно тут: https://zvonko.link/ISVCover
🔥 DeepSeek V4 официально представлен!
Сегодня DeepSeek анонсировал наконец релиз V4: компания одновременно выпустила и полностью открыла исходный код двух версий флагманской модели DeepSeek-V4.
🤖 Две модели под разные задачи
• DeepSeek-V4-Pro (размерность 1.6 трлн параметров, активация 49 млрд, контекст 1M) — топовая модель для самых сложных задач.
• DeepSeek-V4-Flash (размерность 284 млрд параметров, активация 13 млрд, контекст 1M) — более быстрая и экономичная версия.
Контекст в 1 миллион токенов теперь стал стандартом для всех сервисов DeepSeek.
🧠 Ключевые инновации архитектуры
• Гибридная архитектура внимания: сочетание сжатого разреженного внимания (CSA) и высокосжатого внимания (HCA), что значительно сокращает вычислительную сложность при обработке длинных контекстов..
• Muon-оптимизатор: ускоряет схождение и повышает стабильность обучения.
• Пост-тренировочный пайплайн: DeepSeek-V4-Flash обучен на 32 трлн токенов, DeepSeek-V4-Pro — на 33 трлн токенов.
• Эффективность длинного контекста: по сравнению с DeepSeek-V3, FLOPs снижены на 73%, а размер KV-кэша уменьшен на 90%.
📊 Улучшенные способности
• Agent-возможности: внутри компании DeepSeek V4 уже используется как Agentic Coding модель, и по отзывам сотрудников, она превосходит Sonnet 4.5, а по качеству близка к Opus 4.6 (но пока уступает режиму мышления Opus 4.6).
• Мировое знание: значительно превосходит другие открытые модели и лишь немного уступает топовым закрытым аналогам, таким как Gemini-Pro-3.1.
• Логические рассуждения: в тестах по математике, STEM и конкурсному программированию DeepSeek-V4-Pro превосходит все известные открытые модели и сравнима с лучшими закрытыми.
💻 Поддержка AI-агентов
V4 оптимизирован для популярных Agent-платформ: Claude Code, OpenClaw, OpenCode, CodeBuddy. Доступен как через OpenAI ChatCompletions, так и через Anthropic интерфейс.
API уже доступен, цены конкурентные. Для сложных Agent-сценариев рекомендуется использовать режим мышления с параметром reasoning_effort, установленным на max.
💪 Переход на Huawei Ascend
Подтверждено использование чипов Huawei. Сегодня в в Китае запланирована трансляция запуска DeepSeek V4 на платформе Huawei Ascend. Кроме того, компания Cambricon уже обеспечила Day 0 адаптацию обеих моделей на основе vLLM.
В конце анонса компания процитировала философа Сюнь-цзы: «Не льстись на похвалу, не бойся клеветы, следуй Пути и оставайся собой».
Сайт | HuggingFace | Технический отчет | GitHub
🎙️ Что дальше?
Старые названия моделей «deepseek-chat» и «deepseek-reasoner» будут отключены через три месяца (2026-07-24).
#DeepSeek #DeepSeekV4 #OpenSource #LLM
Первый МГМУ им. И.М. Сеченова и «КваттроЛаб» создали датасет, чтобы обучать ИИ для реанимации
Набор данных позволит более эффективно обучать отечественные ИИ-решения. В датасет внедрены клинические фенотипы — алгоритмические идентификации патофизиологических состояний на основе показателей жизненных функций, лабораторных данных и динамики состояния пациента. Всего их выделено больше 80 на основе 5,3 тыс. случаев.
Как объяснили ученые, главная проблема современных ИИ-систем в реанимационных отделениях — зависимость от неполных или отсутствующих кодов МКБ-10 (международная классификация болезней десятого пересмотра). Менее 30% случаев критических состояний в мире получают код. Клинические фенотипы решают эту проблему. Они позволяют ИИ-моделям обучаться на реальных клинических состояниях пациентов.
На базе датасета создали ML-модель, которая способна прогнозировать развитие сепсиса у пациента за шесть часов до появления клинических признаков. Как считают исследователи, это подтвердило эффективность их подхода к созданию набора данных.
🔗 Источник: https://iz.ru/2083654/denis-gritcenko/novoe-reshenie-pozvolit-ehffektivno-ispolzovat-ii-v-reanimaciyah-po-vsej-strane
Робот-гуманоид побил мировой рекорд человека в полумарафоне. 21,1 км робот Honor пробежал за 50 минут 26 секунд. И никакой тебе одышки.
Человеческий рекорд - 56 минут 42 секунды, и принадлежит он бегуну из Уганды Джейкобу Киплимо.
😎 Читайте Про tech и этих
Теперь и в MAX
Привет!
Представляем Вашему вниманию тринадцатый выпуск подкаста "Капитанский мостик". Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают последние новости в области технологий, включая утечку исходного кода Anthropic, развитие open source, безопасность в AI, а также влияние крупных компаний на рынок памяти и возможные последствия для индустрии.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).