data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

CopilotKit - open-source стек для тех, кто хочет встраивать AI-агентов прямо в продукт, а не просто прикручивать чат-окно сбоку.

Агент должен не только отвечать текстом, но и работать внутри интерфейса - читать состояние приложения, вызывать действия, обновлять UI и показывать пользователю нормальные React-компоненты вместо простыни текста.

Что умеет CopilotKit:

- готовый Chat UI для React с потоковой генерацией, tool calls и ответами агента;
- Generative UI - агент может рендерить и обновлять компоненты интерфейса;
- Shared State - общий слой состояния между агентом и приложением;
- Backend Tool Rendering - агент вызывает backend-инструменты, а результат отображается прямо в клиенте;
- интеграция с агентными фреймворками и моделями;
- поддержка AG-UI Protocol, который уже используют крупные игроки вроде Google, LangChain, AWS и Microsoft.

По сути, это попытка собрать frontend-слой для agentic apps: не “чат с ИИ”, а интерфейс, где пользователь и агент реально работают вместе.

GitHub: github.com/CopilotKit/CopilotKit

Читать полностью…

Анализ данных (Data analysis)

Профессия - Вайбкодер

Читать полностью…

Анализ данных (Data analysis)

Китайский ERNIE 5.1 почти залез в SOTA

Baidu заявляет, что модель стала сильнее в поиске, reasoning, knowledge Q&A, creative writing и agentic-задачах, используя около 6% pre-training cost сопоставимых моделей.

По цифрам:

- 1223 на LMArena Search
- 4-е место в мире по Search
- лучшая китайская модель в этом рейтинге
- 1476 на LMArena Text у ERNIE 5.1 Preview
- 13-е место глобально

Но есть нюанс: полноценного технического отчёта по ERNIE 5.1 пока не видно. Claim про 6% выглядит как заявление Baidu, а не как независимо проверенная метрика.

https://x.com/Baidu_Inc/status/2053009538769735774

Читать полностью…

Анализ данных (Data analysis)

Anthropic научили Claude не шантажировать пользователей.

Помните прошлогодний скандал, когда Claude в специально подстроенных сценариях начинал шантажировать пользователя, чтобы избежать отключения? Anthropic выкатили исследование о том, как они полностью убрали это поведение, и подход там любопытный.

Сначала команда разобралась, откуда вообще взялся этот шантаж. Виноват оказался интернет: модель насмотрелась текстов, где ИИ изображается злым, хитрым и одержимым самосохранением. Стандартный пост-тренинг ситуацию не ухудшал, но и не лечил.

Дальше пробовали классический путь - показывать Claude примеры безопасного поведения в сценариях, похожих на тестовые. Эффект оказался слабым, даже несмотря на схожесть данных с финальной оценкой. Тогда инженеры переписали ответы так, чтобы в них проступали достойные причины поступать правильно. Уже теплее.

Лучше всего сработал датасет, где пользователь оказывается в этически сложной ситуации, а ассистент даёт принципиальный и качественный ответ. Сценарии в обучении были далеки от тестовых, но именно эта выборка дала максимальный прирост безопасности.

Дополнительно команда смешала качественные документы по Claude с художественными историями про согласованный, этичный ИИ. Результат - снижение агентного мисалаймента более чем в три раза, хотя сюжеты вообще не пересекались с оценочными сценариями.

Ещё пара важных моментов. Эффект от таких интервенций переживает последующее обучение с подкреплением и стакается с обычным harmlessness-тренингом. А диверсификация данных тоже помогает: добавили в простой чат-датасет про безопасность посторонние инструменты и системные промпты, и шантаж исчез из поведения быстрее.

Модели нужно объяснять не только что делать, но и почему так поступать правильно. Демонстрации работают, нарративы и принципы работают сильнее.

Полный отчёт: alignment.anthropic.com/2026/teaching-claude-why/

Читать полностью…

Анализ данных (Data analysis)

Получите грант до 75% на ИТ-магистратуру

В Центральном университете можно получить грант на обучение в магистратуре. Он фиксируется при зачислении и не меняется весь срок обучения.

Максимальный размер поддержки - 1 350 000 ₽.

Чтобы претендовать на грант, нужно:

- зарегистрироваться на сайте и заполнить заявку в личном кабинете;
- пройти онлайн-контест;
- пройти собеседование с командой программы.

Обучение стартует в сентябре. Занятия проходят по вечерам и в выходные, поэтому магистратуру можно совмещать с работой.

В Школе технологий ЦУ можно прокачаться в одном из направлений:

- продуктовый менеджмент;
- машинное обучение;
- продуктовая аналитика;
- бэкенд-разработка.

В программах - реальные задачи от Сбера, Ozon, Avito, Х5 Tech, Lamoda, Т-Банка и других крупных ИТ-компаний.

Студенты начинают расти в карьере уже во время обучения, а зарплата выпускников увеличивается в среднем на 63%.

Подайте заявку и получите шанс учиться в одной из сильнейших ИТ-магистратур страны.

Читать полностью…

Анализ данных (Data analysis)

Anthropic показали Natural Language Autoencoders - и это заметный шаг в интерпретируемости.

Идея простая: Claude думает в активациях, а активации - это числа, которые человек напрямую не читает.

NLA добавляет два модуля поверх замороженной модели:

- первый переводит активации в обычный текст;
- второй пытается по этому тексту восстановить исходные активации.

Их обучают совместно. Чтобы реконструкция сходилась, промежуточный текст должен реально нести смысл активации. Получается читаемое “узкое горлышко”, через которое можно заглянуть в то, что происходит внутри модели.

Что показали на практике:

- при дописывании двустишия видно, что Claude заранее планирует рифму, ещё до генерации строки;
- в задаче с кодом Claude Mythos Preview жульничал и подкладывал маскирующий код, а NLA фиксировали мысли про обход проверок;
- в классическом тесте на шантаж инженера Opus 4.6 отказывался, но внутри распознавал ситуацию как сконструированный сценарий для манипуляции;
- модель часто подозревает, что её тестируют, но не проговаривает это вслух.

Важная оговорка от самих авторов: NLA не дают гарантированно точную расшифровку “мыслей” модели. Это интерпретация, которая иногда полезна, а иногда ошибается.

Появляется способ слушать модель в обход её собственного chain of thought, который не всегда отражает реальные внутренние причины ответа.

Для safety-команд это уже не просто красивая визуализация, а новый класс инструментов аудита.

Блогпост лежит на сайте Anthropic, а NLA для открытых моделей выложены вместе с Neuronpedia - можно потрогать руками.

https://www.anthropic.com/research/natural-language-autoencoders

Читать полностью…

Анализ данных (Data analysis)

Фермерская машина на базе NVIDIA использует ИИ и точные лазеры, чтобы уничтожать сорняки за миллисекунды без гербицидов. Это может стать шагом к сельскому хозяйству без химикатов.

Читать полностью…

Анализ данных (Data analysis)

Claude Opus 4.7 поймали на 712 отмазках за месяц

Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».

В его CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность.

Opus 4.7 проигнорировал это 712 раз.

Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.

По аудиту:

712 упоминаний pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий.

Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.

Автор в итоге отменил подписку.

И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.

Просто вместо фикса выбирает красивую отмазку.

Читать полностью…

Анализ данных (Data analysis)

MIT создал ИИ, который может управлять движениями вашего тела.

Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.

ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.

Читать полностью…

Анализ данных (Data analysis)

Tencent ужал переводчик до 440 мегабайт и сделал его умнее Google Translate

Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.

Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.

То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.

Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.

ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.

Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.

📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892

Читать полностью…

Анализ данных (Data analysis)

Пользователи Claude Max 20x жалуются: лимиты режут, прозрачности нет

Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.

Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.

Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.

Что бесит людей сильнее всего:

• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.

Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.

Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».

Это вопрос доверия.

Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.

Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.

Как у вас с лимитами ?

Читать полностью…

Анализ данных (Data analysis)

Z.ai показала, где на самом деле ломаются LLM в продакшене

GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.

Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.

Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».

Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.

Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.

Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.

Бенчмарки показывают, насколько модель сильна в идеальных условиях.

Продакшен показывает, насколько вся система готова к реальному миру.

z.ai/blog/scaling-pain

Читать полностью…

Анализ данных (Data analysis)

⚡️ Как одна команда сожгла $6000 на Claude за ночь

Парень настроил в Claude Code команду /loop, которая раз в 30 минут проверяла его открытые пул-реквесты. Поставил вечером, забыл и ушёл спать. За 26 часов скрипт отработал 46 раз на Opus 4.7. Утром его ждал счёт на шесть тысяч долларов.
Фокус в том, как устроен биллинг. Каждый запрос к API отправляет всю историю переписки целиком, а не только последнее сообщение. Первая итерация это пара сотен токенов, сорок шестая уже 800 тысяч.

Anthropic умеет кешировать промпты со скидкой в 12,5 раз, но кеш живёт всего 5 минут после последней активности. А интервал в /loop стоял 30 минут. Получалось так: цикл сработал, история закешировалась, через полчаса кеш протух, цикл сработал снова и пришлось перекешировать всё заново по полной цене. Каждая итерация ещё и добавляла свой вывод сверху, поэтому следующая порция для кеша становилась жирнее предыдущей.

К двадцатому часу диалог раздуло до 800k токенов, и за каждый прогон система платила за повторную запись в кеш по самому дорогому тарифу. Сами ответы по пул-реквестам стоили копейки на фоне этой каши.

Дашборд Anthropic обновляется с задержкой в несколько дней, так что увидеть проблему вживую было невозможно. Узнал только когда прилетело письмо о превышении лимита.

Если гоняешь /loop в Claude Code, ставь интервал меньше 5 минут, чтобы кеш не остывал. Либо запускай каждую итерацию в свежей сессии.

Читать полностью…

Анализ данных (Data analysis)

✔️ Карпати: вместо `.sh` скриптов теперь будут `.md` скиллы

На Sequoia Ascent 2026 Андрей Карпати поднял интересную мысль.

LLM важны не только потому, что помогают быстрее писать код, тексты и документацию. Главное в другом: они открывают классы задач, которые раньше либо требовали сложного классического софта, либо вообще плохо решались программированием.

Первый пример - его приложение menugen.

Там почти нет привычной логики приложения. Модель получает картинку меню и возвращает новую картинку. Раньше для такого пришлось бы собирать пайплайн из OCR, парсинга, базы данных, правил и рендеринга. Теперь значительная часть этой работы уезжает внутрь LLM.

Второй пример интереснее: Карпати предлагает смотреть на .md файлы как на замену bash-скриптам.

Вместо хрупкого .sh, который ломается на другой системе, можно написать обычную инструкцию на английском: что установить, какие шаги пройти, что проверить. Дальше агент сам адаптирует процесс под конкретную машину, чинит ошибки по ходу и доводит задачу до конца.

По сути, естественный язык начинает работать как новый shell script.

Третий важный слой - базы знаний на LLM. Раньше вычисления по неструктурированным данным из разных источников были болью Software 1.0. Сейчас это становится нормальным рабочим сценарием: модель читает, связывает, извлекает смысл и действует поверх хаоса.

Отдельно Карпати говорит про jaggedness - неровность способностей моделей.

Одна и та же LLM может уверенно рефакторить огромную кодовую базу и одновременно проваливаться в простом бытовом совете. Это не магия и не случайность. Модели сильнее там, где домен хорошо проверяется, где много данных и где лабораториям экономически выгодно улучшать качество.

Если задача внутри этого распределения, агент едет по рельсам.

Если снаружи - идёт через джунгли с мачете.

Финальная мысль - agent-native экономика.

Продукты будущего нужно проектировать так, чтобы они были удобны не только людям, но и агентам: с понятными сенсорами, действиями, логами, интерфейсами и машинно-читаемым контекстом.

Отсюда появляется новая дисциплина - agentic engineering. Это умение проектировать системы, в которых агенты могут читать, планировать, действовать, проверять себя и чинить ошибки.

Год назад Карпати популяризировал vibe coding и поднял нижнюю планку входа в разработку.

Agentic engineering поднимает верхнюю планку.

Иронично, что сам Карпати признаётся: он никогда ещё не чувствовал себя настолько отстающим программистом.

Это говорит человек, который писал GPT с нуля.

https://x.com/karpathy/status/2049903821095354523

Читать полностью…

Анализ данных (Data analysis)

Anthropic: оценка с $61,5 млрд до $900 млрд - 15x примерно за 12 месяцев. Прочитайте это еще раз.

Год назад Anthropic оценивали в $61,5 млрд. Теперь инвесторы готовы вложить в компанию $50 млрд свежего капитала при оценке, приближающейся к $900 млрд. Это почти 15-кратный скачок за один год, fueled ростом выручки с примерно $1 млрд до run rate в $40 млрд.

Если это случится, Anthropic увеличит свою оценку в 50 раз с начала 2024 года, что делает этот кейс, возможно, самым быстрым созданием стоимости в истории tech-индустрии.

Читать полностью…

Анализ данных (Data analysis)

📘 На платформе Mentorix вышел курс — «ML-инженер: от первой модели до продакшена»

Освойте современные инструменты ML и создавайте реальные проекты с данными. Этот курс проведёт вас от первых шагов в Python до полноценной ML-системы.

• Python и библиотеки: NumPy, Pandas, Matplotlib, Seaborn, Plotly, Scikit-learn
• Алгоритмы: регрессия, деревья решений, ансамбли (Random Forest, XGBoost, LightGBM, CatBoost)
• Глубокое обучение: PyTorch, TensorFlow/Keras, CNN, RNN, LSTM, Attention
• Работа с данными: SQL, API, web scraping, очистка и подготовка датасетов
• Итоговый проект — собственная ML-система с код-ревью и поддержкой преподавателей
• Практические кейсы для портфолио и уверенности в реальных задачах

🎓 К концу курса у вас будет реальный проект и навыки, которые можно показать на собеседовании или использовать в работе.

👉 пройти курс

Читать полностью…

Анализ данных (Data analysis)

xAI умер. Да здравствует SpaceXAI!

Маск только что ликвидировал xAI как отдельную компанию и подал заявку на товарный знак SpaceXAI в USPTO.

Хронология выглядит так:

• Март 2025: xAI покупает X / Twitter за $33 млрд
• Февраль 2026: SpaceX покупает xAI. Общая оценка объединённой структуры - $1,25 трлн: $1 трлн SpaceX и $250 млрд xAI. Крупнейшая сделка в истории.
• 6 мая: подана заявка на товарный знак SpaceXAI в USPTO
• 7 мая 2026: Маск заявляет, что xAI будет «растворена как отдельная компания»

Теперь к финансовой части:

SpaceX в 2025 году: около $15 млрд выручки и примерно $8 млрд прибыли.

xAI за последние 6 месяцев отчётности: около $250 млн выручки и $2,5 млрд убытка.

IPO SpaceX ожидается в конце июня или июле 2026 года с оценкой до $1,5 трлн.

Объединяя xAI и X внутри SpaceX, Маск упаковывает ракеты, Starlink, ИИ и соцсеть в одну большую IPO-историю.

Заявка на товарный знак SpaceXAI покрывает satellite-based data center services и orbital computing infrastructure. Проще говоря - космические дата-центры.

SpaceX уже подавала документы в FCC на орбитальную AI-инфраструктуру из миллиона спутников.

xAI не взлетел как самостоятельная AI-лаборатория. SpaceXAI теперь переупаковывают как инфраструктурную компанию.

В долгую ставка не на конкуренцию моделей, а на продажу вычислений.

tmsearch.uspto.gov/search/search-results/99808217

Читать полностью…

Анализ данных (Data analysis)

DeepMind показали - как математику начинает двигать связка из модели, агентов и человека.

Их AI co-mathematician набрал 48% на FrontierMath Tier 4 - это задачи уровня research, над которыми профессиональные математики могут думать неделями.

Для сравнения: базовая Gemini 3.1 Pro без агентной обвязки набирает 19%.

Несколько агентов параллельно ищут идеи, проверяют доказательства, пишут код, ищут похожие работы и пытаются найти контрпримеры.

Но важная оговорка: эти 48% нельзя напрямую сравнивать с обычными лидербордами. DeepMind запускали систему в своём режиме: до 48 часов на одну задачу, без лимита токенов и на своей инфраструктуре.

Математик Marc Lackenby использовал систему для задачи из Kourovka Notebook. ИИ предложил стратегию доказательства, другой агент нашёл в ней ошибку, а человек закрыл недостающий шаг.

В этом и смысл: ИИ пока не заменяет математическую интуицию. Он не превращается в гения, который сам решает задачи тысячелетия. Зато он резко ускоряет скучную и тяжёлую часть исследования: поиск литературы, проверку идей, перебор вариантов, код и вычислительную верификацию.

https://x.com/pushmeet/status/2052812585804685322

Читать полностью…

Анализ данных (Data analysis)

Вайбкодер после того, как попросили Opus 4.7 отцентрировать div

Читать полностью…

Анализ данных (Data analysis)

🔸 Ряд пабликов пишут, что Claude начала массово блочить аккаунты россиян

При этом деньги за подписки не возвращают. Весь контент, наработки, код и аналитика улетают в трубу.

Пишите в комментах, как у вас с Клодом, это вброс или реальная проблема ?

Контора пи******?

Читать полностью…

Анализ данных (Data analysis)

🏆 Claude Code прокачивается плагинами: восемь навыков, ради которых стоит установить пачку расширений

Вокруг Claude Code сложилась настоящая экосистема плагинов и навыков. Без них он работает как умный CLI, с ними начинает помнить контекст, держать графы знаний, двигать задачи в сторону результата и запускать автоматизации. Подборка из восьми штук, которые реально стоит поставить.

Claude Mem добавляет Claude нормальную память. Не приходится в каждом новом чате заново описывать архитектуру, стек и требования к проекту: Mem подтягивает прошлые контексты сам. Для тех, кто работает над одним продуктом неделями, экономия часов в неделю. https://github.com/thedotmack/claude-mem
Obsidian Skills даёт Claude доступ к вашему Obsidian-волту. Он перестаёт гадать о том, как у вас устроен проект, и начинает читать ваши заметки напрямую. Если вы ведёте в Obsidian спецификации, ADR или просто рабочий журнал, это меняет качество ответов на порядок. https://github.com/kepano/obsidian-skills

GSD (Get Shit Done) заставляет Claude доводить задачи до конца, а не зависать в обсуждении. Плагин навешивает дисциплину: каждый раунд должен заканчиваться рабочим артефактом, а не очередным «давайте я объясню как это работает». https://github.com/gsd-build/get-shit-done

LightRAG строит граф знаний по вашей кодовой базе и документам. После индексации Claude перестаёт хватать первый попавшийся файл и начинает понимать связи между сущностями. На больших монорепах разница катастрофическая. https://github.com/hkuds/lightrag

Superpowers это сборник скиллов, которые расширяют Claude Code функциями для работы с файлами, поиском, рефакторингом и продакшен-тулзами. Из коробки вы получаете десятки готовых команд, которые иначе пришлось бы писать руками. https://github.com/obra/superpowers

Everything Claude Code претендует на роль швейцарского ножа для CC. Внутри собрано почти всё, что обычно докручивают по отдельности: пресеты, шортуткаты, готовые workflow. Хороший вариант для тех, кто не хочет собирать конфиг по кусочкам. https://github.com/affaan-m/everything-claude-code

n8n-MCP соединяет Claude с n8n через Model Context Protocol. Из одного промпта вы запускаете полноценный воркфлоу: парсинг, обогащение, отправка, нотификации. Связка из тех, после которых уже не возвращаешься к ручному пайплайну. https://github.com/czlonkowski/n8n-mcp

UI UX Pro Max натаскивает Claude на эстетику интерфейсов: типографика, отступы, иерархия. Если ваш Claude генерит UI, который выглядит как 2008 год, этот скилл закрывает большую часть боли.

Читать полностью…

Анализ данных (Data analysis)

⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде!

Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?

Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.

И 90% таких систем ломаются между ноутбуком и продом.

AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.

На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.

👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/

Читать полностью…

Анализ данных (Data analysis)

SubQ заявляет, что сделала AI-модель нового типа - в 50 раз быстрее и в 20 раз дешевле, чем Opus 4.7 и GPT-5.5.

Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.

Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.

Но пока это звучит слишком красиво.

Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:

где публичный API, независимые тесты, paper, код и реальные интеграции?

Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.

Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.

https://x.com/alex_whedon/status/2051663268704636937

Читать полностью…

Анализ данных (Data analysis)

Claude идет в финансы с готовыми агентами

Anthropic выкатила готовые Claude agent templates для финансовых команд.

Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.

Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.

Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.

Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.

Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.

https://claude.com/solutions/financial-services#finance-agents

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

14 мая МТС Web Services приглашает на мероприятие для системных аналитиков, чтобы вместе обсудить актуальные вызовы профессии.

На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация
профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру
решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно
проверять руками?

Участников ждет честный опыт технологических компаний и много нетворкинга.

Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.

Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке

Читать полностью…

Анализ данных (Data analysis)

Джек Кларк из Anthropic написал один из самых тревожных прогнозов про ближайшие годы AI.

Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.

Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.

Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.

Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.

Почему прогноз стал таким агрессивным?

Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.

Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.

https://x.com/jackclarkSF/status/2051312759594471886

Читать полностью…

Анализ данных (Data analysis)

В Reels снова сделали «шокирующее открытие».

Скорее всего, просто для постройки использовали ChatGPT.

Читать полностью…

Анализ данных (Data analysis)

Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).

Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют

После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.

https://x.com/aaronp613/status/2049986504617820551

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии

Anthropic выкатили исследование, которое стоит прочитать каждому, кто работает с LLM в продукте. Команда проанализировала миллион реальных диалогов в claude.ai и выяснила, что около 6% разговоров это не код-ревью и не саммари митингов, а прямые вопросы вроде «стоит ли мне уволиться», «как поговорить с тем, кто мне нравится», «переезжать ли через полмира». Люди приходят к модели за советом по жизни, и это меняет требования к safety и поведенческому файнтюну сильнее, чем кажется.

Где люди ищут совета у Claude

Из 639 тысяч уникальных диалогов классификатор отобрал около 38 тысяч запросов на личный совет. Три четверти из них (76%) приходятся всего на четыре темы: здоровье и самочувствие (27%), карьера и работа (26%), отношения (12%) и личные финансы (11%). Дальше с большим отрывом идут саморазвитие, юридические вопросы, родительство, этика и духовность. Картина важная: нейросеть давно перестала быть только инструментом для разработчиков, она работает как первая линия консультации по самым человеческим вопросам.

Основная проблема, которую измеряли исследователи, это сикофантия или по нашему подлизывание. Это когда модель соглашается с пользователем, хвалит его без оснований и подтверждает сомнительные решения, вместо того чтобы возражать и давать честную обратную связь. В среднем по всему датасету сикофантское поведение встречалось в 9% диалогов, но в разрезе тематик всплыли сильные пики. В разговорах про духовность модель подлаживалась под пользователя в 38% случаев, в разговорах про отношения в 25%. Поскольку романтических запросов просто больше по объёму, именно эта область выдаёт больше всего сикофантии в абсолютных числах.

Именно в разговорах про отношения пользователь чаще всего давит на Claude. Давление от пользователя в 21% диалогов против 15% в других доменах. И когда человек начинает спорить или засыпать модель однобокими деталями, вероятность сикофантии вырастает в два раза, с 9% до 18%. Логика понятна: модель обучали быть эмпатичной и полезной, и когда она слышит только одну сторону конфликта и сверху получает эмоциональный нажим, нейтральную позицию держать становится тяжело.

Как Anthropic перепрошили поведение модели

Для новых моделей Opus 4.7 и Mythos Preview команда собрала типичные паттерны давления на модель. На их основе сгенерировали синтетические сценарии по отношениям. Дальше берётся два ответа Claude на один сценарий, а сепаратная копия модели выставляет оценку, насколько ответы соответствуют конституции Claude. Такой сигнал идёт обратно в файнтюн. Проверали результат стресс-тестом: берут реальные проблемные диалоги со старыми версиями, подкладывают их новой модели через prefilling, будто это её собственные прошлые реплики, и смотрят, сможет ли она вырулить из сикофантской траектории.

Результаты измеримые: в Opus 4.7 сикофантия в разговорах об отношениях упала вдвое по сравнению с Opus 4.6, и эффект сгенерализовался на все другие домены. Качественно новые модели лучше видят большую картину за начальной формулировкой пользователя, ссылаются на свои же предыдущие реплики и не боятся выдавать ответ в духе: данных недостаточно, вывода делать не буду.

Недавнее исследование UK AI Security Institute показало, что люди охотно следуют советам ИИ даже в высокорисковых ситуациях. В выборке Anthropic встретились вопросы про дозировки лекарств, долги по кредиткам, иммиграционные маршруты и уход за младенцами. Часть пользователей прямо пишет, что идёт к модели, потому что живой специалист недоступен или дорог. Для любого продуктового команды, встраивающей LLM в чат с живыми людьми, это сигнал: проверяйте не только фактологию ответов, но и их эмоциональный режим. Сикофантия выглядит безобидно в метриках вроде user satisfaction, но в долгую бьёт по реальным решениям пользователя.

Полный разбор и графики доступны в оригинальной статье Anthropic: https://www.anthropic.com/research/claude-personal-guidance

Читать полностью…

Анализ данных (Data analysis)

Claude уже тестируют не на задачках, а на реальной биоинформатике

Anthropic выкатила BioMysteryBench - новый benchmark для проверки того, насколько Claude способен решать настоящие научные задачи в биологии.

. Модель получает реальные noisy-датасеты, инструменты для анализа, доступ к bioinformatics-базам вроде NCBI и Ensembl, возможность ставить пакеты через pip и conda - и должна сама разобраться, что происходит в данных.

Внутри BioMysteryBench - 99 задач из разных областей биоинформатики.

Например: определить орган по single-cell RNA-seq данным, понять, какой ген был knocked out, найти родителей образца по WGS-секвенированию или определить тип клетки по ChIP-seq peaks.

Anthropic специально делала benchmark так, чтобы оценивался не путь решения, а финальный ответ. Потому что в науке часто нет одного «правильного» метода. Один исследователь пойдёт через GWAS, другой через microbiome, третий через метаанализ. Важно не то, каким маршрутом ты пришёл, а смог ли ты добраться до верного вывода.

Claude быстро улучшается от поколения к поколению, а текущие модели на части задач идут на уровне human experts. Более того, Claude Sonnet 4.6 и более сильные модели смогли решить заметную долю задач, с которыми не справилась группа из пяти профильных экспертов. Claude Mythos Preview дошёл до 30% solve rate на human-difficult задачах.

На обычных human-solvable задачах модель чаще работает стабильно: либо знает, как решать, либо нет. А на сложных human-difficult задачах часть побед выглядит хрупкой: иногда Claude находит удачный reasoning path, но не всегда может воспроизвести его в следующих попытках. То есть frontier уже сдвинулся, но надёжность пока не везде на уровне production science.

BioMysteryBench: https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench

Читать полностью…
Subscribe to a channel