data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🧲 Caltech сделал рекордный квантовый компьютер — 6 100 кубитов на нейтральных атомах.

💡 В чём прорыв:

Кубиты держатся 12,6 секунд - значит, можно сделать миллионы операций, пока они не «сломаются» от шума.

Управление с точностью 99,98% - критично, потому что коррекция ошибок работает только при редких сбоях.

Лазеры-«пинцеты» разделяют один луч на 12 000 мини-ловушек, которые удерживают атомы в вакууме.

Атомы можно переставлять, не теряя квантовое состояние - это даёт гибкость системе.

🚀 Конкуренты (IBM, Quantinuum) тоже гонят: цель — 100 000 кубитов к 2033 году и полная защита от ошибок к 2029.

decrypt.co/341716/caltech-builds-worlds-largest-neutral-atom-quantum-computer

Читать полностью…

Анализ данных (Data analysis)

🚀 Datarus Jupyter Agent: Умный анализ данных

Datarus Jupyter Agent — это мощная система многоступенчатого рассуждения, позволяющая выполнять сложные аналитические задачи с автоматическим восстановлением ошибок и синтезом результатов. Интеграция с Jupyter и Docker обеспечивает надежную среду для анализа данных.

🚀 Основные моменты:
- Многоступенчатое рассуждение с использованием модели Datarus
- Интеграция с Docker для изолированного выполнения
- Поддержка TensorFlow, PyTorch и scikit-learn
- Автоматическое восстановление ошибок
- Управление Jupyter-ноутбуками и экспорт результатов

📌 GitHub: https://github.com/DatarusAI/Datarus-JupyterAgent

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💸 BigTech удваивает ставки на ИИ

- В 2025 компании потратят $345 млрд на AI-инфраструктуру - рост в 2,5 раза за два года.
- Для сравнения: мировой телеком тратит ~$1,5 трлн.
- Проект OpenAI Stargate ($500 млрд к 2029) = ~25% от прогнозируемых $2 трлн при росте в 58% год за годом.

Сэм Альтман видит экспоненту — и она уже в цифрах.

Читать полностью…

Анализ данных (Data analysis)

🚀 Вышел Postgres 18 — с поддержкой Async I/O

Раньше все операции чтения были блокирующими, теперь - нет.

Результат: огромный прирост производительности для приложений с интенсивным чтением.

⚡️ Async I/O включён по умолчанию в Postgres 18!

Что интересного:
- Новый алгоритм skip scan для многостолбцовых индексов
- Параллельное построение GIN-индексов (JSON, полнотекст)
- Виртуальные генерируемые столбцы (значения считаются на лету)
- Функция uuidv7() — UUID с временной сортировкой
- Сохранение статистики планировщика при мажорных апгрейдах
- Поддержка OAuth 2.0, улучшения TLS и безопасности
- Новый протокол взаимодействия клиентов и утилит — v3.2

🟠 Релиз: https://www.postgresql.org/about/news/postgresql-18-released-3142/

Читать полностью…

Анализ данных (Data analysis)

Alibaba Group представила Memp — новый фреймворк, который даёт LLM-агентам обучаемую и обновляемую процедурную память.

📈 Результат — более высокая успешность и эффективность при сложных задачах.
🧠 Memp превращает прошлый опыт агентов в детальные инструкции и абстрактные стратегии, постоянно совершенствуясь по мере накопления данных.
🔄 Память можно даже передавать более слабым моделям, повышая их возможности.

https://huggingface.co/papers/2508.06433

Читать полностью…

Анализ данных (Data analysis)

⚡️ Новые модели для кодинга от Kwaipilot: KAT-Dev-32B и KAT-Coder

- KAT-Dev-32B — 62.4% на SWE-Bench Verified, входит в топ-5 среди open-source моделей
- KAT-Coder — 73.4% на SWE-Bench Verified, результат на уровне лучших проприетарных решений

🔗 Попробовать: https://huggingface.co/Kwaipilot/KAT-Dev

Читать полностью…

Анализ данных (Data analysis)

IT_ONE Cup. Code & Analyst — хакатон для аналитиков и разработчиков, где ты узнаешь, как работает IT-команда, и получишь сильный кейс в портфолио. Выбери трек и реши одну из задач:
→ Проанализируй BPMN-модель кредитного процесса и подготовь ТЗ на систему мониторинга эффективности.
→ Разработай сервис, который в реальном времени следит за переводами и оповещает о подозрительных операциях.

🏆 Призовой фонд: 900 000 рублей
💻 Формат: онлайн
🗓 Регистрация до 16 октября: https://cnrlink.com/itonecupmsudataanml

Приглашаем системных аналитиков, разработчиков и менеджеров проектов. Размер команды — от 1 до 5 человек.

Что тебя ждёт:
• Применишь навыки системного анализа, построения архитектуры и работы с потоковыми данными.
• Получишь готовый проект в портфолио.
• Для участников ТОП-5 команд в каждом треке — фирменный мерч.

Задачи соревнования:
Трек 1. Навигатор оптимизации. Проанализируй кредитный процесс банка, выяви узкие места и создай ТЗ для системы мониторинга производительности. Решение поможет оптимизировать критически важные процессы.

Трек 2. Финансовый радар. Разработай сервис для анализа транзакций в реальном времени. Архитектура должна включать правила обнаружения мошенничества и поддержку различных алгоритмов обработки.

Ждём тебя на IT_ONE Cup. Code & Analyst — старт 17 октября на Codenrock: https://cnrlink.com/itonecupmsudataanml

Читать полностью…

Анализ данных (Data analysis)

🚀 Новое исследование Hunyuan: Reinforcement Learning on Pre-training Data (RLPT)

Этот метод решает главную проблему масштабирования LLM - ограниченность размеченного текста.

🌟 RLPT даёт моделям возможность учиться рассуждениям напрямую на данных предобучения, без дорогой ручной разметки.

Как это работает:
1️⃣ Модель во время обучения сама исследует данные и учится более общим стратегиям рассуждений.
2️⃣ Никакой дополнительной разметки — награды извлекаются прямо из предобучающих данных.
3️⃣ Награды за предсказание следующего сегмента позволяют масштабировать RL на этапе предобучения.

Результаты:
✅ На Qwen3-4B-Base прирост: +3.0 (MMLU), +5.1 (MMLU-Pro), +8.1 (GPQA-Diamond), +6.0 (KOR-Bench), +6.6 (AIME24), +5.3 (AIME25).
✅ Чем больше вычислений, тем сильнее рост.
✅ Технология создаёт базу для дальнейших улучшений в RLVR.

📄 Подробнее: https://arxiv.org/pdf/2509.19249

#AI #RLPT #LLM #MachineLearning #NLP

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📰 На Yandex Neuro Scale 2025 представили обновлённую AI Studio

Платформа позволяет собирать ИИ-агентов без навыков разработки: от голосовых ассистентов на базе realtime API до мультиагентных систем и инструментов вроде AI Search. При желании на платформе можно запустить и самостоятельно написанного агента.

Встроены готовые решения — Нейроюрист, SpeechSense, инструмент для протоколирования встреч. Для агентов доступны быстрые интеграции по шаблону через MCP Hub – там уже доступны Контур.Фокус и amoCRM, вскоре появятся и сервисы Яндекса.

Читать полностью…

Анализ данных (Data analysis)

⚡️ Сэм Альтман опубликовал новый блог-пост «Abundant Intelligence».

Главная мысль: при доступе к 10 гигаваттам вычислений ИИ может приблизиться к решению величайших задач, например, поиску лекарства от рака.

OpenAI видит будущее как «фабрику» ИИ-инфраструктуры, способную выпускать по 1 ГВт новых мощностей каждую неделю.

Альтман сравнивает это с космической программой Apollo, только теперь цель не космос, а создание избыточного интеллекта.

https://blog.samaltman.com/abundant-intelligence

Читать полностью…

Анализ данных (Data analysis)

🔥 Ваши данные стоят слишком дорого, чтобы ими рисковать

Positive Technologies 8 октября запустит новый продукт — PT Data Security. Он создан, чтобы вовремя выявлять угрозы и предотвращать утечки, пока они не привели к кризису.

На онлайн-трансляции вы первыми узнаете:

— Какие задачи и риски сегодня определяют настоящее и будущее рынка защиты данных.
— Какие вызовы стоят перед компаниями на рынке защиты данных.
— Почему Positive Technologies выходит на рынок защиты данных с новым подходом.

🕒 15:00 мск
📍 Онлайн
👉 Регистрация

Читать полностью…

Анализ данных (Data analysis)

🚀 Хотите ускорить обучение в PyTorch в несколько раз?
У DataLoader есть два плохих дефолта, которые тормозят процесс.
Исправив их, я получил почти 5x ускорение.

❌ Проблема
- .to(device) переносит данные на GPU.
- Пока GPU считает - CPU ничего не делает.
- Пока CPU готовит данные — GPU простаивает.

⚡ Решение
Нужно заставить CPU и GPU работать параллельно:
- В DataLoader укажи pin_memory=True
- При переносе данных используй .to(device, non_blocking=True)
- Добавь num_workers в DataLoader для фоновой загрузки.

✅ В итоге CPU готовит следующий батч, пока GPU занят текущим.
Так исчезают простои, и обучение идёт заметно быстрее.

Читать полностью…

Анализ данных (Data analysis)

🚀 LongCat-Flash-Thinking от Meituan

⚡ Главное
- Размер: 560 миллиардов параметров, но работает только часть (~27B), поэтому инференс быстрее и дешевле.
- Технология ScMoE (Shortcut-Connected MoE) позволяет совмещать вычисления и обмен данными, уменьшая задержку.
- Поддерживает контекст до 128k токенов — можно обрабатывать очень длинные документы.
- Обучалась на 20+ триллионах токенов всего за месяц.
- Скорость инференса: 100+ токенов в секунду.
- Лицензия: MIT.
- Поддерживает работу с агентами (agentic tasks).
- Модель хороша в программировании и рассуждениях.
- На бенчмарке результаты на уровне топовых моделей.

LongCat-Flash доказывает, что даже модель на сотни миллиардов параметров может быть быстрой и практичной.


🔗 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

Читать полностью…

Анализ данных (Data analysis)

📘 Introduction to Machine Learning* (Laurent Younes)

Что внутри:
- 📐 Математический фундамент: анализ, линейная алгебра, теория вероятностей
- ⚡ Оптимизация: SGD, проксимальные методы и др.
- 🤖 Алгоритмы с учителем: линейные модели, SVM, деревья, бустинг, нейросети
- 🎲 Генеративные модели: MCMC, графические модели, вариационные подходы, GAN
- 🔎 Без учителя: кластеризация, PCA, факторный анализ, обучение на многообразиях
- 📊 Теория: неравения концентрации, обобщающая способность моделей

Фундаментальный учебник, который соединяет математику и практику ML.

👉 https://arxiv.org/abs/2409.02668

#MachineLearning #DeepLearning #Mathematics #DataScience #DataScientist

Читать полностью…

Анализ данных (Data analysis)

🧬 Как AI изменит биологию к 2030 году

Учёные построили прогноз по трём ключевым задачам.

🔹 Белок + лекарство (PoseBusters-v2)
Задача: понять, как молекула лекарства «садится» на белок.
AI уже показывает высокую точность → такие задачи будут решены в ближайшие годы.

🔹 Лабораторные протоколы (ProtocolQA)
Вопросы вроде: *как правильно поставить эксперимент, что делать на следующем шаге?*
Кривая растёт быстро → к 2030 AI сможет уверенно подсказывать, как работать в лаборатории.

🔹 Белок + белок
Самый сложный вызов.
Прогнозировать взаимодействие любых двух белков пока получается с большим числом ошибок.
Даже к 2030 результат остаётся под вопросом.

⚡️ Вывод
- К 2030 AI наверняка справится с докингом молекул и помощью в лаборатории.
- Но загадка взаимодействия белков останется нерешённой.

AI станет реальным инструментом для биомедицины, но до полного понимания живых систем ещё далеко.

https://epoch.ai/blog/what-will-ai-look-like-in-2030

Читать полностью…

Анализ данных (Data analysis)

МТС приглашает на масштабный ИТ-чемпионат True Tech Champ 2025!

Соревнования пройдут в двух треках: алгоритмы и программирование роботов. Участвовать могут начинающие ИТ-специалисты и опытные разработчики.

В этом году ты сможешь:
— решать алгоритмические задачи в индивидуальном зачете;
— объединиться в команду с другими участниками и управлять роботом в лабиринте с помощью кода;
— попасть на офлайн шоу-финал в качестве участника или зрителя;
— побороться за призовой фонд 10 250 000 рублей.

Отборочные этапы состоятся онлайн, финал — 21 ноября в МТС Live Холл в Москве.

Регистрация открыта до 20 октября. Подай заявку прямо сейчас.

Читать полностью…

Анализ данных (Data analysis)

Save the date — 30 октября идем на Яндекс Analytics Talks Meetup 

Аналитики Городских сервисов Яндекса расскажут о том, как эффективно использовать данные и искать точки роста продуктов. В программе: 
Доклады о том, как создавать продукты и делать их лучше для пользователей. Поговорим про новые фичи, поделимся метриками и сложностями при запусках. Дискуссия про LLM и GenAI в контексте DWH и аналитики — обсудим, приносят ли инструменты реальную пользу или это только хайп. 
А еще афтепати с настолками и неформальное общение с экспертами Городских сервисов Яндекса.

📌 30 октября, сбор гостей с 18:00
📌 Москва, офлайн

Регистрируйтесь и зовите друзей! 

Мероприятие бесплатное. Количество мест ограничено — пожалуйста, дождитесь нашего подтверждения.

Читать полностью…

Анализ данных (Data analysis)

Бизнесу данные нужны как воздух📊

На их основе компании принимают важные стратегические решения. Поэтому спрос на аналитиков растёт в самых разных сферах: от банковской до медицинской.

На курсе «Аналитика данных с МФТИ» готовят специалистов универсальной квалификации. За 10 месяцев вы научитесь использовать Python для анализа данных, применять методы ИИ в своих задачах и работать с базами данных.

С универсальными знаниями вы сможете строить карьеру в одном из трёх направлений аналитики:

➡️Аналитика данных.
➡️Data Science.
➡️Инженерия данных.


🎓 После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио.
Записывайтесь на курс и становитесь универсальным специалистом в аналитике → https://netolo.gy/eovL

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5wPuu7P

Читать полностью…

Анализ данных (Data analysis)

🔊 OpenAI готовится выпускать свое первое «железо» к 2026–2027

Что происходит:
- В OpenAI пришло уже более 24 специалистов из Apple в этом году - в области интерфейсов, камер, аудио, носимых устройств и производства. Команду ведёт Тан Тан, 25 лет проработавший в Apple, теперь - Chief Hardware Officer OpenAI.
- Один из описанных концептов - умная колонка без экрана, плюс исследуются очки, диктофон и носимый пин - как дополнение к смартфону или ноутбуку.
- OpenAI обсуждает модули колонок с Goertek и опирается на китайскую цепочку поставок Apple, что ускорит массовый запуск, но усиливает геополитические риски.
- Фундамент — сделка на $6,5 млрд: покупка io Products у Джони Айва, чья команда теперь интегрирована в OpenAI (при этом LoveFrom продолжает независимую работу).

⚡ Реалии рынка: провал Humane Pin (HP купила и закрыла за $116M) показывает, насколько жестким является сегмент.

🎙️ Если первый продукт будет без экрана и голосоцентричным - успех зависит от:
- дальнобойных микрофонных массивов
- beamforming и низкой задержки wake word
- on-device фильтрации
- плавного облачного хэнд-оффа для быстрых ответов в реальных условиях.

Источник: https://www.theinformation.com/articles/openai-raids-apple-hardware-talent-manufacturing-partners

Читать полностью…

Анализ данных (Data analysis)

🆕 Hugging Face представили **AI Sheets** — no-code инструмент для создания и обработки таблиц с помощью ИИ.

- Выглядит как обычная таблица, но вместо формул — тысячи моделей
- Поддержка OpenAI-совместимых и локальных LLM
- Можно добавлять столбцы с промптами, редактировать данные вручную или через лайки
- Запуск онлайн или локально (Docker / pnpm)
- Полностью опенсорс (Apache-2.0), легко встроить в пайплайны
- Подходит для классификации, трансформации данных, синтетики и «vibe-тестов» моделей

⚡️ Попробовать

#AI #NoCode #datasets #HuggingFace #LLM

Читать полностью…

Анализ данных (Data analysis)

🎛️ Claude Squad

Инструмент ориентирован на управление несколькими терминальными агентами искусственного интеллекта (Claude Code, Aider, Codex, OpenCode и Amp).

Проект помогает организовывать взаимодействие разных ИИ и командных инструментов и привлёк более 3,6 тыс. звёзд.

🟠 Ссылка

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Tencent представила Hunyuan3D-Part, первую в своём роде open-source модель генерации 3D-объектов на уровне деталей, которая обгоняет все существующие открытые и закрытые решения.

Главное:
🔹 P3-SAM — первая нативная 3D-модель сегментации деталей
🔹 X-Part — генератор деталей с SOTA-результатами по управляемости и качеству

Ключевые особенности:
1️⃣ Обучение на 3.7 млн форм с чистыми аннотациями без использования 2D SAM
2️⃣ Новый автоматический пайплайн сегментации в 3D — полностью без участия пользователя
3️⃣ Диффузионный пайплайн для разбиения на части с учётом геометрии и семантики

Код доступен на GitHub, веса выложены на Hugging Face, а протестировать модель можно как в облегчённой версии на Hugging Face, так и в полном формате через Hunyuan3D Studio.

Code: https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
Веса: https://huggingface.co/tencent/Hunyuan3D-Part
Paper: https://arxiv.org/abs/2509.06784
→ Project page: https://murcherful.github.io/P3-SAM/
Попробовать:
→ (Light version) Hugging Face demo: https://huggingface.co/spaces/tencent/Hunyuan3D-Part
→ (Full version) Hunyuan3D Studio: https://3d.hunyuan.tencent.com/studio

Читать полностью…

Анализ данных (Data analysis)

🚀 GitHub запустил публичное превью GPT-5-Codex для Copilot

OpenAI представила новую модель GPT-5-Codex, оптимизированную под программирование и агентные задачи.

Она доступна пользователям GitHub Copilot в публичном превью.

Модель можно выбрать прямо в VS Code в режимах Ask, Edit и Agent, но только начиная с версии Copilot v1.104.1. Доступ распространяется на тарифы Pro, Pro+, Business и Enterprise, при этом в бизнес- и корпоративных планах администратор должен включить поддержку GPT-5-Codex в настройках.

https://github.blog/changelog/2025-09-23-openai-gpt-5-codex-is-rolling-out-in-public-preview-for-github-copilot/

Читать полностью…

Анализ данных (Data analysis)

🧠 Сэм Альтман о будущем ИИ-инфраструктуры

Глава OpenAI объяснил, почему компания делает ставку на строительство гигантских дата-центров для ИИ.

По его словам, через год-два масштабные модели могут требовать 10 ГВт вычислений. В такой ситуации придётся выбирать: использовать эти мощности для исследований по лечению рака или, например, для создания бесплатного образования для всего мира.

Чтобы не стоять перед выбором «или-или», OpenAI инвестирует в ещё большую инфраструктуру - так, чтобы человечество могло позволить себе и медицинские прорывы, и доступное обучение для всех.

Читать полностью…

Анализ данных (Data analysis)

📢 NVIDIA представила nvmath-python — библиотеку для Python, которая открывает доступ к возможностям фирменных математических библиотек (например, cuBLASLt) через удобный API.

Что умеет:
- работает с массивами из NumPy, CuPy, PyTorch и других экосистем;
- поддерживает тонкую настройку вычислений (precision, режимы умножений, epilog-операции);
- позволяет использовать расширенные оптимизации NVIDIA для ускоренной математики и ML-задач.

Проект пока в бета-версии, но уже можно попробовать:
https://github.com/NVIDIA/nvmath-python

Читать полностью…

Анализ данных (Data analysis)

🤖 Почему роботы Unitree так быстро стали одними из лучших?

На самом деле - не «вдруг». Секрет в том, что компания не закрылась в себе:
- они продают железо и открывают SDK,
- сами роботы «из коробки» почти бесполезны, но дают полный контроль разработчикам.

Благодаря этому Unitree стала популярной платформой для исследований и разработок, вокруг которой выросло активное сообщество. Результат - G1 сегодня на порядок лучше, чем мог бы быть, если бы компания развивала всё только внутри себя.

Многие хардварные компании с амбициями на «комьюнити-продукты» (роботы, AR-очки и др.) выбирают путь закрытых экосистем. Но такая жадность оборачивается тем, что их решения быстро уступают открытым платформам вроде Unitree G1.

Читать полностью…

Анализ данных (Data analysis)

🐐 В 2009 году Дженсен Хуанг объяснял, что такое CUDA, и прикидывал её рынок.
Тогда акции NVIDIA стоили всего около $0.20 за штуку (с учётом сплитов).

💰 Если бы ты вложил $10,000 тогда, сегодня это было бы около $8.8 млн.

Вот почему Дженсена называют GOAT.

Читать полностью…

Анализ данных (Data analysis)

⚡️Мы часто говорим об AGI так, будто это просто технологическая гонка. Но что произойдет, когда машины смогут делать всё, что сегодня считается работой?

Новый доклад NBER показывает: в мире с AGI человеческий труд перестаёт быть узким местом для роста — им становится лишь вычислительная мощность.

Это значит, что профессии, на которых строится наше нынешнее благосостояние, могут потерять экономический смысл. Те, кто владеет компьютерами, будут определять, кому достанется процветание.

Главный вопрос: что будет значить работа, когда её экономическая необходимость исчезнет? И речь идёт не о далёком будущем, а о сдвиге, который формируется уже сейчас.

Сильные стороны и ограничения


+ Полезная теоретическая работа, позволяющая формализовать идеи о будущем с AGI: что именно может стать автоматизированным, каковы условия, при которых автоматизация происходит, и как меняются распределение доходов и роль труда.
+ Привязка к росту compute (вычислительных ресурсов) как ключевого фактора — отражает реальные технологические тенденции.

− Очень абстрактная модель: многие параметры и допущения (темп роста compute, стоимость автоматизации, «ценность» человеческого труда, предпочтения) остаются неопределёнными.
− Не учитываются многие реальные ограничения: политические, социальные, институционные; также проблемы безопасности, этики, доступности технологий.
− Не фокусируется на трансформации распределения внутри стран, регионов, между группами — реальная динамика может быть более сложной.

🟠 Подробнее

Читать полностью…

Анализ данных (Data analysis)

🚀 Xai представили новый Grok-4 fast — дешёвый, быстрый и с контекстом в 2 млн токенов 🔥

🧠 Архитектура объединяет режимы рассуждений и обычной генерации в одной модели.

Это означает, что можно обрабатывать простые запросы, не тратя лишние вычислительные ресурсы.

💲 Цены радуют:
- Ввод: $0.20 / 1M токенов (fast) и $0.40 / 1M (full)
- Вывод: $0.50 / 1M токенов (fast) и $1.00 / 1M (full)

⚡ Дешево, быстро и с огромным контекстом.

https://x.com/xai/status/1969183326389858448

#ai #grok

Читать полностью…

Анализ данных (Data analysis)

58 минут на то, чтобы понять, что нужно удалить, 2 минуты на фикс, как настоящий разработчик.

Читать полностью…
Subscribe to a channel