data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🧠 Depth Anything 3: Восстановление визуального пространства из любых видов

Depth Anything 3 (DA3) — это модель, предсказывающая пространственно согласованную геометрию из произвольных визуальных входов. Она использует простой трансформер и уникальное представление глубины, что позволяет достигать высоких результатов в оценке глубины и позы.

🚀Основные моменты:
- 💎 Модель DA3 превосходит предыдущие версии в оценке глубины.
- 🌊 Поддержка монокулярной и многовидовой оценки глубины.
- 🎯 Оценка позы с высокой точностью.
- 🔧 Удобный интерфейс и возможность экспорта в разные форматы.
- 📐 Специальные модели для метрической оценки глубины.

📌 GitHub: https://github.com/ByteDance-Seed/Depth-Anything-3

#python

Читать полностью…

Анализ данных (Data analysis)

⚡️ OpenAI, Anthropic и Google только что получили доступ к петабайтам закрытых экспериментальных данных. Эти данные десятилетиями копили 17 Национальных лабораторий США.

И речь уже не про «улучшение чатботов». Новая государственная программа США — Genesis Mission - официально строит автономных научных агентов.

Они называют это «закрытым научным контуром» (Closed-Loop discovery), и это меняет саму физику изобретений. Не человек использует инструменты — система работает полностью автономно.

Схема, описанная в дорожной карте DOE, выглядит как научная фантастика:

• AI проектирует: смотрит на массивы данных и формирует гипотезу вроде «если смешать эти сплавы при 4000°C - получится сверхпроводник».

• Он отправляет инструкции в роботизированную лабораторию (которую строит DOE), чтобы физически смешать материалы.

• Робот мгновенно возвращает результаты. Если эксперимент провален - AI корректирует формулу.

• Такой цикл прогоняется тысячами итераций, без пауз, 24/7.

Genesis Mission - это попытка впервые в истории построить систему, где наука создаёт саму себя. Без человека в центре.

Читать полностью…

Анализ данных (Data analysis)

💡 Синтетические картинки, которые обучают лучше реальных

Исследователи из MIT показали неожиданную вещь:
крошечный синтетический датасет может обучать linear probes на огромных vision-моделях лучше, чем настоящие изображения.

Они создали метод Linear Gradient Matching (LGM), который делает следующее:

1) Берут замороженную модель-основу (DINO, CLIP и т.д.)
2) Смотрят, какие градиенты она выдаёт на реальных изображениях
3) Генерируют синтетические картинки так, чтобы градиенты совпадали
4) Обучают линейный классификатор - и он работает лучше, чем при обучении на исходных данных

Почему это полезно:
— работает между моделями (генерировано под DINO → отлично работает в CLIP)
— особенно сильна на тонких классификациях, где важны микродетали
— помогает увидеть, на что реально смотрит модель: спурьёзные корреляции, похожие кластеры, структуру embedding-пространства

Это меняет представление о данных.

Раньше: «Нужно собрать миллионы картинок».
Теперь: «Нужно правильно сгенерировать десятки».

arxiv.org/abs/2511.16674

Читать полностью…

Анализ данных (Data analysis)

⚡️ Сэм Альтман: ИИ меняет ценность профессий

По словам Сэма Альтмана, ИИ резко меняет то, сколько стоят разные профессии.

Если твоя работа - за компьютером (кодинг, дизайн, написание текстов), ИИ уже умеет делать большую часть таких задач быстро и дёшево. Это снижает ценность цифровых профессий.

Почему так?
Потому что проще всего автоматизировать работу, основанную на знаниях и мышлении. А вот профессии, где нужно быть физически на месте и работать руками сантехники, электрики, хирурги, логистика, доставка- защищены намного лучше. ИИ пока слаб в физическом мире.

Получается интересный переворот:
Работы, считавшиеся «престижными» из-за высокого интеллектуального порога, становятся менее особенными - ИИ делает их слишком быстро.
А профессии, связанные с реальным миром и ручными навыками, наоборот, растут в ценности.

ИИ меняет отношение к цифровому труду:
Не так важно, насколько ты хорош в компьютерных задачах - ИИ легко копирует такую работу. Важнее то, что ты можешь *создать*, *починить*, *построить* или *сделать* своими руками.

И это затрагивает не только рынок труда.
Когда ИИ берёт на себя интеллектуальные задачи, которые раньше давали людям чувство вызова и значимости, многие начинают искать удовлетворение в реальной, физической работе.
В том, где результат - не в файле, а в реальном мире.

Читать полностью…

Анализ данных (Data analysis)

🌟 RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.

Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.

Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.

Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.

🟡Технические детали.

Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.

Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.

Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.

🟡Стабильность.

Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.

В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.


🟡Статья
🖥Github


@ai_machinelearning_big_data

#AI #ML #RL #Miles #LMSYS

Читать полностью…

Анализ данных (Data analysis)

✔️ HunyuanVideo 1.5 - новая открытая модель для генерации видео, которая сейчас считается самым сильным open-source решением в этой области.

Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.

Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией

SOTA-качество с очень низкими требованиями к железу.

🟠Проект: hunyuan.tencent.com/video/zh
🟠GitHub: github.com/Tencent-Hunyuan/HunyuanVideo-1.5
🟠Hugging Face: huggingface.co/tencent/HunyuanVideo-1.5

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

PINA теперь официально входит в PyTorch Ecosystem — и приносит в него единый фреймворк для Scientific Machine Learning.

PINA — это открытая Python-библиотека, построенная на PyTorch и PyTorch Lightning, с совместимостью с PyTorch Geometric. Она упрощает весь SciML-пайплайн: от моделирования физических систем и решения PDE до построения ML-силовых полей и симуляции динамики.

Фреймворк модульный: чёткая структура для постановки задачи, дизайна модели, выбора солвера и обучения. Это даёт гибкость для исследования и воспроизводимость для инженерии.

🔗 Подробнее о проекте и способах участия:
https://pytorch.org/blog/pina-joins-the-pytorch-ecosystem-a-unified-framework-for-scientific-machine-learning/

#PyTorch #OpenSourceAI #SciML #MachineLearning

Читать полностью…

Анализ данных (Data analysis)

Нновое поколение моделей Segment Anything:

1️⃣ SAM 3 - теперь умеет находить, сегментировать и отслеживать объекты на изображениях и видео.
Модель поддерживает короткие текстовые подсказки и пример-подсказки, что делает взаимодействие более гибким и точным.

📌 Подробнее

2️⃣ SAM 3D - выводит всю линейку в трёхмерность.
Модель способна восстанавливать точные 3D-объекты и даже людей по одной 2D-картинке, что открывает новые возможности для графики, VR/AR и визуальных инструментов.

📌Подробнее

Обе модели дают разработчикам и исследователям новые возможности для создания медиа-инструментов, экспериментов и автоматизации рабочих процессов.

Читать полностью…

Анализ данных (Data analysis)

🚀 ASystem открыл исходники Awex - самого быстрого фреймворка для синхронизации весов в RL.

Awex решает ключевую проблему современной RL-инфраструктуры — синхронизацию параметров моделей с объёмом до 1 трлн весов на тысячах GPU меньше чем за 6 секунд.

Это снимает одно из главных узких мест при масштабировании обучения и ускоряет циклы RL на порядки.

ASystem готовит серию материалов о лучших практиках построения RL-систем в ближайшие 5-6 недель. Будет разбор архитектуры, оптимизаций и инженерных решений.

Добро пожаловать в комьюнити ASystem.

📦 GitHub: https://github.com/inclusionAI/asystem-awex
🤗 Hugging Face: https://huggingface.co/inclusionAI
🤖 ModelScope: https://modelscope.cn/models/inclusionAI

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 DR Tulu‑8B - открытая модель глубокого научного анализа, способная конкурировать с OpenAI DR, и всё это при размере всего 8B параметров!

В чём секрет? Новый подход - Reinforcement Learning with Evolving Rubrics (RLER) для длинных, непроверяемых задач.

💡 Вместо статичных оценок:
• Рубрики эволюционируют вместе с моделью
• Используют знания из поиска
• Извлекают новую информацию прямо в процессе обучения

📊 Результаты:
• DR Tulu‑8B сопоставим с OpenAI DR
• Превзошёл все open-source DR-модели
• Стоимость — ~$0.00008 за запрос (против >$1 у OpenAI)

💥 Обучение в два этапа: SFT → RL
Тест на 4 сложных бенчмарках и новый медицинский GeneticDiseasesQA (в сотрудничестве с клиницистами) — результат лучше, чем у OpenAI DR и AI2 ScholarQA (Claude).

Открытая методика, реальный импакт.
ИИ, который *сам учится исследовать*.

- Paper: http://allenai-web/papers/drtulu
- Data & Model: https://huggingface.co/collections/rl-research/dr-tulu
- Code: https://github.com/rlresearch/dr-tulu

Читать полностью…

Анализ данных (Data analysis)

5 ФАТАЛЬНЫХ ОШИБОК В ГРАФИКАХ, КОТОРЫЕ ПОДРЫВАЮТ ДОВЕРИЕ К ВАШЕМУ АНАЛИЗУ

Забирайте гайд с разбором основных ошибок в канале Сделай это красиво. Автор — Алексей Смагин, дата-журналист и аналитик Яндекса.

ГАЙД ПОДОЙДЁТ:

— аналитикам данных и продуктовым аналитикам
— научным сотрудникам и исследователям
— руководителям, которые работают с отчётностью
— всем, кто делает презентации с графиками

Умение анализировать — это круто. Но заказчики не видят вашу работу, они видят итоговые выводы. А от их оформления зависит, оценят ли результат.

Научиться делать графики — это быстро и легко. Достаточно исключить базовые ошибки — и ваша инфографика сразу будет выглядеть профессиональнее.

Подписывайтесь и забирайте гайд в закрепе:
/channel/+MrupeY943_QwNzZi

Читать полностью…

Анализ данных (Data analysis)

Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️

28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.

На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.

Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.

Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!

Читать полностью…

Анализ данных (Data analysis)

🚀 Построение многоагентных систем с Laddr

Laddr — это фреймворк на Python для создания масштабируемых многоагентных систем, где агенты могут общаться, делегировать задачи и выполнять работу параллельно. Он предлагает гибкие архитектурные решения с поддержкой наблюдаемости и горизонтального масштабирования.

🚀Основные моменты:
- Модели работы: координация и последовательные потоки.
- Высокая производительность с автоматическим балансировкой нагрузки.
- Полная трассировка действий агентов и интерактивная панель мониторинга.
- Легкость в разработке с чистым CLI и поддержкой горячей перезагрузки.
- Совместимость с различными хранилищами и моделями AI.

📌 GitHub: https://github.com/AgnetLabs/Laddr

#python

Читать полностью…

Анализ данных (Data analysis)

🚀 Grok 4.1 - новая фронтир-модель, которая поднимает планку разговорного интеллекта, эмоционального понимания и практической полезности в реальных сценариях.

Grok 4.1 доступен бесплатно на:
• grok.com
• grok.x.com
• мобильных приложениях.

Первое место в LMArena Text Leaderboard (привет старому другу “quasar”) и в EQ-Bench (и даже превосходит Kimi k2).

Модель стала лучше понимать контекст, тон, эмоции и намерения собеседника, а также выдавать более точные и прикладные ответы. Это делает Grok 4.1 одним из наиболее продвинутых решений в своей категории.

https://x.ai/news/grok-4-1

Читать полностью…

Анализ данных (Data analysis)

Пройдите собеседования за выходные и получите офер в Яндекс.

Приглашаем Data Scientists, а также data- и продуктовых аналитиков с опытом на Python от 3 лет. Присоединяйтесь, чтобы строить полезные сервисы вокруг ИИ-технологий, находить новые решения и делать то, что другим не по силам.

Как получить офер за выходные:
• До 3 декабря оставить заявку на участие
• 6 декабря решить задачи на двух технических секциях
• 7 декабря прийти на финальную встречу и познакомиться с командами

Подробности — на сайте: https://yandex.ru/project/events/wo-analytics-1225

Читать полностью…

Анализ данных (Data analysis)

Запустите интеллектуальную базу знаний в облаке с AI

Корпоративная база знаний с AI — это централизованная система в облаке для хранения, управления и поиска информации, дополненная искусственным интеллектом. Встроенные в базу AI-ассистенты автоматически упорядочивают документы, отвечают на вопросы сотрудников и помогают быстро работать с большими объемами данных 😎

Сценарии использования:
❇️Создание и ведение продуктовой базы знаний

❇️Управление проектной документацией

❇️Хранение и быстрый поиск кадровых документов

❇️Ведение личных заметок сотрудниками


Начните работу в корпоративной базе знаний с AI: разверните готовое open source решение в облаке Cloud.ru, чтобы получить полный контроль над данными с резервным копированием и встроенной защитой.

Оставить заявку

Читать полностью…

Анализ данных (Data analysis)

Обычно модель хорошо работает только на том датасете, на котором её обучили. Стоит поменять источник данных, качество падает.

В этой статье показывают простой приём: можно заставить нейросеть учиться так, чтобы она не могла определить, с какого датасета пришёл пример. В итоге она начинает выделять более общие, универсальные признаки, которые работают в любых условиях.

Метод очень лёгкий - добавляется к любой нейросети за несколько строк кода. Но результат стабильный: модель лучше справляется с новыми данными, которых раньше не видела.

Работа приятно выделяется: понятная идея, чёткое объяснение, реальные результаты, а не очередные «+2% на случайной метрике».

Почитать: chapterpal.com/s/386d57f4/domain-adversarial-training-of-neural-networks
PDF: arxiv.org/pdf/1505.07818

Читать полностью…

Анализ данных (Data analysis)

Хочешь перейти из BA в продакты?

Многие BA хотят стать продактами, но сталкиваются с проблемой: продуктовый контекст слишком широкий, и нет ощущения цельной картины.
Интенсив «Product Manager 2.0: менеджер продукта в эпоху ИИ» поможет закрыть разрыв между ролями быстрее и качественнее, чем год самостоятельных попыток.

Что ты получишь:
— понимание роли и компетенций Product Manager в эпоху ИИ, а не по курсам пятилетней давности
— чёткое разграничение: что делает AI, а что остаётся на плечах продакта
— работу с AI Operating Model: как меняются продукт и процессы, когда AI действительно встроен в операционку
— full-stack видение product development: Discovery, Delivery, стратегия, экономика
— практику гипотез, исследований, экспериментов и AI-прототипирования
— метрики, юнит-экономику, P&L, roadmap 

Это — короткий мост между BA и PM, который помогает перестать быть “почти продактом” и стать им по факту.

3 дня, два опытных продакта в качестве преподавателей и международный сертификат ICP-PDM.

👉 Ссылка на программу

Реклама. ООО "СКРАМТРЕК". ИНН 9709056610. erid: 2W5zFHZ91pU

Читать полностью…

Анализ данных (Data analysis)

Gemini 3.0 Pro устанавливает рекорд в новом физическом бенчмарке - 9.1%

CritPt - новый исследовательский физический бенчмарк уровня аспирантуры, созданный более чем 60 учёными. Он проверяет ИИ на действительно новые, сложные задачи сразу в 11 разделах физики - и ни одна модель пока не преодолела порог в 9%.

Даже топовые системы вроде Gemini 3.0 Pro Preview набирают лишь 9.1%, подчёркивая, насколько далеко современные модели остаются от настоящих пост-град рассуждений в передовой физике.

https://x.com/ArtificialAnlys/status/1991913465968222555

Читать полностью…

Анализ данных (Data analysis)

🤟 Google усиливает свои позиции и сокращает отрыв OpenAI

Сам Альтман признал: прогресс Google - особенно впечатляющие результаты Gemini 3 - создают краткосрочное давление на OpenAI.

Когда-то уверенное лидерство OpenAI заметно ослабло. Google и Anthropic активно усиливаются, в то время как OpenAI сталкивается с огромными затратами на вычислительные мощности, что вызывает беспокойство у инвесторов.

Альтман при этом уверен, что в долгосрочной перспективе OpenAI снова выйдет вперёд. Он ставит на новые модели вроде Shallotpeat, улучшения в этапах предобучения и масштабную автоматизацию, которая должна привести к следующему ряду прорывов.

Из внутреннего письма:

“Не хочу, чтобы это звучало негативно — мы по-прежнему показываем выдающиеся результаты как компания… и я ожидаю, что это продолжится.”


И финальная мысль Альтмана:

“Да, тяжело одновременно быть лучшей исследовательской лабораторией, лучшей AI-инфраструктурной компанией и лучшей продуктовой AI-платформой, но такова наша реальность. И я бы не променял наши позиции ни на чьи :)”

https://www.theinformation.com/articles/openai-ceo-braces-possible-economic-headwinds-catching-resurgent-google

Читать полностью…

Анализ данных (Data analysis)

Пока одни строят сложные data-инфраструктуры, другие до сих пор сталкиваются с «вечными» задержками отчётов и расхождениями в цифрах.

Специально для таких ситуаций создали бота, который с иронией помогает подобрать креативные объяснения, когда данные из разных систем отказываются складываться в единую картину, а отчётность снова задерживается.

Такой бот — отличный способ снять напряжение в команде, когда нужно срочно объяснить расхождения в данных. Возможно, именно его ответы станут самым честным комментарием к вашей следующей отчётности. Зайдите и сгенерируйте оправдание — самое меткое сразу отправляйте коллегам в рабочий чат. Пусть оценят, как можно с юмором выходить из сложных ситуаций с отчётностью.

Читать полностью…

Анализ данных (Data analysis)

Представьте себе коммуналку, в которой живут только аналитики. Как вы думаете, о чём там будут говорить?

Если подумали исключительно про цифры, то зря 🙂

Потому что мы в Авито собрали в Телеграме комьюнити «Коммуналка аналитиков», чтобы посмотреть, что будет.
Получилось очень даже интересно. Оказалось, аналитики с удовольствием пишут обо всём вокруг профессии:

✍️ Рассказывают о рабочих буднях

✍️ Хвастаются успехами и вспоминают фейлы

✍️ Постят мемы

✍️ Запускают опросы и собирают бинго

✍️ Шутят

✍️ Делятся лайфхаками

✍️ Создают серьёзные посты про аналитику

✍️ И-и-и обсуждают другие штуки, которые сложно классифицировать

Подписывайтесь на канал и читайте недушную аналитику 😉

Читать полностью…

Анализ данных (Data analysis)

🎯 Как взять качество данных под контроль? 

Неточные отчёты, дубликаты в базах, несоответствия данных - всё это тормозит бизнес и подрывает доверие к аналитике. Если вы хотите стать экспертом в управлении качеством данных и повысить свою ценность на рынке, новый курс «Data Quality» от OTUS - то, что нужно!

📚 Что вас ждёт на курсе:
✔️ Автоматизация контроля качества с помощью Soda, OpenMetadata, Airflow, NiFi
✔️ Построение системы Data Governance - от метаданных до Data Contracts
✔️ Метрики и профилирование данных - научитесь измерять и улучшать качество
✔️ Управление инцидентами и соответствие регуляторным требованиям 
✔️ Практические проекты, которые можно добавить в портфолио

🎓 Формат обучения:
📅 Старт: 26 ноября
💻 Онлайн с практическими заданиями и обратной связью от экспертов

👉 Узнать подробности и записаться: https://tglink.io/93cc483c4086?erid=2W5zFJBnBnY

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

Gemini 3.0 Pro - мощь)

Читать полностью…

Анализ данных (Data analysis)

Gelato - библиотека для управления вычислительными графами в ML

Проект Gelato от mlfoundations - это минималистичная библиотека, которая помогает собирать, анализировать и оптимизировать вычислительные графы в машинном обучении. Она упрощает разбор сложных пайплайнов, позволяет визуализировать зависимости и управлять вычислениями на уровне узлов.

Особенности:
- понятное представление графа любой ML-модели
- удобные инструменты для модификации, оптимизации и анализа
- подходит для экспериментов с новым дизайном моделей и кастомными связями
- лёгкая интеграция в существующие проекты

Полезна, если вы работаете с нетривиальными архитектурами, хотите экспериментировать с изменением структуры модели или анализировать узкие места в вычислениях.

💥 Blog: https://github.com/mlfoundations/Gelato
🍨Gelato-30B-A3B (Model): https://huggingface.co/mlfoundations/Gelato-30B-A3B
🖱️Click-100k (Data): https://huggingface.co/datasets/mlfoundations/Click-100k

Читать полностью…

Анализ данных (Data analysis)

⚡️ Helion - новый высокоуровневый DSL для быстрых и переносимых ML-ядер

Helion - это DSL внутри Python, который компилируется в оптимизированные Triton-ядра. Он сочетает привычный стиль PyTorch с автоматическим тюнингом, давая разработчикам производительные и переносимые ядра под разные архитектуры.

Что делает Helion полезным:
- Автоматически обрабатывает индексацию тензоров
- Управляет памятью и оптимальными доступами
- Подбирает настройки под конкретное железо
- Позволяет писать ядра на уровне «как в PyTorch», а получать код уровня Triton

Итог: разработчик пишет минимум — Helion делает максимум, превращая простое описание вычислений в эффективно оптимизированное ядро.

Подробнее в блоге PyTorch: pytorch.org/blog/helion/

Читать полностью…

Анализ данных (Data analysis)

Утекли бенчмарки Gemini 3.0 Pro от taker_of_whizz —пока не можем подтвердить подлинность, но цифры просто безумные.

Результаты разрывают всё, что мы видели раньше:

🔥 HLE: 37,5%
🔥 MathArena Apex: 22,3%
(для сравнения — **GPT-5.1 всего 1,0%**)

Если утечка реальна, Gemini 3.0 Pro именно такой, каким все его и хотели видеть — мощный, продвинутый и с невероятным ростом математических и логических способностей.

Ждём официального подтверждения, но выглядит *очень* многообещающе.

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf

Читать полностью…

Анализ данных (Data analysis)

Конкурс для аналитиков! Требуется эксперт на продуктовый А/Б-эксперимент

Международная IT-компания Garage Eight вместе с Данилой Елистратовым собрали классный аналитический кейс, на котором каждый может прочелленджить свою экспертность.

История следующая — в крупном таксопарке «Датапарк» назревает кризис. Заказы поступают без остановки, но водителей не хватает. Чтобы спасти ситуацию, команда таксопарка запустила продуктовый эксперимент. Но ей нужна помощь крутого аналитика, чтобы разобраться, все ли правильно работает и стоит ли выкатывать новую механику на весь парк.

Задачи:
— убедиться, что сплит-система A/B-теста «Датапарка» работает верно;
— посчитать результаты теста и понять, выгодна ли новая механика;
— предложить способ определять отложенные заказы;
— объяснить все менеджменту на понятной презентации.

Призы (^-^):
1 место — Симулятор от Karpov.Courses на выбор: Симулятор А/B-тестов, Симулятор data science или Симулятор аналитика. А также бомбер Garage Eight.
2 место — Симулятор A/B-тестов от Karpov.Courses и бомбер Garage Eight.
3 место — Симулятор A/B-тестов от Karpov.Courses и бомбер Garage Eight.
4 и 5 место — Наборы мерча от Garage Eight

Прием решений: до 2 декабря
Проверка: с 3 декабря по 10 декабря
Объявление победителей: 11 декабря
> Узнай все детали и забери материалы кейса здесь:
/channel/Garage_DataPark_bot

Реклама. ООО "Гараж". ИНН 7810671708.erid: 2W5zFHLiCDe

Читать полностью…

Анализ данных (Data analysis)

⚡️ 94-страничный обзор о том, как научные LLM эволюционируют за счет более богатых данных и замкнутых циклов с автономными агентами.

Авторы разобрали 270 датасетов и 190 бенчмарков.

Почему обычные LLM не тянут науку?

Научные данные - это смесь текста, таблиц, формул, кода, изображений и неопределённых измерений. Нюансы легко теряются.

Обзор предлагает:
- единую таксономию научных данных
- многослойную модель научного знания: от сырых наблюдений до теории

Эта рамка помогает строить преподготовку и постобучение так, чтобы модели сохраняли научные правила и могли соединять разные форматы и масштабы.

Обзор классифицирует модели по областям: физика, химия, биология, материалы, науки о Земле, астрономия, плюс универсальные научные ассистенты.

В оценке качества виден сдвиг: от одноходовых квизов, к процесс-ориентированным проверкам, которые оценивают цепочку рассуждений, работу с инструментами и промежуточные результаты.

Авторы продвигают закрытый цикл: агенты планируют эксперименты, запускают симуляторы или лаборатории, проверяют результаты и обновляют общее знание.

Итог: научные LLM движутся к подходу, основанному на данных, проверке процессов и агентных петлях, связанных с реальными доказательствами.

https://arxiv.org/abs/2508.21148

Читать полностью…

Анализ данных (Data analysis)

🚨 Новый обзорный препринт о том, как ИИ меняет человеческое мышление - простым языком выделяю главное.

ИИ перестал быть просто инструментом: он всё сильнее вмешивается в то, как мы думаем, что считаем важным и какие решения принимаем.

Главные идеи:
- ИИ берёт на себя всё больше когнитивных задач, а мы начинаем меньше думать сами. Растёт риск «ленивого мышления».
- Персонализированные алгоритмы создают пузырь: нам показывают только удобные мнения. Это снижает разнообразие взглядов и усиливает поляризацию.
- ИИ легко воздействует на наши когнитивные искажения. Алгоритмы могут подталкивать к нужным эмоциям и решениям.
- Информационные экосистемы становятся управляемыми: дезинформация может распространяться автоматически и тонко.
- Встаёт философский вопрос: что будет, если ИИ приблизится к сознанию? Где пройдёт граница между человеком и машиной?
- Итог автора: растёт риск потери интеллектуальной автономии. Чтобы смягчить эффект, нужны образование, прозрачные модели и продуманное управление ИИ.

Источник: arxiv.org/abs/2508.16628

Читать полностью…
Subscribe to a channel