data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🖥 Roboflow Trackers

Roboflow/trackers — это новая, унифицированная Python‑библиотека object‑tracking, в которой «с нуля» реализуются популярные алгоритмы многoобъектного трекинга (первым уже готов SORT, вскоре планируются Deep SORT, ByteTrack и др.) 

Проект входит в open‑source‑экосистему Roboflow (Supervision, RF‑DETR и т.д.) и предоставляет единый API поверх разных детекторов, так что вы можете, например, скрестить Ultralytics YOLO‑v9, MMDetection или HuggingFace Transformers с любым трекером из пакета без «клея»‑оберток.

Установка
pip install trackers


import supervision as sv
from rfdetr import RFDETRBase # любой детектор
from trackers.sort_tracker import SORTTracker

model = RFDETRBase() # или Ultralytics, MMDet…
tracker = SORTTracker()

def callback(frame, _):
dets = model.predict(frame) # сводим к sv.Detections
dets = tracker.update(dets) # добавляем tracker_id
return sv.LabelAnnotator(
text_position=sv.Position.CENTER
).annotate(frame, dets, dets.tracker_id)

sv.process_video("in.mp4", "out.mp4", callback)



На выходе ‑ ролик с пронумерованными боксами, где каждый объект сохраняет ID между кадрами.

Лицензия без ограничений (Apache‑2.0) и возможность править алгоритм под себя.

👉 Репозиторий

Читать полностью…

Анализ данных (Data analysis)

🖥 OpenAi представлют новые модели o-серии (o3 и o4-mini)

OpenAI утверждает, что эти модели способны генерировать новые и полезные идеи.

Обе будут добавлены с сегодняшнего дня в ChatGPT и API.

Эти ризонинг модели стали лучше использовать внутренние инструменты для решения сложных задач.

Модель o3 установила новый рекорд на AIME 2025 с точностью 98.4%.

А вот o4-mini, набрала 99.5% — лучший результат среди всех моделей.

На Codeforces модели набирают более 2700 баллов, что помещает их в число 200 лучших программистов в мире!

На Humanity Last Exam её показатели находятся на уровне флагманской модели Deep Research.

API — о3 сильно дешевле о1: 10/40$ вместо 15/60$, а o4-mini будет доступна для БЕСПЛАТНЫХ пользователей

С помощью внутренних инструментов модель также умеет рассуждать и работать с изображениями (например, использовать Python для их преобразования).

Эти способности к рассуждению достигнуты благодаря масштабированию как во время обучения, так и во время инференса.

Трансляция: https://www.youtube.com/watch?v=sq8GBPUb3rk

@ai_machinelearning_big_data

#openai

Читать полностью…

Анализ данных (Data analysis)

Открыт приём научных работ в журнал Международной конференции AI Journey с призом за лучшую статью
— 1 миллион рублей.


Ключевые исследования будут опубликованы в спецвыпуске журнала «Доклады РАН. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics.

Условия участия:
✓ Оригинальные исследования (без плагиата)
✓ Языки: русский/английский
✓ Дедлайн подачи — 20 августа 2025

Подать заявку → https://aij.ru/science

Читать полностью…

Анализ данных (Data analysis)

📚 AICI — новый уровень контроля над генерацией текста в LLM. Это не просто очередная библиотека, а принципиально новый подход к интеграции пользовательской логики в процесс генерации текста.

Суть в том, что разработчики с помощью данного инструмента дают возможно встраивать собственные алгоритмы прямо в процесс декодирования токенов. Например, можно динамически редактировать промпты, ограничивать вывод по грамматике или координировать несколько параллельных генераций. Всё это работает через компактные Wasm-модули, выполняющиеся на CPU параллельно с GPU-вычислениями модели.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website

Читать полностью…

Анализ данных (Data analysis)

🖥 Open Ai выпустила еще 3 модели, подробности тут.

Как же плохо с неймингом у OpenAi.

GPT-4o
GPT-4o-mini
GPT-4.5
o1-low
o1-medium
o1-high
o1-mini
o1-pro
o3-low
o3-medium
o3-high
o3-mini-high
o3-pro
o4
o4-pro
o4-mini
o4-mini-high
chatgpt-4o-latest
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano

Все понятно ?)

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥На прошлой неделе СЕО провайдера Cloud․ru Евгений Колбин анонсировал внедрение бесплатного AI-помощника в облачной платформе Cloud․ru Evolution на ежегодной конференции GoCloud

А еще — сразу несколько новых сервисов для Big Data и AI!

- Evolution Managed ArenadataDB, доступный из облака Cloud․ru. Архитектура MPP помогает быстрее и эффективнее обрабатывать данные, в том числе в критически важных системах. Из преимуществ: быстрая и эффективная обработка данных, анализ и прогнозирование клиентской базы, сбор финансовой и управленческой отчетности. Сервис подойдет крупному бизнесу, компаниям среднего сегмента из ритейла, банковского сектора, сферы производства.

- Набор новых платформенных сервисов для работы с big data в публичном облаке Cloud․ru Evolution, который станет доступен в мае этого года. С его помощью компании смогут обрабатывать и анализировать данные, экономить время и ресурсы на обслуживание нужной IT-инфраструктуры и сфокусироваться на росте бизнеса. Готовые инструменты подойдут для AI/ML-задач, легко разворачиваются без помощи специалиста с опытом работы с большими данными.

- Cloud․ru Evolution AI Factory для быстрой разработки и внедрения AI-агентов в облаке. Собранный в одном месте набор готовых AI/ML-инструментов и технологий предоставит несколько новых возможностей: от обучения моделей до запуска мультиагентных систем. Запуск запланирован на лето 2025.

- Cloud․ru Evolution Stack AI-bundle. Это первое в России гибридное облако с поддержкой искусственного интеллекта, которое поможет быстрее запускать и масштабировать AI-сервисы в контуре компании.

Читать полностью…

Анализ данных (Data analysis)

🚀 DeepSeek открывает код своего inference-движка , но делает это с умом

Во время Open Source Week команда уже поделилась несколькими библиотеками — и получила мощный фидбек: коллаборации, обсуждения, багфиксы. Сегодня они идут дальше и отдают в open-source ядро своей inference-системы.

🧠 Inference engine DeepSeek построен поверх vLLM
💡 Раньше был внутренним, глубоко кастомизирован под DeepSeek-V3 / R1

⚠️ Но:
– Был основан на старом форке vLLM
– Жёстко зависел от приватной инфраструктуры DeepSeek
– И не имел ресурса на поддержку в

Вместо того чтобы выкладывать «сырой монолит», команда решила постепенно влить лучшие фичи в уже существующие open-source проекты:

✅ Делают фичи модульными
✅ выкладывают оптимизации
✅ Работа ведётся в синхроне с PyTorch и vLLM

https://github.com/deepseek-ai/open-infra-index/blob/main/OpenSourcing_DeepSeek_Inference_Engine/README.md

Читать полностью…

Анализ данных (Data analysis)

🚀 Нативная поддержка Python в CUDA от NVIDIA!

Теперь можно писать CUDA-код напрямую на Python — без C++ и сторонних обёрток.

Новый API от NVIDIA позволяет взять полный контроль над GPU из Python
▪ Поддержка cuNumeric, RAPIDS, Modulus, и др.
▪ Основано на CPython API — без прослоек

🎯 Что это меняет:
- Снижает барьер входа в GPU-разработку
- Упрощает создание ML и Data Science-проектов
- Открывает возможности для оптимизации

🧠 Python на GPU теперь без компромиссов!

🔗 Подробнее

Читать полностью…

Анализ данных (Data analysis)

✔️ reTermAI — ИИ-помощник в терминале

reTermAI — это умный ассистент для zsh и bash, который подсказывает команды прямо в терминале на основе вашей истории.
Полезно, если часто забываешь синтаксис или хочешь ускорить работу с CLI.

🚀 Что умеет:
▪ ИИ-рекомендации команд по истории
▪ Поддержка частичного ввода
▪ Выбор LLM (можно подключить свой)
▪ Гибкая адаптация под рабочий процесс
▪ Совместим с zsh и bash

📦 Установил — и терминал стал умнее.

Отличный инструмент для девелоперов, админов и всех, кто живёт в консоли.

pip install reterm-ai

🔗 Github

#terminal #cli #bash #zsh #LLM #opensource #reTermAI #ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤖 Google запускает A2A — новый протокол общения между ИИ-агентами

Google представил Agent2Agent (A2A) — открытый стандарт для обмена задачами между ИИ-агентами в разных сервисах и компаниях.
Это что-то вроде MCP, но с упором на безопасность, мультимодальность и совместимость с корпоративной инфраструктурой.

🔑 Главное:
▪ A2A — task-first: агенты обмениваются не сообщениями, а задачами с жизненным циклом (create, update, cancel, complete).
▪ Автоопределение возможностей: каждый агент публикует JSON-«визитку» с описанием своих способностей (capability discovery).
▪ HTTP, SSE, JSON-RPC — всё работает на веб-стеке, легко встраивается в существующие API.
▪ Поддержка текста, аудио и видео — мультимодальность встроена по умолчанию.
▪ Security-first: в отличие от ранних протоколов (как MCP), здесь продумана авторизация и защита данных.

В теории — это мощный инструмент для автоматизации бизнес-процессов.

На практике — уже критикуют за перегруз и неясные перспективы. Но с ресурсами Google — у проекта есть шанс стать отраслевым стандартом.

📌 Отличие между MCP и A2A:
🧠 MCP (Multi-Agent Communication Protocol) — это:
➡️ Протокол от OpenAI, придуманный, чтобы LLM-агенты могли "болтать" друг с другом.
💬 Основан на сообщениях — один агент пишет другому что-то вроде чата, и тот отвечает.
⚙️ Подходит для простых сценариев: «Скажи это», «Спроси у другого», «Придумай план».

Но:
– Без жёсткой структуры
– Нет встроенной безопасности
– Не поддерживает длинные сложные процессы (например, запланировать и потом отчитаться)
– Не заточен под задачи типа "запусти и следи"

🧠 A2A (Agent2Agent) — это:
➡️ Google-версия MCP, но с упором на бизнес и инфраструктуру.
📦 Вместо чатов — структурированные задачи, у которых есть статусы: created, accepted, completed, failed, cancelled.
📛 Поддерживает авторизацию, описание возможностей агента, обратную связь, долгие процессы, аудио и видео.

Проще говоря:
– MCP — это «чат между ИИ»
– A2A — это «Jira для агентов» — задачи, статусы, ролевая модель, безопасность.

google.github.io/A2A

#Google #A2A #agents #AI #protocols #interop #infrastructure

Читать полностью…

Анализ данных (Data analysis)

🌟 LMDeploy — высокооптимизированный инструментарий для работы с большими языковыми моделями.

Разработанный командами MMRazor и MMDeploy, LMDeploy проект предлагает комплексный подход к сжатию, развертыванию и обслуживанию LLM.

Благодаря персистентному батчингу, оптимизированным CUDA-ядрам и квантованию KV Cache, сервис демонстрирует до 1.8x более высокую пропускную способность по сравнению с vLLM.

Поддерживаются десятки моделей, включая Llama 3, Qwen, InternLM и Mixtral, а также мультимодальные решения (LLaVA, CogVLM).

🤖 GitHub

@bigdatai

Читать полностью…

Анализ данных (Data analysis)

🔭 Katib — облачное AutoML-решение для Kubernetes. Этот инструмент позволяет автоматизировать подбор гиперпараметров, раннюю остановку обучения и даже поиск нейросетевых архитектур, работая с любыми ML-фреймворками от TensorFlow и PyTorch до XGBoost.

Особенность проекта — интеграция с экосистемой Kubeflow и поддержка различных механизмов оркестрации, включая Argo Workflows и Tekton Pipelines. Проект активно развивается сообществом и уже используется в продакшн-средах.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 OmniSVG: Унифицированная модель для генерации сложных векторных графиков​

OmniSVG — новая модель, использующая предварительно обученные модели Vision-Language Models (VLMs) для энд-ту-энд генерации сложных и детализированных векторных изображений в формате SVG. ​

Ключевые особенности OmniSVG:

- Мультимодальность: Способность генерировать SVG на основе текстовых описаний, изображений или их комбинации.​

- Эффективность: Преобразование команд и координат SVG в дискретные токены позволяет отделить структурную логику от геометрии, что обеспечивает более эффективное обучение.​

- Гибкость: Генерация изображений различной сложности — от простых иконок до детализированных аниме-персонажей.​

Вместе с моделью представлен MMSVG-2M — мультимодальный датасет, содержащий 2 миллиона богато аннотированных SVG-объектов, предназначенный для обучения и оценки моделей генерации векторной графики. ​

🟡Проект: omnisvg.github.io
🟡Репозиторий: github.com/OmniSVG/OmniSVG
🟡Датасет: huggingface.co/OmniSVG

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎥 ReCamMaster — это передовая система генеративного рендеринга видео, разработанная центром визуальной генерации и взаимодействия компании Kuaishou (KwaiVGI). Она позволяет изменять траектории камеры в существующих видеороликах, создавая новые ракурсы сцены без необходимости повторной съемки. ​

Основные особенности ReCamMaster:

Изменение траектории камеры: Система позволяет перегенерировать видео с новыми движениями камеры, сохраняя исходное содержание и динамику сцены.​

Использование предварительно обученных моделей: ReCamMaster использует возможности предварительно обученных текст-видео диффузионных моделей, что обеспечивает высокое качество генерируемых видео.​

Создание обучающего набора данных:
Для обучения модели был создан крупномасштабный синхронизированный видеодатасет с использованием Unreal Engine 5, включающий разнообразные сцены и движения камеры. ​

Применения ReCamMaster:
- Стабилизация видео: Система может сглаживать дрожание камеры в видеороликах, создавая более плавные и стабильные кадры.​

- Суперразрешение и расширение сцены: ReCamMaster способна повышать разрешение видео и расширять границы сцены за пределы исходного кадра.​

- Дополнение данных для ИИ: Система может генерировать видео с различными ракурсами, что полезно для обучения моделей искусственного интеллекта, особенно в области робототехники и автономного вождения. ​

🟡Github: https://github.com/KwaiVGI/ReCamMaster
🟡Paper: https://arxiv.org/abs/2503.11647
🟡Project: https://jianhongbai.github.io/ReCamMaster/

Читать полностью…

Анализ данных (Data analysis)

Алгоритмическая торговля и количественный анализ: успех зависит от точного тестирования. Как избежать убытков и ошибок в логике торговых стратегий?

На открытом уроке 28 апреля в 20:00 мск научим вас, как правильно тестировать торговые стратегии с помощью самых популярных инструментов. Применение таких инструментов, как pandas, backtrader и backtesting, поможет вам избежать переобучения и непредсказуемых рыночных условий.

Используя полученные знания, вы сможете точно оценивать эффективность своих стратегий, настраивать метрики, такие как доходность и Sharpe ratio, и улучшать результаты с минимальными рисками.

➡️ Присоединяйтесь к открытому уроку и получите скидку на большое обучение «ML для финансового анализа»: https://otus.pw/lQq0/?erid=2W5zFHubd2g 

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Анализ данных (Data analysis)

🚀 MaxText — высокопроизводительный LLM-фреймворк для на Python/JAX для TPU и GPU. В отличие от многих аналогов, он достигает высокой эффективности без ручных оптимизаций — за счёт возможностей JAX и компилятора XLA.

Проект поддерживает Llama 2/3, Mistral, Mixtral, Gemma и DeepSeek, а его ключевая фишка — линейная масштабируемость: от одного устройства до кластеров в 51 000 чипов. При этом код остаётся минималистичным, что упрощает кастомизацию под исследовательские и продакшн-задачи.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Veo 2 от Google доступен для всех — создавать кинематографичные ролики можно в AI Studio.

Лимит: 3-5 видео в день, зато БЕСПЛАТНО.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎙 Новый выпуск DEPLOY подкаста — включай, если интересуешься техноподходом в реальных продуктах

Гость выпуска — Антон из Яндекса, эксперт по рекламным технологиям.

С 2013 года он, прошёл путь от Perl до C++ и сегодня отвечает за инфраструктуру и качество таких сервисов, как Яндекс.Директ и Метрика.

Звучит серьёзно — так оно и есть.
Но при этом выпуск получился очень живой, прикладной и честный.

Что внутри:

🟡 Как реклама помогает бизнесу продавать, а пользователям решать свои задачи — за счёт системы рекомендаций
🟡 Зачем нужны нейросети в реальном времени и как они влияют на user experience
🟡 Как проектировать высоконагруженные системы, чтобы они не разваливались под нагрузкой
🟡 Что такое «перфоратор» и как оптимизировать нагрузку на сервера
🟡 Почему без нормальной командной структуры и A/B-тестов далеко не уедешь
🟡 Как устроена разработка в Яндексе, как решаются конфликты и почему важно менторство

Антон очень чётко объясняет сложные штуки, не уходит в абстракции и при этом даёт полезный взгляд на реальную разработку, архитектуру и работу больших продуктовых команд.

📍 Смотри/слушай:

⚫️ YouTube
⚫️ VK
⚫️ Rutube

Подкаст — must listen, если ты работаешь с ML, инфраструктурой, рекламой или просто хочешь понять, как всё это устроено в настоящей продовой среде.

Читать полностью…

Анализ данных (Data analysis)

📚 MIT 6.S191 – Лекция 7: Генеративный ИИ для медиа
Выступает Doug Eck — ведущий исследователь Google Research, один из создателей MusicLM и Imagen.

🎨 В видео рассказывается:
▪ как ИИ генерирует музыку, изображения, текст и видео
▪ примеры от Google: MusicLM, Imagen
▪ обсуждаются границы возможностей генеративных моделей
▪ поднимаются этические и социальные вопросы

▶️ Смотреть: https://www.youtube.com/watch?v=ZNodOsz94cc

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠🔍 Kimina-Prover-Preview — мощный инструмент от MoonshotAI для автоматического построения доказательств в логике первого порядка с использованием LLM.

➡️ Что это?

Kimina — это "LLM-aided theorem prover", который комбинирует эвристический поиск с языковыми моделями, чтобы строить формальные доказательства по заданной цели и предпосылкам.

💡 Особенности:
▪ Поддержка логики первого порядка (FOL)
▪ Использует LLM (через API OpenAI, Claude и др.) для генерации обоснований
▪ Интеграция с Lean для проверки корректности
▪ Поддерживает кастомные промпты и множественные режимы поиска

🧪 Как работает:
Формулируется цель и список предпосылок

LLM предлагает следующий логический шаг

Инструмент проверяет, валиден ли шаг с точки зрения формальной логики

Если успешно — продолжается доказательство

🛠 Установка:


git clone https://github.com/MoonshotAI/Kimina-Prover-Preview.git
cd Kimina-Prover-Preview
pip install -r requirements.txt


📎 GitHub: github.com/MoonshotAI/Kimina-Prover-Preview

Читать полностью…

Анализ данных (Data analysis)

🧠 DeDoDe — новый подход к локальному сопоставлению признаков

Проект DeDoDe ("Detect, Don't Describe — Describe, Don't Detect") разделяет процессы детектирования и описания ключевых точек на изображении, обеспечивая высокую точность и гибкость при сопоставлении.

📌 Особенности:
- Детектор обучается на 3D-устойчивости точек
- Дескриптор обучается отдельно на задаче сопоставления
- Поддерживает архитектурную гибкость и повторное использование
- Открытый код на Python, PyTorch, доступен в репозитории

📄 Статья (3DV 2024): arXiv 2308.08479
🆕 Обновление v2: arXiv 2404.08928

🔗 Репозиторий: github.com/Parskatt/DeDoDe

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как сократить расходы на инфраструктуру с GPU?

23 апреля в 12:00 Selectel проведет вебинар для DevOps- и Data-инженеров, техлидов и менеджеров ML-проектов.

Приходите, чтобы обсудить возможности доступных GPU-карт, узнать о кейсах подбора инфраструктуры с GPU и шести способах сократить на неё расходы.

Вебинар бесплатный. Посмотрите полную программу и зарегистрируйтесь по ссылке: https://slc.tl/gdx10

Чтобы не пропустить встречу и узнавать о других митапах, воркшопах и бесплатных курсах Selectel, подписывайтесь на @selectel_events

Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqvnomoF

Читать полностью…

Анализ данных (Data analysis)

🤖 InternVL 3 — новый мощный мульти-модальный ИИ от OpenGVLab!

✨ Доступны размеры 1B / 2B / 8B / 9B / 14B / 28B / 38B

📌 Что нового:
- Улучшено восприятие и логика по сравнению с InternVL 2.5
- Нативное мультимодальное обучение улучшает язык
- Построен на InternViT encoder + Qwen2.5VL decoder
- Улучшает даже Qwen2.5VL

🧠 Что умеет:
- Рассуждение в мультимодальном виде
- Работа с документами
- Поддержка ИИ агентов

🔓 MIT License

🔗 Подробнее

Читать полностью…

Анализ данных (Data analysis)

Дружелюбная встреча для аналитиков от команды Международных проектов Яндекс Поиска.

Приходите в штаб-квартиру Яндекса "Красная Роза" 13 апреля — мы расскажем, как устроена команда Международных проектов Поиска, из чего в ней состоит аналитика и каким образом с этим связаны Яндекс Игры.

В финале встречи эксперты из Яндекса проведут для участников диагностику навыков аналитики и математической статистики — если пройдете успешно, мы засчитаем это как успешную техническую секцию при собеседовании в Яндекс.

Зарегистрироваться на Welcome Time для аналитиков можно здесь до 12 апреля

Читать полностью…

Анализ данных (Data analysis)

✔️ Проверьте свои знания: пройдите тест по продвинутому инструментарию работы с данными

Успешно ответите на 20 вопросов за 25 минут — сможете поступить на курс «Data Warehouse Analyst» от Otus.

На курсе вы освоите:
- Навыки построения ELT-pipelines: Airflow, Nifi, Airbyte
- Принципы работы аналитических СУБД: Redshift, Greenplum, Clickhouse
- Лучшие практики моделирования данных: dbt, Data Vault
- Визуализацию и BI: Metabase, Superset, DataLens
- Продвинутую аналитику: KPI, Funnels, Marketing Attribution, Cohort, RFM
- DevOps-практики: Continuous Integration, Github Actions

➡️ Начать тестирование: https://otus.pw/74Wgc/?erid=2W5zFH7SvQG

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

Записка на двери: ушёл на One Day Offer для NLP-специалистов — буду поздно и, возможно, с оффером мечты!

19 апреля Сбер приглашает амбициозных спецов стать частью команды стратегии и развития Сбера, чтобы создавать инновации.

Хочешь сказать: «Да, я тот самый автор GigaChat/Llama/Falcon/AI-помощника»?
Велком на One Day Offer!

Читать полностью…

Анализ данных (Data analysis)

Приглашаем вас на вебинар, посвящённый возможностям решения "Экстрактор 1С", системы Гларус BI, совместных задач.

Основные темы мероприятия:
✔️ Основные инструменты и технологии для выгрузки данных из 1С;
✔️ В чем минусы различных подходов и методов выгрузки данных;
✔️ Экстрактор 1С: эффективное и универсальное решение.
✔️ Зачем нужна BI аналитика бизнесу?
✔️ Разбираем разные мифы, сложившиеся вокруг BI.
✔️ Разбираем как в Glarus BI создать понятный и полезный дашборд за несколько минут.
✔️ С чего начать внедрения BI небольшим компаниям, чтобы избежать лишних потерь времени и денег?
✔️ Разбираем экономику внедрения и эксплуатации BI системы.
✔️ Ответы на вопросы.

Спикеры мероприятия:
📢 Пыстин Степан (технический директор в компании “Денвик Аналитика”)
📢 Козырев Игорь (сооснователь компании "Glarus Digital")

Зарегистрируйтесь на мероприятие по ссылке:
https://pruffme.com/landing/u1257797/tmp1742980942

С нетерпением ждем вас 11 апреля в 13:00 по Мск!

Реклама: ООО "Денвик Аналитика"
ИНН: 1101178666. Erid= 2VtzqusphAh

Читать полностью…

Анализ данных (Data analysis)

Оптимизируем работу со Spark и строим рекомендательные системы

Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.

На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.

Что еще обсудим

🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.

Кому будет полезен вебинар

⚫️ML-инженерам.
⚫️Архитекторам, Data-инженерам, Data-аналитикам.
⚫️Руководителям ML-направлений и Data-офисов.

Зарегистрироваться

Читать полностью…

Анализ данных (Data analysis)

🌟 Kimi-VL: VLM с MoE, ризонингом и контекстом 128K.

Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.

Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.

Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.

Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.

Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.

В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.

Модели доступны на Hugging Face в двух вариантах:

🟢Kimi-VL-A3B-Instruct для стандартных задач;

🟠Kimi-VL-Thinking для сложных рассуждений.

▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #KimiAI #MoonShotAI

Читать полностью…
Subscribe to a channel