data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

✔️ Welcome Time в Яндексе — дружелюбная встреча для аналитиков

📍 21 июня, Москва, штаб-квартира на Льва Толстого

Что такое R&D и чем аналитики в этой команде отличаются от продуктовых? Узнаете на тёплой встрече с командами исследований Яндекса.

В программе доклады от практиков:

🔸 *Ирина Барская* — руководитель службы аналитики и исследований
→ Расскажет, какие технологии развивают в R&D

🔸 *Иван Дёгтев* — руководитель аналитики генеративных моделей
→ Объяснит, как работает и развивается YandexGPT

🔸 *Елена Вольф* — аналитик-разработчик YandexGPT
→ Расскажет, как GPT помогает саппорту в роли RAG-ассистента

🔸 *Артём Хуршудов* — руководитель аналитики визуальных моделей
→ Покажет, как генерируют изображения с помощью YandexART и VLM

🔸 *Арсений Нестюк* — руководитель аналитики распознавания речи
→ Поговорит про голосовые технологии и Алису

📊 Бонус: быстрая диагностика навыков по аналитике и статистике.
🧠 Успешное прохождение = автоматический зачёт техсекции на собеседовании в Яндекс (действует 2 года).

📅 Успей зарегистрироваться до 19 июня — будет интересно, полезно и без галстуков.

➡️ Регистрация на Welcome Time

Читать полностью…

Анализ данных (Data analysis)

🎯 Работа с многомерными данными — это вызов. Хотите узнать, как избавиться от лишнего «шума» и сохранить только важную информацию?

🔍 На открытом вебинаре вы узнаете, как методы уменьшения размерности помогают обрабатывать сложные данные, ускорять машинное обучение и находить скрытые закономерности. Мы разберем популярные техники: PCA, t-SNE, UMAP и автоэнкодеры, а также покажем, как эффективно применять их на практике.

🚀 С помощью простых и мощных методов вы научитесь повышать интерпретируемость моделей и ускорять их работу — это даст ощутимые преимущества в реальных проектах. Отличная возможность повысить свою квалификацию в Data Science!

📅 Урок пройдет в преддверии старта курса «Machine Learning. Professional».

🔗 Зарегистрируйтесь и получите скидку на обучение: https://otus.pw/uR54/?erid=2W5zFJBYgVN

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Анализ данных (Data analysis)

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

• ✂️ Разбивает текст на токены для языковых моделей
• 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
• 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
• ⚡ Очень быстрый — написан на Rust с Python-обёрткой
• 📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 MiniCPM4 — компактная LLM нового поколения

Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания.

🔧 Что нового:

🏗️ InfLLM v2 — обучаемое разреженное внимание
🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью
🔢 BitCPM — ультракомпактная тернарная квантизация
📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning
⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде

📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
⭐ GitHub: https://github.com/OpenBMB/MiniCPM

@data_analysis_ml

#LLM #AI #MiniCPM4 #EdgeAI

Читать полностью…

Анализ данных (Data analysis)

🎬 Tencent выложила в открытый доступ код и веса модели **HunyuanCustom** — инструмента для кастомизации видео, управляемого аудио или другим видео.

🔊 Модель может на лету изменять видео на основе звуковой дорожки
🎥 Или адаптировать ролик под другое видео-вход
🧠 Подходит для синхронизации движений губ, мимики, анимации по голосу и многого другого

В репозитории доступны:
• Инференс-код
• Весы модели
• Примеры и документация

📂 GitHub

Теперь кастомизация видео — это всего несколько строчек кода.

@data_analysis_ml

#Tencent #Hunyuan

Читать полностью…

Анализ данных (Data analysis)

⚡️Релиз Qwen3-Embedding и Qwen3-Reranker

✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud

🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.

🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡Modelscope: https://modelscope.cn/organization/qwen

@ai_machinelearning_big_data

#qwen

Читать полностью…

Анализ данных (Data analysis)

🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов

Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста:

🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном
🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово

Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью:
- нового attention-механизма, который работает и для AR, и для MDM
- гибридной функции потерь, позволяющей переключаться между стилями генерации

💡 Что делает Eso-LMs уникальной:

⚡ В 65 раз быстрее, чем обычные diffusion-модели
⚡ В 4 раза быстрее, чем гибридные модели с KV-кэшем
📈 Генерирует качественный текст с низкой perplexity
💬 Умеет работать параллельно и быстро, без потерь в смысле

📦 Что внутри репозитория:

• Два варианта модели: Eso-LM (A) и Eso-LM (B)
• Поддержка разных архитектур: DiT, AR-трансформеры и др.
• Скрипты для обучения, оценки и генерации текстов
• Настройки, логи, загрузка данных и прочая инфраструктура

🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества.

🔗 Подробнее

Читать полностью…

Анализ данных (Data analysis)

🧠 Cua — лёгкий open-source агентный фреймворк на Python

Cua — это минималистичный Python-фреймворк для создания LLM-агентов, ориентированный на простоту, прозрачность и модульность. Название «Cua» расшифровывается как Composable Universal Agents.

📦 Особенности:
• Всего ~1,000 строк кода — легко читать, расширять и встраивать
• Поддержка OpenAI, Anthropic, Mistral и других LLM-провайдеров
• Нативные компоненты: агент, память, инструменты, цепочки
• Интерфейс совместим с langchain и autogen, но гораздо проще

🚀 Что можно делать:
• Создавать собственных агентов и наделять их инструментами
• Интегрировать внешние API и базы данных
• Вести диалоги, обрабатывать документы, выполнять цепочки задач
• Быстро запускать эксперименты с собственными LLM-пайплайнами

🛠 Примеры в репозитории:
- Агент с памятью и функцией поиска
- Диалоговый бот с цепочкой инструкций
- Генерация кода на основе естественного языка
- Интеграция с HuggingFace и другими API

📚 Для кого подойдёт:
• Тем, кто ищет простой аналог LangChain
• Исследователям, которым нужно прозрачное поведение без «магии»
• Разработчикам, экспериментирующим с LLM-агентами

🔗 GitHub

Читать полностью…

Анализ данных (Data analysis)

🧠 DataTune — простой способ оптимизировать датасеты для ИИ

Это инструмент с открытым исходным кодом, который помогает улучшать качество датасетов для обучения LLM и других моделей.

Что делает DataTune:
▪ Автоматически находит и удаляет дубликаты
▪ Фильтрует нерелевантные, шумные и некачественные примеры
▪ Сортирует данные по «ценности» — оставляя то, что реально важно
▪ Работает с любыми текстовыми коллекциями (JSONL, TXT, HuggingFace Datasets)

🛠 Основан на embedding-моделях — сравнивает смысловую близость и уникальность примеров. Подходит для:
• Fine-tuning LLM
• Подготовки eval-наборов
• Фильтрации перед RAG

📦 Установка:


pip install datatune


https://github.com/vitalops/datatune

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Кто такие дата-инженеры и почему без них не обойтись современному бизнесу?

Сейчас каждая компания собирает тонны данных: продажи, клиенты, маркетинг, логистика. Но сырые цифры бесполезны, если их нельзя превратить в понятные отчёты и выводы.

Приглашаем вас на вебинар 3 июня в 18:30 по МСК, где наш новый спикер — Владислав Вареник, Data Engineer в Сравни.ру — расскажет кто такие дата-инженеры и как они ускоряют работу бизнеса.

Что вы узнаете на вебинаре?
🟠Поговорим о профессии дата-инженера и почему эта профессия востребована.
🟠Как устроен процесс работы с данными.
🟠Как автоматизировать отчёты с помощью dbt и SQL.
🟠Пример из реальной практики.

Даже если вы далеки от аналитики — покажем, как начать с нуля и быстро получить результат. Не упустите шанс научиться тому, что будет цениться ещё десятки лет! 🚀

🕗 Встречаемся 3 июня в 18:30 по МСК

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Анализ данных (Data analysis)

📄 ColQwen2: поиск по документам с учётом визуального оформления

ColQwen2 — это модифицированная версия модели ColPali, предназначенная для поиска документов по их визуальным признакам, а не только по тексту.

🔧 Как работает:
• Каждая страница обрабатывается как изображение
• Используется Qwen2-VL для извлечения не только текста, но и таблиц, графиков, макета
• Создаются мультивекторные эмбеддинги
• Поиск основан на сравнении этих векторов (late interaction)

📌 Зачем это нужно:
Такой подход помогает точнее находить нужные документы — особенно если они содержат сложную структуру, таблицы или нестандартный формат.

Подходит для:
– PDF-файлов
– Отсканированных документов
– Презентаций и отчётов с визуальными элементами

https://huggingface.co/docs/transformers/main/en/model_doc/colqwen2

@data_analysis_ml

#Qwen

Читать полностью…

Анализ данных (Data analysis)

🏸 Робот, который играет в бадминтон — и делает это всерьёз

Учёные научили четвероногого робота играть в бадминтон. Не просто двигаться — а видеть волан, рассчитывать траекторию, подходить к мячу и точно отбивать его. Всё это в реальном времени, в движении, на настоящей площадке.

🔬 Как это работает:
- 🤖 Reinforcement Learning — робот учится на собственных ошибках
- 👁 Компьютерное зрение — отслеживание волана даже с шумами, как в реальных камерах
- 🧠 Модель предсказания траектории — чтобы "читать" мяч как опытный игрок
- 🦿 Координация движения ног и руки — не падать и успевать отбивать

💥 Что получилось:
Робот реально может играть против человека. Он не просто двигается — он принимает решения, адаптируется и бьёт по мячу в прыжке.
Это не анимация. Это реальный робот. И он уже работает.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Resemble AI открыли исходный код Chatterbox — передовой модели клонирования голоса нового поколения.

Chatterbox объединяет синтез речи (TTS) и voice conversion, позволяя не только генерировать, но и трансформировать голос.

📊 В слепом тестировании 63,75% слушателей выбрали Chatterbox вместо ElevenLabs.
⚡️ Модель распространяется бесплатно и с открытым исходным кодом под MIT-лицензией.

💻 Установка:
pip install chatterbox-tts

🔗 Полезные ссылки:
Демо-примеры: https://resemble-ai.github.io/chatterbox_demopage/
GitHub: https://github.com/resemble-ai/chatterbox
Hugging Face: https://huggingface.co/spaces/ResembleAI/Chatterbox
Статистика: https://podonos.com/resembleai/chatterbox

Chatterbox — альтернатива, которая звучит лучше, чем коммерческие аналоги.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔁 BERT перезагружается — революция в обработке языка

Когда-то BERT (Bidirectional Encoder Representations from Transformers) стал поворотной точкой в NLP. Это была первая модель, которая обучалась трансформеру двунаправленно — она одновременно учитывала контекст и слева, и справа от каждого слова, чтобы понимать язык глубже, чем когда-либо.

🧠 Что изменил BERT:
• Принёс в трансформеры стратегию «предобучение → дообучение»
• Учил модели понимать текст без ручной разметки
• Доказал, что язык можно моделировать через простые, но мощные задачи

🛠 Как устроено предобучение BERT:

🔹 MLM (Masked Language Model)
Модель случайно скрывает 15% слов в предложении и учится угадывать их, основываясь на окружающем контексте.
Примерно как человек, который понимает фразу, даже если не видит пару слов.

🔹 NSP (Next Sentence Prediction)
BERT также обучался распознавать, действительно ли второе предложение логически следует за первым.
Но…

⚡ Современные версии (NeoBERT, ModernBERT) отказываются от NSP — вместо него они используют более быстрые и эффективные подходы, чтобы добиться лучшей производительности.

🔍 Хотите узнать больше о BERT, его развитии и новой модели ConstBERT для поисковых задач?

👉 Читайте разбор здесь: https://turingpost.com/p/bert

Читать полностью…

Анализ данных (Data analysis)

🚀 Представлен Apache Spark 4.0 — крупнейший релиз с момента запуска Spark 2.0

Databricks анонсировали Spark 4.0 с множеством фундаментальных улучшений производительности и архитектуры.

Новый релиз фокусируется на ускорении обработки, поддержке GenAI-нагрузок и расширенной масштабируемости.

🔥 Что нового:


• 💡 Project Tungsten++, Catalyst++ — переработка движка исполнения и оптимизации запросов
• 🧠 Поддержка генеративных AI-запросов — Spark теперь эффективнее работает с LLM-нагрузками
• ⚙️ Новый Execution Engine — более 2× ускорение в среднем, до 10× в некоторых кейсах
• 📦 Модульная архитектура — теперь ядро Spark отделено от MLlib, GraphX и др.
• 🌐 Поддержка нового Shuffle-движка и улучшенное распределение по кластерам
• 🧪 Обратная несовместимость — Spark 4.0 требует миграции, особенно для UDF и кастомных оптимизаций

📌 Подробности и тесты:
https://www.databricks.com/blog/introducing-apache-spark-40

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 PyTorch Distributed Checkpointing теперь поддерживает HuggingFace safetensors

📦 Что произошло:
Платформа DCP (Distributed Checkpointing) в PyTorch теперь встраивает нативную поддержку формата safetensors от HuggingFace. Это важный шаг к полной совместимости с экосистемой HF, которая активно используется в инференсе и дообучении.

🔍 В чём была проблема:
• DCP раньше использовал свой собственный формат чекпоинтов
• Чтобы работать с HuggingFace, приходилось писать конвертеры
• Чекпоинты приходилось загружать локально, что усложняло пайплайны

🚀 Что изменилось:
• Теперь можно сохранять и загружать модели напрямую в safetensors
• Поддерживается любой `fsspec`-совместимый storage (S3, GCS, локалка и т.д.)
• Интеграция уже улучшила UX в torchtune, став первым пользователем новой фичи

🛠 Как использовать:
• Просто передай новый load planner и storage reader в load()
• И аналогично — save planner + writer для save()
• Всё остальное работает как раньше

📈 Что это даёт:
• Меньше костылей и меньше кода
• Единый формат чекпоинтов для HF и PyTorch
• Более гибкие и производительные пайплайны

#PyTorch #HuggingFace #safetensors #ML #checkpointing #opensource

https://pytorch.org/blog/huggingface-safetensors-support-in-pytorch-distributed-checkpointing

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов


🧱 Лимиты моделей:

| Модель | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1 | 64k | 12
| o3-mini | 100k | 13
| Sonnet 3.7 | 128k | 13

И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.


🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

Читать полностью…

Анализ данных (Data analysis)

🦣 Ты мамонтёнок? Потерял маму?
💀 А может, сам разводишь стадо?В любом случае — теперь у тебя есть бот, который знает больше, чем твой следователь.
---
📱 Вводишь номер — и получаешь:👤 ФИО, паспорт, ИНН, адрес прописки📞 С кем звонил, когда и откуда💬 WhatsApp, Telegram, VK, даже если он “удалился”🖼️ Фото, соцсети, даже одноклассница Оксана 2008 года
---
– Хочешь узнать, кто названивает по ночам?– С кем твоя бывшая реально "осталась друзьями"?– Кто стоит за фейковым аккаунтом, который пишет “приветик 👀”?
🔍 Мы пробьём всех. Даже если они под VPN, с фейковым именем и через eSIM.🐾 Оставили след в сети? Мы его найдём.🚫 Думаешь, удалил — значит, исчез? Ха-ха. Ты просто добавился в базу

https://tglink.io/6718f8dd97db?erid=2W5zFHJALXJ - постоянная ссылка
@Manticore1_bot - бот

Читать полностью…

Анализ данных (Data analysis)

🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно!

Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.

✅ Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций


💡 Бонус для разработчиков:

Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его.
Пользователи смогут запускать твой пример сразу, без копирования кода!

🔥 Работает с Google Colab — бесплатно, быстро, удобно.

#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning

✔️ Подробнее

@machinelearning_interview

Читать полностью…

Анализ данных (Data analysis)

🤖 Figure 02 уже сегодня сортирует, перемещает и анализирует десятки товаров одновременно

Наблюдая за такими роботами, сложно представить, что через год в логистике и на складах будут работать люди.
Скорость, с которой они развиваются, — просто ошеломляющая.

То, что ещё недавно казалось фантастикой, уже становится реальностью.
И происходит это быстрее, чем мы успеваем привыкнуть.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Пошаговый план: как стать аналитиком данных в 2025

Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?

Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта

Что будет на вебинаре?

🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— обсудите, какие отклики работают, а какие сразу отправляют в корзину;
— изнанка найма: инсайдерский взгляд на процессы отбора
🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях

🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Анализ данных (Data analysis)

Цена доставки изменилась за 3 минуты? Это не магия. Это Switcher

⏳ Как платформы влияют на нашу готовность платить?
📦 Что происходит «под капотом» Авито-доставки?
🧩 И как собрать ценообразование, когда пользователей — миллионы?

В кресле — Даша Пучкова, старший аналитик команды ценообразования доставки.
В фокусе — логика, данные и неожиданные эффекты от алгоритмов.
В голове — баланс между оптимизацией и пользовательским доверием.

Смотреть второй выпуск → по ссылке.

Читать полностью…

Анализ данных (Data analysis)

Вы когда-нибудь задумывались о том, что с помощью ИИ можно значительно ускорить время, затрачиваемое на поиск информации и повысить точность бизнес-решений? На вебинаре “LLM и RAG в действии: как ИИ уже помогает бизнесу работать эффективнее” мы покажем конкретные кейсы, включая реализованный проект внутри компании DSSL. А также:

1. Разберём, чем RAG отличается от fine-tuning.

2. Какие архитектуры применяются, и что выбрать для себя — облако или on-prem.

3. Как интегрировать AI-ассистента с Вашими системами и повысить эффективность исследований.

Вебинар будет полезен тем, кто ищет практическое применение ИИ в компании уже сегодня.

📅 5 июня в 14:00 по Москве

➡️ Зарегистрироваться

А еще все слушатели вебинара получат запись и презентацию выступающего, которые можно использовать в работе!


Реклама. ООО "ДССЛ-ПЕРВЫЙ". ИНН 7701081730. erid: 2W5zFHoTwBv

Читать полностью…

Анализ данных (Data analysis)

🚀 AGI уже в 2025?

Сэм Альтман (OpenAI) и Илон Маск (xAI) — дали самые смелые прогнозы в индустрии.

Оба уверенно заявляют: AGI появится до конца 2025 года.

🧠 Альтман: "Теперь мы уверены, что знаем, как построить AGI"

Читать полностью…

Анализ данных (Data analysis)

🎥 Video-XL-2 — модель для понимании длинных видео

Многие модели хорошо справляются с бенчмарками, но начинают "захлёбываться", когда ролики становятся длиннее. Video-XL-2 создана, чтобы работать быстро и эффективно с длинными видео, не теряя в качестве.

🔑 Ключевые особенности:
• ⚡ Высокая скорость + низкое потребление памяти
• 🎯 SOTA-показатели среди open-source моделей с аналогичным размером
• 🔁 Поддержка до 10 000+ кадров на одной GPU
• 🧩 Инновации в архитектуре: chunk-based pre-filling и выборочное KV-декодирование

📊 Результаты на бенчмарках:
• MLVU — 74.9
• VideoMME — 66.4
• LVBench — 48.6
При этом модель использует меньше FLOPs, чем конкуренты, даже на больших входных данных — это говорит об отличной энергоэффективности.

🧪 Хорошо справляется с задачами:
– Понимание длинных видеороликов
– Поиск по видео
– Временная локализация событий (Temporal Grounding)

📎 Подробнее и демо

@data_analysis_ml

#AI #VideoUnderstanding #ML #LLM #Multimodal #BAAI

Читать полностью…

Анализ данных (Data analysis)

✔️ 13 полезных MCP-серверов, которые стоит попробовать

MCP (Model Context Protocol) меняет то, как ИИ-модели и агенты взаимодействуют с инструментами.

1. Agentset MCP
🔗 https://github.com/agentset-ai/mcp-server
Быстрое создание интеллектуальных приложений на основе документов (RAG) с open-source платформой Agentset.

2. GitHub MCP Server
🔗 https://github.com/github/github-mcp-server
Интеграция с API GitHub — можно строить ИИ-инструменты, работающие с экосистемой GitHub.

3. arXiv MCP
🔗 https://github.com/andybrandt/mcp-simple-arxiv
Работа с научными статьями arXiv: поиск, метаданные, аннотации, ссылки — всё через MCP.

4. MCP Run Python
🔗 https://github.com/pydantic/pydantic-ai/tree/main/mcp-run-python
Запуск Python-кода в песочнице через Pyodide (Deno). Полная изоляция от ОС.

5. Safe Local Python Executor
🔗 https://github.com/maxim-saplin/mcp_safe_local_python_executor
Безопасный локальный запуск Python-кода, сгенерированного LLM, через LocalPythonExecutor (от smolagents).

6. Cursor MCP Installer
🔗 https://github.com/matthewdcage/cursor-mcp-installer
Автоматическое добавление MCP-серверов в редактор Cursor — удобно для разработчиков.

7. Basic Memory
🔗 https://memory.basicmachines.co/docs/introduction
Система управления знаниями: создаёт устойчивый семантический граф из диалогов ИИ-агентов.

8. Filesystem MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/HEAD/src/filesystem
Чтение, запись, поиск файлов, создание, удаление и перемещение директорий — всё через MCP.

9. Notion MCP Server
🔗 https://github.com/makenotion/notion-mcp-server
Позволяет моделям управлять вашим рабочим пространством в Notion: поиск, чтение, создание и обновление страниц и баз.

10. Markdownify MCP Server
🔗 https://github.com/zcaceres/markdownify-mcp
Конвертирует PDF, изображения, аудио и веб-страницы в Markdown.

11. Fetch MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/main/src/fetch
Позволяет LLM извлекать данные с веб-страниц и автоматически преобразовывать HTML в Markdown.

12. Mobile Next MCP Server
🔗 https://github.com/mobile-next/mobile-mcp
Взаимодействие с iOS/Android-приложениями: распознавание UI по скриншотам, автоматизация кликов.

13. MCP Installer
🔗 https://github.com/anaisbetts/mcp-installer
Шутливо, но по делу: «MCP для установки MCP». Модель сама ставит MCP-серверы из npm и PyPi по вашему запросу.

🧠 Вывод:
MCP-серверы — это мост между LLM и реальными действиями: код, браузер, мобильные приложения, знания, GitHub, файлы.
Их можно комбинировать в цепочки, расширять ассистентов, строить автономные агенты.

@data_analysis_ml

#ml #ai #MCP

Читать полностью…

Анализ данных (Data analysis)

🧰 MCP Tools — универсальный CLI-инструмент для работы с MCP-серверами
Это настоящий швейцарский нож для взаимодействия с серверами, поддерживающими Model Context Protocol.

🔧 Возможности MCP Tools:

• 🔍 Автоматически находит и вызывает инструменты на MCP-серверах
• 📦 Получает доступ к ресурсам и использует их прямо из терминала
• 🧪 Создаёт мок-серверы для тестирования клиентских приложений
• 🧩 Проксирует MCP-запросы в shell-скрипты — легко расширяется
• 🖥 Открывает интерактивную оболочку для изучения MCP-серверов
• 🚀 Генерирует шаблоны новых проектов с поддержкой TypeScript
• 🧾 Поддерживает множество форматов вывода: JSON, таблицы, читабельный текст
• 🔐 Управляет доступом к отдельным инструментам и ресурсам
• 🌐 Работает с любыми транспортами: HTTP, stdio и другими

📎 MCP Tools объединяет мощь, гибкость и удобство в одном инструменте. Идеально подходит для разработчиков, работающих с LLM-инфраструктурой и AI-интерфейсами.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Sakana AI представили Darwin Gödel Machine — саморазвивающийся ИИ, который переписывает собственный код
https://sakana.ai/dgm

Darwin Gödel Machine (DGM) — это новый тип интеллектуального агента, способного модифицировать и улучшать самого себя. В отличие от традиционных моделей, чьи возможности фиксированы после запуска, DGM задуман как эволюционирующий ИИ.

📌 Ключевая идея: поддержка «линейки вариантов» — разных версий агента, которые постепенно эволюционируют и исследуют пространство решений. Это позволяет системе улучшаться открыто и без ограничений, как это происходит в биологической эволюции.

📊 Результаты:
• На SWE-bench точность выросла с 20.0% до 50.0%
• На Polyglot — с 14.2% до 30.7%, заметно превзойдя hand-crafted baseline-агенты

🌱 Darwin Gödel Machine предлагает подход, при котором ИИ не просто обучается, а становится способным к собственному развитию и самокоррекции.

📄 Технический отчёт:
https://arxiv.org/abs/2505.22954

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

YTsaurus - платформа для хранения и обработки больших данных, теперь доступная в Yandex Cloud как управляемый сервис.

Решение подходит для широкого спектра задач: от построения корпоративных хранилищ и реализации ETL-процессов до запуска аналитики и обучения моделей машинного обучения.

Платформа масштабируется до миллионов вычислительных ядер, поддерживает работу с ClickHouse, Apache Spark и MapReduce, а также справляется с любыми типами данных - структурированными, полуструктурированными и неструктурированными.

YTsaurus обеспечивает стабильную производственную нагрузку, высокую гибкость и интеграцию с существующими дата-инфраструктурами.

Сервис уже доступен в облаке. Подключайтесь и оставляйте заявку на сайте.

Читать полностью…

Анализ данных (Data analysis)

📣 Получите статус Yandex DataLens Certified Analyst

Сертификация DataLens Analyst от Yandex Cloud — это возможность структурировать знания и подтвердить свой профессиональный уровень в анализе и визуализации данных.

Сертифицированные специалисты ценятся на рынке выше, а подготовка к экзамену помогает систематизировать навыки: от создания датасетов до проектирования дашбордов.

Сейчас пройти сертификацию можно с 50% скидкой — до конца августа стоимость составит 2 500 ₽ вместо 5 000 ₽.

На сайте есть бесплатный курс и примеры экзаменационных заданий.

📍Подробности и регистрация — по ссылке.

Читать полностью…
Subscribe to a channel