data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет

 6.5M изображений + 0.8B текста из 22k часов обучающих видео
 Охватывает такие предметы, как математика, физика и химия.
 Apache 2.0

- Датасет: https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook
-  Статья: https://huggingface.co/papers/2501.00958

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Большая подборка интересных статей, посвященных LLM.

-The GPT-4 barrier was comprehensively broken
- Some of those GPT-4 models run on my laptop
- LLM prices crashed, thanks to competition and increased efficiency
- Multimodal vision is common, audio and video are starting to emerge
- Voice and live camera mode are science fiction come to life
-Prompt driven app generation is a commodity already
- Universal access to the best models lasted for just a few short months
- Agents” still haven’t really happened yet
- Evals really matter
- Apple Intelligence is bad, Apple’s MLX library is excellent
- The rise of inference-scaling “reasoning” models
- Was the best currently available LLM trained in China for less than $6m?
- The environmental impact got better
- The environmental impact got much, much worse
- The year of slop
- Synthetic training data works great
- LLMs somehow got even harder to use
- Knowledge is incredibly unevenly distributed
- LLMs need better criticism

⚡️ Полный обзор

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning.

Если вы начинаете изучать мл с нуля, это хороший список.

Секция 1:топовые LLMs

- GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 статьи. GPT3.5, 4o, o1, и o3.
- Claude 3 и Gemini 1, Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Gemma 2.
LLaMA 1, Llama 2, Llama 3 статьи для понимания внутреннего устройства моделей.
- Mistral 7B, Mixtral и Pixtral
- DeepSeek V1, Coder, MoE, V2, V3.
- Apple Intelligence

Секция 2: бенчмарки

- MMLU paper - the main knowledgebenchmark, next to GPQA and BIG-Bench. In 2025 frontier labs use MMLU Pro, GPQA Diamond, and BIG-Bench Hard.
- MuSR paper - evaluating long context, next to LongBench, BABILong, and RULER. Solving Lost in The Middle and other issues with Needle in a Haystack.
- MATH paper.

🔥 Полный список

Читать полностью…

Анализ данных (Data analysis)

🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимодействовать с пользователями и использовать внешние инструменты!

🌟 Цель проекта — упростить процесс разработки агентов, которые могут действовать независимо, обрабатывать команды на естественном языке и решать поставленные задачи с минимальным вмешательством человека. Такие агенты могут использоваться как чат-боты, NPC в видеоиграх, для трейдинга и многих других задач!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 pyRiemann — это библиотека на Python для анализа многомерных данных с использованием римановой геометрии положительно определенных матриц!

🌟 Она построена на API scikit-learn и предоставляет высокоуровневые инструменты для обработки данных, классификации и машинного обучения. Основное применение библиотеки связано с биосигналами (например, EEG, MEG, EMG), интерфейсами мозг-компьютер (BCI), а также дистанционным зондированием, включая обработку радарных изображений и гиперспектральных данных.

🔐 Лицензия: BSD-3-Clause

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Уголок AI-энтузиастов от Сбера 🤖

Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити.

✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины.

✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере

✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub.

Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.

Читать полностью…

Анализ данных (Data analysis)

Будьте честны с собой )

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 chai-lab — проект, связанный с предсказанием биомолекулярных структур!

🌟 Он включает в себя Chai-1, передовую модель для предсказания структуры биомолекул, разработанную с использованием современных методов машинного обучения, включая диффузионные модели и сверточные нейронные сети. Этот проект ориентирован на автоматизированное создание и анализ сложных молекулярных структур, что может быть полезно в биоинформатике и фармацевтических исследованиях. Программный код включает в себя инструменты для работы с различными молекулярными данными, такими как MSAs (multiple sequence alignments), атомные структуры, шаблоны и другие специфические биомолекулярные данные.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Позаботился о подарках для родных и близких?
Позаботься и о лучшем подарке для себя — новая работа ждёт тебя в Сбере!✨
Заходи на сайт rabota.sber.ru — здесь сбываются амбициозные проекты, классные коллеги и крутые возможности. 🔥
В Новый год — с новой работой в Сбере.💚

Читать полностью…

Анализ данных (Data analysis)

Современные технологии все глубже интегрируют машинное обучение, которое уже давно вышло за рамки простой обработки данных. Сегодня ИИ способен анализировать поведение пользователей, адаптироваться под их требования и помогать принимать взвешенные решения. Особенно заметно это в секторе электронной коммерции, где ИИ улучшает взаимодействие между покупателями и продавцами.

Команда Авито презентовала новую версию поиска, которую получилось усовершенствовать с помощью Avito Ranker 3 — собственной технологии ранжирования. ИИ изменил логику выдачи объявлений: время размещения больше не является ключевым фактором для поиска. Вместо этого система обращает внимание на более важные для покупателя параметры: качество описания и фото, цену и хороший уровень сервиса продавца.

Благодаря этому, число показов нерелевантных и некачественных объявлений снизилось вдвое, а пользователи стали на 17% чаще переходить из поиска прямо в карточки товаров. Кроме того, конверсия покупок возросла на 25%, что свидетельствует об эффективности новой системы.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💡 Qwen выпустил QvQ 72B OpenAI o1-мультимодальную модель с ризонингом с возможностями зрения 🔥

TLDR
🏆SoTA мультимодальный с открытым исходным кодом
🧠 Способность к пошаговому рассуждению
💪🏾 Конкурентный балл MMMU с o1, GPT-4o и Sonnet 3.5
🔥 Выигрывает у GPT-4o и Sonnet 3.5 на MathVista и MathVision

> pip install mlx-vlm

https://huggingface.co/collections/mlx-community/qvq-72b-preview-676b345a6f93172ba980c0d5

Читать полностью…

Анализ данных (Data analysis)

⚡️ Исследователи Microsoft выпустили лабораторию AIOpsLab: Комплексный ИИ-фреймворк с открытым исходным кодом для агентов AIOps

Исследователи Microsoft совместно с группой ученых из Калифорнийского университета в Беркли, Иллинойского университета в Урбане-Шампейне, Индийского научного института и колледжа Агнес Скотт разработали AIOpsLab - систему оценки, предназначенную для систематического проектирования, разработки и развития агентов AIOps.

Эта платформа с открытым исходным кодом охватывает весь жизненный цикл облачных операций - от обнаружения неисправностей до их устранения.

Предлагая модульную и адаптируемую платформу, AIOpsLab поддерживает исследователей и практиков в повышении надежности облачных систем и снижении зависимости в системах.

Фреймворк AIOpsLab включает в себя несколько ключевых компонентов.

Центральный модуль, обеспечивает взаимодействие между агентами и облачными средами, предоставляя описания задач, API-интерфейсы действий и обратную связь.

Генераторы отказов и рабочих нагрузок воспроизводят реальные условия для испытания тестируемых агентов.

Наблюдаемость, еще один краеугольный камень структуры, обеспечивает всесторонние телеметрические данные, такие как журналы, метрики и трассировки, для помощи в диагностике неисправностей.

$ git clone <CLONE_PATH_TO_THE_REPO>
$ cd AIOpsLab
$ pip install poetry
$ poetry install -vvv
$ poetry shell


Github
Запуск
Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive

Опубликован новый интересный анализ - сравнение реальных характеристик AMD MI300X и NVIDIA H100+H200 с практическими рекомендациями о том, как стек AMD ROCm может догнать CUDA от NVIDIA.

Производительность обучения, пользовательский опыт, удобство использования, Nvidia, AMD, GEMM, внимание, сетевые технологии, InfiniBand, Spectrum-X Ethernet, RoCEv2 Ethernet, SHARP, стоимость.

Отличное чтиво !

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌Топ Python-проектов для ML 2024 года.

Эти проекты были выбраны на основе их актуальности на 2024 год. Каждый из них - смесь практической полезности, новизны и, честно говоря, крутости, будь то смелый и инновационный подход, элегантное решение сложных проблем или просто умная реализация.

🟢BAML - предметно-ориентированный язык для работы с LLM.

BAML превращает текстовые промпты в многократно используемые функции LLM с типизированными переменными и обеспечивают конкретный тип выходных данных. BAML превосходит другие методы получения структурированных данных от LLM и поддерживает VS Code и Cursor.

🟢marimo - Python notebooks геймчейджер.

Новый подход к notebook, который превращает их в мощную, реактивную среду для создания удобных для совместного использования рабочих процессов. Marimo готов заменить Jupyter и Streamlit, устраняя проблемы скрытого состояния и ручного выполнения ячеек.

🟢OpenHands - мощный агент для разработки.

Безопасная изолированная среда, где AI-агенты могут выполнять код, взаимодействовать с веб-браузерами, управлять файлами, отлаживать проблемы, рефакторить код и даже сотрудничать с другими агентами. Среда включает в себя Docker-песочницу с доступом к bash-оболочке, веб-браузингом и IPython-сервером.

🟢Crawl4AI - интеллектуальный веб-скрапинг.

Библиотека, которая обрабатывает динамический контент, обходит механизмы защиты от ботов, извлекает структурированные данные и масштабирует задачи сбора массивов информации. Асинхронная архитектура дает высокую скорость работы даже со сложным JavaScript. На выходе - форматы JSON, markdown и очищенный HTML, готовые для импорта в LLM. Crawl4AI поддерживает Chromium, Firefox и WebKit через Playwright.

🟢LitServe - универсальный движок для развертывания моделей.

Детище LightningAI - мощный инструмент для развертывания моделей и сложных AI-конвейеров. Построен на базе FastAPI, поддерживает PyTorch, TensorFlow, JAX и работает с GenAI, СV, ASR и эмбедингами. LitServe умеет в KV-кэширование для LLM, и подходит как для легких приложений, так и для тяжелых корпоративных нагрузок.

🟢Mirascope - унифицированный интерфейс LLM.

Python-инструмент для упрощения извлечения структурированных данных из LLM. Он предлагает удобный интерфейс, основанный на декораторах и декларативных схемах. Mirascope поддерживает OpenAI, Anthropic и Cohere и имеет свой поисковый агент WebSearchAgent, который может автономно собирать информацию из интернета.

🟢Surya - OCR с высокой точностью.

OCR-система на 90 языках. Surya извлекает текст из сканированных изображений, PDF-файлов и других визуальных форматов с точностью, сравнимой с Google Cloud Vision. Помимо OCR, Surya проводит расширенный анализ документа, определяя заголовки, изображения, таблицы и порядок чтения, что идеально для оцифровки книг, форм и научных документов.

🟢DataChain - конвейер данных для ИИ.

Платформа для управления версиями мультимодальных наборов изображений, видео, текста и PDF-файлов. Библиотека преобразует разрозненные файлы в централизованные датасеты, которые легко запрашивать и манипулировать с помощью Python без использования Spark или SQL. DataChain поддерживает PyTorch, TensorFlow, AI-генерацию метаданных, сериализацию инференса LLM и выполнение пакетных процедур.

🟢Narwhals - универсальный слой совместимости для DataFrame-библиотек.

Легковесный слой, который объединяет pandas, Polars, PyArrow, Modin и cuDF в Python. Он позволяет писать код, не зависящий от используемого бэкенда, используя подмножество API Polars в качестве интерфейса. Поддерживает как eager, так и lazy execution стили, включая Dask. Narwhals не имеет зависимостей и обеспечивает статическую типизацию для автозавершения и подсказок в IDE.

🟢PydanticAI - фреймворк для разработки AI-приложений.

Фреймворк агентов, которые управляют взаимодействием с LLM и проверкой их инференса. Имеет систему внедрения зависимостей, позволяющую динамически получать контекстные данные. PydanticAI поддерживает пользовательские функции Python, вызываемые агентами для доступа к информации и выполнения вычислений.


@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

TikTok только что выложил в открытый доступ свой фреймворк для рекомендательных систем (Monolith) - и в нем используется Keras

Это означает, что почти все основные рекомендательные системы в индустрии построены на Keras - YouTube, TikTok, Spotify, Snap, X/Twitter и многие другие.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 MarS — движок для симуляции финансовых рынков, основанный на генеративной модели, называемой Large Market Model (LMM)!

🌟 Цель проекта — создание реалистичных, контролируемых сценариев торговли, которые могут моделировать рыночные ордера и их влияние. MarS позволяет исследовать законы масштабирования модели LMM в финансовых рынках и ее потенциал для реальных приложений, таких как создание рыночных моделей и генерация рыночных сценариев.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитические потоки и создание ИИ-конвейеров, включая работу с LLM и методами RAG!

🌟 Фреймворк предоставляет простой API на Python, который интегрируется с популярными ML-библиотеками и может использоваться для потоковой и пакетной обработки данных.

🔐 Лицензия: BSL-1.1

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 CPU vs GPU

Очень хорошее и интуитивно понятное объяснение CPU vs GPU

Источник

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хронология самых интересных ИИ релизов в 2024 году🔥

От Gemma до Llama 3.1 405B, от Sonnet 3.5 до o3 !

https://huggingface.co/spaces/reach-vb/2024-ai-timeline

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 3DTrajMaster — это инструмент, предназначенный для работы с трехмерными траекториями в контексте анализа и обработки данных движения объектов!

🌟 Данный проект предлагает инструменты для эффективной работы с данными, которые включают трехмерные координаты объектов, а также их визуализацию и анализ траекторий в 3D-пространстве.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 OpenCoconut — реализация парадигмы латентного рассуждения, известной как Chain of Continuous Thought (COCONUT)!

🌟 Основная идея заключается в генерации "мыслей" в латентном пространстве (состояниях модели) перед началом декодирования ответа. Этот подход использует скрытые состояния модели на этапе предварительной подготовки данных для повышения качества генерации.

🌟 Проект ориентирован на задачи, такие как математические вычисления, программирование и общий анализ данных, основываясь на синтетическом наборе данных. В будущем планируется улучшение функции потерь, добавление методов раннего завершения генерации и адаптивного переключения между латентным пространством и языковым. Это может повысить точность и гибкость моделей, работающих с последовательными задачами.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Введение в тензорные сети

📌 Урок5
📌 Урок 1 / Урок2 / Урок3 / Урок4
📌 Colab

Читать полностью…

Анализ данных (Data analysis)

🔥 identity-rag-customer-insights-chatbot — проект для создания чат-бота, который использует систему IdentityRAG для объединения и анализа данных о клиентах!

🌟 Система решает задачи по разрешению идентификации клиентов и предоставлению единой, и актуальной информации о клиентах из различных источников.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 InvSR — новый метод для улучшения качества изображений!

🔗 Ссылка: *клик*
🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 agent_tutorials — серия обучающих материалов по созданию и разработке искусственных агентов с использованием различных технологий, таких как LangGraph, CrewAI и AutoGen!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Эта статья объясняет концепцию машин Тьюринга, которая является основополагающей в теории вычислений и была предложена Аланом Тьюрингом в 1936 году!

🌟 В статье описывается, как работает машина Тьюринга, что она может и не может вычислять, а также как она связана с современными компьютерами.

🌟 Автор рассматривает механизмы работы машины Тьюринга, её элементы (лента, головка и состояние), а также обсуждает такие ограничения вычислений, как задача о остановке (Halting problem). Статья включает примеры программ для демонстрации возможностей машины Тьюринга и предоставляет интерактивную среду для экспериментов с программами, работающими на этой модели.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 QuantResearch — репозиторий, который содержит материалы, связанные с количественным анализом, стратегиями и тированием гипотез в области финансов!

🌟 Проект включает разнообразные методы, такие как машинное обучение, глубокое обучение, алгоритмическая торговля и оценка рисков.

В нем представлены примеры кода для портфельной оптимизации, алгоритмической торговли , использования машинного обучения и разработки торговых стратегий.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 Mlxtend (machine learning extensions) — это библиотека Python, предоставляющая полезные инструменты для анализа данных и задач машинного обучения!

🌟 Она включает модули для обработки данных, визуализации, построения моделей, кросс-валидации и других аспектов, упрощая выполнение повседневных задач в сфере Data Science.

🌟 Библиотека предназначена для расширения возможностей популярных инструментов, таких как scikit-learn, pandas и NumPy. Она содержит функции для построения ансамблей моделей, работы с наборами данных, выполнения статистического анализа и визуализации результатов.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Сводка бенчмарков o3 OpenAI !

SWE-Bench: 71.7%
Codeforces: 2727
Competition Math: 96.7%
PhD level science (GPQA): 87,7%
Frontier Math: 25.2% (previous best was 2%)
ARC-AGI: 87.5%
🤯

Читать полностью…

Анализ данных (Data analysis)

🔈 Звук на этом видео на 100% сгенерирован с помощью MMAudio!

@data_analysis_ml

Читать полностью…
Subscribe to a channel