data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

⚡️ MLJ — фреймворк Julia для машинного обучения

using MLJ

MLJ предоставляет реализацию разных ML-алгоритмов и полезные инструменты для настройки, оценивания и сравнения около 200 моделей, написанных на Julia и других языках.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎨 pypalettes

Поиск идеальных цветов для вашей диаграммы на Python может оказаться непростой задачей. Выбор цветов вручную часто приводит к перебору множества неподходящих вариантов.

Pypalette - новый пакет предоставляет коллекцию цветов из более чем 2500 палитр, тщательно отобранных сотнями экспертов.

Это приложение позволяет вам без особых усилий изучать различные палитры и выбирать лучшие ваорианты.

Импортируется всего в две строки кода, работает с диаграммами Matplotlib.

Найдите для себя подходящую цветовую палитру, которая выделит вашу диаграмму на общем фоне! 😍

pip install git+https://github.com/JosephBARBIERDARNAL/pypalettes.git

Github
Проект

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 gsplat — open-source библиотека для ускорения растеризации Gaussian Splatting при помощи CUDA

pip install gsplat

gsplat позволяет очень быстро растеризовать гауссианы на CUDA. Библиотека вдохновлена докладом на SIGGRAPH «3D Gaussian Splatting for Real-Time Rendering of Radiance Fields»

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔹 Какие цифровые изменения нужны для развития продуктов компании?

Расскажем на открытом уроке «Какие изменения претерпевает компания в связи с цифровой трансформацией?» в Otus

Разберем роль продуктового подхода и его составляющих, новые роли процессов и структур.

Урок подойдет собственникам бизнеса, руководителям по цифровой трансформации, руководителям направлений и проектов

Занятие приурочено к старту курса «Цифровизация и трансформация бизнеса»

👉 Регистрация:
https://clck.ru/3B7kBx?erid=LjN8K2M7x

Читать полностью…

Анализ данных (Data analysis)

⚡️ Ratchet — кроссплатформенный ML-фреймворк от Hugging Face

Ratchet — это веб-фреймворк для вывода результатов машинного обучения.
Работает на базе WebGPU, так что он может работать на чём угодно, в том числе и на мобильных устройствах.
Ratchet заточен под скорость и простоту использования.

Использование в JavaScript выглядит наподобие:

// Asynchronous loading & caching with IndexedDB
let model = await Model.load(AvailableModels.WHISPER_TINY, Quantization.Q8, (p: number) => setProgress(p))
let result = await model.run({ input });


🖥 GitHub
🟡 Доки
🟡 Затестить Whisper + Ratchet на HF

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌Большая дорожная карта от William Brown: как и что изучать для развития в сфере генеративных нейросетей и AI

Здесь собраны тонны полезных ссылок по каждому из разделов, некоторые из этих ссылок уже постились в канале, скажем, ссылки на нереально полезные туториалы от Lilian Weng.
Вот основные разделы, которые покрывает этот roadmap:
— анализ временных рядов, марковские модели
— рекуррентные нейронные сети, LSTM и GRU,
— работа с языком: токенизация и т.д.
— методы файнтюнинга для LLM
— оценивание LLM и бенчмарки
— оптимизация LLM: квантование
— масштабирование контекста
— GAN, диффузионные модели
— мультимодальные модели

🟡 Roadmap

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Torch-TensorRT — компилятор PyTorch / TorchScript / FX для GPU от NVIDIA с использованием TensorRT

python -m pip install torch torch-tensorrt tensorrt

В отличие от JIT-компилятора PyTorch, Torch-TensorRT является компилятором Ahead-of-Time (AOT) — значит перед развертыванием кода TorchScript выполняется явная компиляция для преобразования стандартной программы TorchScript или FX. Torch-TensorRT работает как расширение PyTorch; после компиляции использование оптимизированного графа не должно отличаться от запуска модуля TorchScript.

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Этот пост написан человеческим интеллектом специально для тех, кто хочет разрабатывать искусственный 🧠

А ещё — создавать крутые цифровые продукты, которыми пользуются миллионы людей, придумывать и реализовывать самые смелые идеи и работать в команде (таких же устремлённых в будущее) единомышленников.

Если ты ищешь IT-вакансию мечты — заходи на rabota.sber.ru 💻

Читать полностью…

Анализ данных (Data analysis)

Хотите попробовать себя в роли аналитика и попрактиковаться на реальных задачах?

Приходите на бесплатный курс-симулятор Нетологии и Yandex Cloud «Основы анализа данных в SQL, Python, Power BI, DataLens».

В этой профессии много разных направлений — аналитик данных, BI-аналитик, продуктовый аналитик, Data Scientist. Но везде пригодится навык работы с инструментами-помощниками, которые вы и освоите на курсе.

Эксперты-практики расскажут, как делать простые отчёты, исследовать данные и строить интерактивные дашборды. А чтобы понять, что анализ данных — это точно ваше, вместе решите практические задачи из реальных кейсов.

Воспользуйтесь шансом попробовать новые инструменты и запишитесь на бесплатный курс Нетологии.

Регистрация: https://netolo.gy/dbfH
Реклама ООО "Нетология" 2VSb5wX1fTe

Читать полностью…

Анализ данных (Data analysis)

😰Как руководителю в IT наладить эффективную работу с командой?

➡️Узнайте на открытом практическом уроке от OTUS, где мы разберем: 
- критерии эффективности команды;
- формирование требований к новым сотрудникам;
- планирование команды и найма;
- принципы онбординга и 1:1 новых сотрудников.

Вебинар будет полезен начинающим тимлидам в аналитике и смежных областях, а также Middle и Senior-специалистам, стремящимся усилить лидерские скиллы.

Спикер Кристина Костина — опытный аналитик, тимлид команд в Бразилии и России (Uber Eats и Яндекс Еда), ментор и карьерный консультант. 

🔜Встречаемся 6 июня в 20:00 мск в преддверии старта курса «Системный аналитик. Team Lead». Все участники вебинара получат специальную цену на обучение! 

Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://otus.pw/itaL/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KPEKs

Читать полностью…

Анализ данных (Data analysis)

⭐️ Сравниваем DBSCAN и OPTICS

Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!

https://habr.com/ru/articles/818889/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ ЛУЧШИЕ БЕСПЛАТНЫЕ Курсы и Книги для изучения МАШИННОГО ОБУЧЕНИЯ.

https://www.youtube.com/watch?v=j0BrMPgrCuo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Распознавание объектов с faster-coco-eval. Разбираемся с библиотекой компьютерного зрения.

https://www.youtube.com/watch?v=5bVG2thY2tA

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Apache TVM — компиляция ML-моделей для любых аппаратных характеристик

Apache TVM — это фреймворк компилятора ML-приложений с открытым исходным кодом для CPU, GPU и не только.
Цель Apache TVM — дать ML-инженерам возможность оптимизировать и эффективно выполнять вычисления на любом железе.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML

pip install txtai

Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Приглашаем на вебинар: Разбираемся с продуктовыми метриками с нуля 🔥

Основа любой аналитики - продуктовые метрики. Если аналитик их не знает, нет смысла учить Python, SQL, математику и прочее. Это база.

Поэтому мы решили провести вебинар, где подробно разберем все основные продуктовые метрики, их классификацию, способы расчеты и примеры из разных бизнесов: от торговли до банкинга.

📅 Дата: 13 июня, четверг
🕘 Время: 19:00 по Мск

🔗 Доступ к трансляции придет в бота, записывайтесь → ссылка

Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡


Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134.
Erid:LjN8K4SCJ

Читать полностью…

Анализ данных (Data analysis)

⚡️ Cog — open-source инструмент, позволяющий упаковывать ML-модели в стандартный, готовый к производству контейнер

brew install cog

Одно дело — обучить ML-модель и поиграться в тестовой среде, совсем другое дело — довести модель до продакшена.
Обычно это решается с помощью Docker, но заставить его работать сложно: Docker-файлы, пред-/постобработка, серверы Flask, версии CUDA.
С Cog развернуть модель становится гораздо проще.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 AIMET — библиотека Python, которая предоставляет продвинутые методы квантования и сжатия обученных нейросетевых моделей

apt-get install liblapacke
python3 -m pip install aimet-torch


При помощи квантования AIMET помогает снизить требования к вычислительным ресурсам и памяти, при этом минимально влияя на точность работы модели.

🖥 GitHub
🟡 Доки и юзкейсы

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ 4х-часовой Мастер-класс по созданию GPT-2 с нуля от Андрея Карпаты

Соучредитель OpenAI Андрей Карпаты выпустил подробную 4-часовую лекцию по созданию модели GPT-2 на Python с нуля.

Он разъясняет каждый шаг, начиная с создания пустого файла, при этом подробно описывая архитектуру и оптимизацию.

- сначала создаем GPT-2
- затем мы оптимизируем ее для очень быстрого обучения
- затем мы настраиваем оптимизацию процесса обучения и гиперпараметров, ссылаясь на материалы статьи GPT-2 и GPT-3
- затем мы проводим оценку модели.

* Смотреть
* Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Firecrawl — open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://mendable.ai"
}'

# { "jobId": "1234-5678-9101" }


🖥 GitHub
🟡 Инструкция по запуску локально

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.


5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
✅ Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

📌Подборка ноутбуков по Data Science, чтобы освежить самое важное

В этих ноутбуках очень пошагово и наглядно объясняются важнейшие темы Data Science, такие как:
— байесовская статистика
одномерная и двумерная статистика
— доверительные интервалы и проверка гипотез
— метод Монте-Карло
— анализ главных компонент и кластерный анализ
— ML, метрики, параметры модели и настройка гиперпараметров
— очистка и предобработка данных

📎 Jupyter Notebook'и

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 StarRocks — высокопроизводительная БД для аналитики

StarRocks, проект Linux Foundation, — это база данных MPP OLAP нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и не только.

Быстрый старт с помощью Docker:


docker run -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd \
--name quickstart starrocks/allin1-ubuntu


🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ pipecat — open-source фреймворк для голосовых и мультимодальных AI-агентов

pip install pipecat-ai

pipecat — это фреймворк для создания голосовых (и мультимодальных) разговорных AI-агентов.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 ONNX Runtime — кроссплатформенный ускоритель ML-моделей с гибким интерфейсом для интеграции необходимых библиотек

pip install onnxruntime

ONNX Runtime может использоваться с моделями из PyTorch, Tensorflow/Keras, TFLite, scikit-learn и других фреймворков.

Особенности ONNX Runtime:

— позволяет интегрировать возможности AI и LLM в свои приложения, независимо от того, на каком языке они написаны и для какой платформы. ONNX Runtime поддерживает ЯП, работает в Linux, Windows, Mac, iOS, Android и в веб-браузерах.

— ONNX Runtime поддерживает CPU, GPU, NPU, оптимизирует работу ускорителей, их пропускную способность и т.д.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 frigate — open-source NVR с функцией распознавания объектов в реальном времени на видео с IP-камер

frigate может распознавать объекты на видео с камер в реальном времени с помощью OpenCV и Tensorflow.
Для дополнительного ускорения опционально задействует Google Coral Accelerator.
Coral даёт очень солидную скорость работы — до 100+ кадров в секунду с небольшими накладными расходами.

🖥 GitHub
🟡 Инструкция по установке и доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 NannyML — библиотека для оценивания производительности ML-моделей

pip install nannyml

NannyML — это open-source библиотека Python, которая позволяет оценивать производительность модели после развертывания, обнаруживать дрейф данных и не только.
NannyML имеет простой в использовании интерфейс, отображает интерактивные графики, абсолютно не зависит от модели и поддерживает все базовые сценарии использования, такие как анализ моделей классификации и регрессии.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💥 Ускорьте работу ваших моделей Трансформеров с
помощью значительно улучшенной библиотеки cuDNN 9 от nvidia, поддерживающей технологию Scaled Dot Product Attention (SDPA)


✨ cuDNN 9 BF16 работает в 2 раза быстрее, чем лучшая из доступных реализаций PyTorch BF16, а так же быстрее cuDNN FP8 в 3 раза.

Более высокая производительность позволяет увеличить длину последовательности и сократить время предварительной подготовки и файнтюнинга моделей.

https://developer.nvidia.com/blog/accelerating-transformers-with-nvidia-cudnn-9/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Три статьи, которые победили в конкурсе Технотекст от Хабра в номинации ML

➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять

Игорь Котенков (Open Data Science) с разбором работы ChatGPT.
Виктор Юрченко (Яндекс) о планировании движения беспилотных автомобилей с помощью нейросетей.
Мурат Апишев о методах позиционного кодирования в Transformer.

📎 Первая
📎 Вторая
📎 Третья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Введение в моделирование на языке зрения — мощная статья от Meta о работе VLM, о том, как их обучать и оценивать

Модели Vision-Language (VLM) — это область исследований, которая обладает большим потенциалом, однако существует множество проблем, связанных с построением моделей такого типа.
Именно поэтому ребята из Meta опубликовали эту статью — чтобы у большего числа людей сформировалось понимание специфики работы с VLMs, понимание, как они работают и как их обучать.
В статье в основном обсуждается работа с изображениями, но также затрагивается возможность расширения этих методов на видео.

📎 Arxiv

@data_analysis_ml

Читать полностью…
Subscribe to a channel