Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted - каталог телеграмм

data_analysis_ml | Unsorted

Subscribe to a channel

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

11 June 2024 19:22

⚡️ MLJ — фреймворк Julia для машинного обучения

— using MLJ

MLJ предоставляет реализацию разных ML-алгоритмов и полезные инструменты для настройки, оценивания и сравнения около 200 моделей, написанных на Julia и других языках.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

11 June 2024 14:18

🎨 pypalettes

Поиск идеальных цветов для вашей диаграммы на Python может оказаться непростой задачей. Выбор цветов вручную часто приводит к перебору множества неподходящих вариантов.

Pypalette - новый пакет предоставляет коллекцию цветов из более чем 2500 палитр, тщательно отобранных сотнями экспертов.

Это приложение позволяет вам без особых усилий изучать различные палитры и выбирать лучшие ваорианты.

Импортируется всего в две строки кода, работает с диаграммами Matplotlib.

Найдите для себя подходящую цветовую палитру, которая выделит вашу диаграмму на общем фоне! 😍

pip install git+https://github.com/JosephBARBIERDARNAL/pypalettes.git

▪Github
▪Проект

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

10 June 2024 19:04

🌟 gsplat — open-source библиотека для ускорения растеризации Gaussian Splatting при помощи CUDA

— pip install gsplat

gsplat позволяет очень быстро растеризовать гауссианы на CUDA. Библиотека вдохновлена докладом на SIGGRAPH «3D Gaussian Splatting for Real-Time Rendering of Radiance Fields»

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

10 June 2024 10:14

🔹 Какие цифровые изменения нужны для развития продуктов компании?

Расскажем на открытом уроке «Какие изменения претерпевает компания в связи с цифровой трансформацией?» в Otus

Разберем роль продуктового подхода и его составляющих, новые роли процессов и структур.

Урок подойдет собственникам бизнеса, руководителям по цифровой трансформации, руководителям направлений и проектов

Занятие приурочено к старту курса «Цифровизация и трансформация бизнеса»

👉 Регистрация:
https://clck.ru/3B7kBx?erid=LjN8K2M7x

Читать полностью…

Анализ данных (Data analysis)

09 June 2024 12:03

⚡️ Ratchet — кроссплатформенный ML-фреймворк от Hugging Face

Ratchet — это веб-фреймворк для вывода результатов машинного обучения.
Работает на базе WebGPU, так что он может работать на чём угодно, в том числе и на мобильных устройствах.
Ratchet заточен под скорость и простоту использования.

Использование в JavaScript выглядит наподобие:

// Asynchronous loading & caching with IndexedDB
let model = await Model.load(AvailableModels.WHISPER_TINY, Quantization.Q8, (p: number) => setProgress(p))
let result = await model.run({ input });

🖥 GitHub
🟡 Доки
🟡 Затестить Whisper + Ratchet на HF

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

07 June 2024 15:04

📌Большая дорожная карта от William Brown: как и что изучать для развития в сфере генеративных нейросетей и AI

Здесь собраны тонны полезных ссылок по каждому из разделов, некоторые из этих ссылок уже постились в канале, скажем, ссылки на нереально полезные туториалы от Lilian Weng.
Вот основные разделы, которые покрывает этот roadmap:
— анализ временных рядов, марковские модели
— рекуррентные нейронные сети, LSTM и GRU,
— работа с языком: токенизация и т.д.
— методы файнтюнинга для LLM
— оценивание LLM и бенчмарки
— оптимизация LLM: квантование
— масштабирование контекста
— GAN, диффузионные модели
— мультимодальные модели

🟡 Roadmap

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 June 2024 19:06

🔥 Torch-TensorRT — компилятор PyTorch / TorchScript / FX для GPU от NVIDIA с использованием TensorRT

— python -m pip install torch torch-tensorrt tensorrt

В отличие от JIT-компилятора PyTorch, Torch-TensorRT является компилятором Ahead-of-Time (AOT) — значит перед развертыванием кода TorchScript выполняется явная компиляция для преобразования стандартной программы TorchScript или FX. Torch-TensorRT работает как расширение PyTorch; после компиляции использование оптимизированного графа не должно отличаться от запуска модуля TorchScript.

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 June 2024 10:01

Этот пост написан человеческим интеллектом специально для тех, кто хочет разрабатывать искусственный 🧠

А ещё — создавать крутые цифровые продукты, которыми пользуются миллионы людей, придумывать и реализовывать самые смелые идеи и работать в команде (таких же устремлённых в будущее) единомышленников.

Если ты ищешь IT-вакансию мечты — заходи на rabota.sber.ru 💻

Читать полностью…

Анализ данных (Data analysis)

05 June 2024 18:04

Хотите попробовать себя в роли аналитика и попрактиковаться на реальных задачах?

Приходите на бесплатный курс-симулятор Нетологии и Yandex Cloud «Основы анализа данных в SQL, Python, Power BI, DataLens».

В этой профессии много разных направлений — аналитик данных, BI-аналитик, продуктовый аналитик, Data Scientist. Но везде пригодится навык работы с инструментами-помощниками, которые вы и освоите на курсе.

Эксперты-практики расскажут, как делать простые отчёты, исследовать данные и строить интерактивные дашборды. А чтобы понять, что анализ данных — это точно ваше, вместе решите практические задачи из реальных кейсов.

Воспользуйтесь шансом попробовать новые инструменты и запишитесь на бесплатный курс Нетологии.

Регистрация: https://netolo.gy/dbfH
Реклама ООО "Нетология" 2VSb5wX1fTe

Читать полностью…

Анализ данных (Data analysis)

05 June 2024 10:22

😰Как руководителю в IT наладить эффективную работу с командой?

➡️Узнайте на открытом практическом уроке от OTUS, где мы разберем:
- критерии эффективности команды;
- формирование требований к новым сотрудникам;
- планирование команды и найма;
- принципы онбординга и 1:1 новых сотрудников.

Вебинар будет полезен начинающим тимлидам в аналитике и смежных областях, а также Middle и Senior-специалистам, стремящимся усилить лидерские скиллы.

Спикер Кристина Костина — опытный аналитик, тимлид команд в Бразилии и России (Uber Eats и Яндекс Еда), ментор и карьерный консультант.

🔜Встречаемся 6 июня в 20:00 мск в преддверии старта курса «Системный аналитик. Team Lead». Все участники вебинара получат специальную цену на обучение!

Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://otus.pw/itaL/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KPEKs

Читать полностью…

Анализ данных (Data analysis)

04 June 2024 13:17

⭐️ Сравниваем DBSCAN и OPTICS

Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!

https://habr.com/ru/articles/818889/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

03 June 2024 13:22

⚡️ ЛУЧШИЕ БЕСПЛАТНЫЕ Курсы и Книги для изучения МАШИННОГО ОБУЧЕНИЯ.

https://www.youtube.com/watch?v=j0BrMPgrCuo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 June 2024 11:52

⚡️ Распознавание объектов с faster-coco-eval. Разбираемся с библиотекой компьютерного зрения.

https://www.youtube.com/watch?v=5bVG2thY2tA

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

31 May 2024 21:41

🌟 Apache TVM — компиляция ML-моделей для любых аппаратных характеристик

Apache TVM — это фреймворк компилятора ML-приложений с открытым исходным кодом для CPU, GPU и не только.
Цель Apache TVM — дать ML-инженерам возможность оптимизировать и эффективно выполнять вычисления на любом железе.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

31 May 2024 12:17

🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML

— pip install txtai

Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

11 June 2024 17:18

Приглашаем на вебинар: Разбираемся с продуктовыми метриками с нуля 🔥

Основа любой аналитики - продуктовые метрики. Если аналитик их не знает, нет смысла учить Python, SQL, математику и прочее. Это база.

Поэтому мы решили провести вебинар, где подробно разберем все основные продуктовые метрики, их классификацию, способы расчеты и примеры из разных бизнесов: от торговли до банкинга.

📅 Дата: 13 июня, четверг
🕘 Время: 19:00 по Мск

🔗 Доступ к трансляции придет в бота, записывайтесь → ссылка

Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡

Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134.
Erid:LjN8K4SCJ

Читать полностью…

Анализ данных (Data analysis)

11 June 2024 12:38

⚡️ Cog — open-source инструмент, позволяющий упаковывать ML-модели в стандартный, готовый к производству контейнер

— brew install cog

Одно дело — обучить ML-модель и поиграться в тестовой среде, совсем другое дело — довести модель до продакшена.
Обычно это решается с помощью Docker, но заставить его работать сложно: Docker-файлы, пред-/постобработка, серверы Flask, версии CUDA.
С Cog развернуть модель становится гораздо проще.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

10 June 2024 11:17

🖥 AIMET — библиотека Python, которая предоставляет продвинутые методы квантования и сжатия обученных нейросетевых моделей

apt-get install liblapacke
python3 -m pip install aimet-torch

При помощи квантования AIMET помогает снизить требования к вычислительным ресурсам и памяти, при этом минимально влияя на точность работы модели.

🖥 GitHub
🟡 Доки и юзкейсы

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

10 June 2024 09:44

⚡️ 4х-часовой Мастер-класс по созданию GPT-2 с нуля от Андрея Карпаты

Соучредитель OpenAI Андрей Карпаты выпустил подробную 4-часовую лекцию по созданию модели GPT-2 на Python с нуля.

Он разъясняет каждый шаг, начиная с создания пустого файла, при этом подробно описывая архитектуру и оптимизацию.

- сначала создаем GPT-2
- затем мы оптимизируем ее для очень быстрого обучения
- затем мы настраиваем оптимизацию процесса обучения и гиперпараметров, ссылаясь на материалы статьи GPT-2 и GPT-3
- затем мы проводим оценку модели.

* Смотреть
* Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

08 June 2024 18:03

🌟 Firecrawl — open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://mendable.ai"
    }'

# { "jobId": "1234-5678-9101" }

🖥 GitHub
🟡 Инструкция по запуску локально

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

07 June 2024 10:00

⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.

5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
✅ Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

06 June 2024 12:02

📌Подборка ноутбуков по Data Science, чтобы освежить самое важное

В этих ноутбуках очень пошагово и наглядно объясняются важнейшие темы Data Science, такие как:
— байесовская статистика
одномерная и двумерная статистика
— доверительные интервалы и проверка гипотез
— метод Монте-Карло
— анализ главных компонент и кластерный анализ
— ML, метрики, параметры модели и настройка гиперпараметров
— очистка и предобработка данных

📎 Jupyter Notebook'и

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 June 2024 20:04

💻 StarRocks — высокопроизводительная БД для аналитики

StarRocks, проект Linux Foundation, — это база данных MPP OLAP нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и не только.

Быстрый старт с помощью Docker:


docker run -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd \
--name quickstart starrocks/allin1-ubuntu

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 June 2024 11:32

⚡️ pipecat — open-source фреймворк для голосовых и мультимодальных AI-агентов

— pip install pipecat-ai

pipecat — это фреймворк для создания голосовых (и мультимодальных) разговорных AI-агентов.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

04 June 2024 16:03

🌟 ONNX Runtime — кроссплатформенный ускоритель ML-моделей с гибким интерфейсом для интеграции необходимых библиотек

— pip install onnxruntime

ONNX Runtime может использоваться с моделями из PyTorch, Tensorflow/Keras, TFLite, scikit-learn и других фреймворков.

Особенности ONNX Runtime:

— позволяет интегрировать возможности AI и LLM в свои приложения, независимо от того, на каком языке они написаны и для какой платформы. ONNX Runtime поддерживает ЯП, работает в Linux, Windows, Mac, iOS, Android и в веб-браузерах.

— ONNX Runtime поддерживает CPU, GPU, NPU, оптимизирует работу ускорителей, их пропускную способность и т.д.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

03 June 2024 18:04

🔥 frigate — open-source NVR с функцией распознавания объектов в реальном времени на видео с IP-камер

frigate может распознавать объекты на видео с камер в реальном времени с помощью OpenCV и Tensorflow.
Для дополнительного ускорения опционально задействует Google Coral Accelerator.
Coral даёт очень солидную скорость работы — до 100+ кадров в секунду с небольшими накладными расходами.

🖥 GitHub
🟡 Инструкция по установке и доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 June 2024 13:03

🌟 NannyML — библиотека для оценивания производительности ML-моделей

— pip install nannyml

NannyML — это open-source библиотека Python, которая позволяет оценивать производительность модели после развертывания, обнаруживать дрейф данных и не только.
NannyML имеет простой в использовании интерфейс, отображает интерактивные графики, абсолютно не зависит от модели и поддерживает все базовые сценарии использования, такие как анализ моделей классификации и регрессии.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

01 June 2024 11:54

💥 Ускорьте работу ваших моделей Трансформеров с
помощью значительно улучшенной библиотеки cuDNN 9 от nvidia, поддерживающей технологию Scaled Dot Product Attention (SDPA)

✨ cuDNN 9 BF16 работает в 2 раза быстрее, чем лучшая из доступных реализаций PyTorch BF16, а так же быстрее cuDNN FP8 в 3 раза.

Более высокая производительность позволяет увеличить длину последовательности и сократить время предварительной подготовки и файнтюнинга моделей.

https://developer.nvidia.com/blog/accelerating-transformers-with-nvidia-cudnn-9/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

31 May 2024 19:29

⚡️ Три статьи, которые победили в конкурсе Технотекст от Хабра в номинации ML

➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять

Игорь Котенков (Open Data Science) с разбором работы ChatGPT.
Виктор Юрченко (Яндекс) о планировании движения беспилотных автомобилей с помощью нейросетей.
Мурат Апишев о методах позиционного кодирования в Transformer.

📎 Первая
📎 Вторая
📎 Третья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

30 May 2024 19:05

⚡️ Введение в моделирование на языке зрения — мощная статья от Meta о работе VLM, о том, как их обучать и оценивать

Модели Vision-Language (VLM) — это область исследований, которая обладает большим потенциалом, однако существует множество проблем, связанных с построением моделей такого типа.
Именно поэтому ребята из Meta опубликовали эту статью — чтобы у большего числа людей сформировалось понимание специфики работы с VLMs, понимание, как они работают и как их обучать.
В статье в основном обсуждается работа с изображениями, но также затрагивается возможность расширения этих методов на видео.

📎 Arxiv

@data_analysis_ml

Читать полностью…

Subscribe to a channel