data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

⚡️ Вышел LiteLlama

Подобие LLaMa 2, однако с существенно меньшим размером модели, LiteLlama-460M-1T имеет 460M параметров, обученных на 1T токенах.

https://huggingface.co/ahxt/LiteLlama-460M-1T

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ mergekit - это инструмент для слияния предварительно обученных языковых моделей.

Может выполняться полностью на CPU или ускоряться с помощью всего 8 ГБ VRAM.

Проект поддерживает множество алгоритмов.

Github
Colab

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 Изучайте Математику для Data Science бесплатно с помощью этих бесплатных курсов с Udacity

1. Linear Algebra Refresher Course
2. Intro to Statistics
3. Intro to Inferential Statistics
4. Intro to Descriptive Statistics
5. Eigenvectors and Eigenvalues
6. Intro to Artificial Intelligence
7. Differential Equations in Action

📌 Список

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚕 Как Uber вычисляет время прибытия со скоростью полмиллиона запросов в секунду

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Facets

Проект Facets предоставляет инструменты визуализации для понимания и анализа наборов данных машинного обучения: Facets Overview и Facets Dive.

Визуализации реализованы в виде веб-компонентов Polymer и могут быть легко встроены в блокноты Jupyter или веб-страницы.

Прмеры визуализаций можно найти на странице описания проекта Facets: pair-code.github.io/facets/

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 Создайте ИИ-клон из своих чатов вWhatsApp

Этот репозиторий поможет вам создать чатбота с ИИ, используя ваши чаты WhatsApp в качестве обучающих данных.

По умолчанию используется модель Mistral-7B-Instruct-v0.2.

Код в этом репозитории в значительной степени опирается на llama-recipes (https://github.com/facebookresearch/llama-recipes), где вы можете найти больше примеров того, что можно делать с моделями llama.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
100 вопросов для подготовки к собесу Data Science
Сколько ядер CPU можно использовать параллельно в Python?
Вот так я изучаю ML
PLC Allen Bradley подключение с помощью Python
Ortools — библиотека для решения задачи VRP
4 миллиарда операторов if
Python без типов: таким он когда-то был
Вы точно хотите быть Data Scientist-ом?
Введение в SQL & СУБД на примере доступа к данным через Python
Plotting and Data Visualization with Matplotlib
Applications of Data Science
Semantic Search Over Satellite Images Using Qdrant
Introduction to Data Science
A Comprehensive Guide: How Deepchecks Evaluate the Large Language Model
Appreciating the "Learning Problem" - Why AI will never replace your job
Best JavaScript Chart Libraries 2024: Finding the Right Fit for Your JS Applications
NumPy Arrays: An Introduction
Hungarian GP 2022 Qualifying, and see what we can
I built Hippotable for in-browser data analysis
Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год

Посмотреть:
🌐 100 вопросов с собеседований Data Science — часть 1 (⏱ 36:48)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 00:40)
🌐 💡задача #Python: Бинарный поиск #python #программирование #код #yotube #питон #собеседование (⏱ 00:41)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 01:00)
🌐 Evaluating Recommendation Algorithms at Delivery Hero - Manchit Madan (⏱ 23:01)
🌐 ODSC Webinar | Open source Data Lake Management, Curation, Governance for New & Growing Companies (⏱ 46:07)
🌐 Stable Diffusion AI: 100 Cats Per Second…For Free! (⏱ 08:21)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Window ops

Эта библиотека для анализа данных, которая содержит функции альтернативы pd.Series.rolling и pd.Series.expanding,которые позволяют получить ускорение за счет использования оптимизированных под numba функций, работающих с массивами numpy.

pip install window-ops

Github
Документация

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Ruptures

Пакет предоставляет методы для анализа и сегментации нестационарных сигналов. Алгоритмы включают точное и приближенное обнаружение для различных параметрических и непараметрических моделей.

С помощью точек изменения можно обнаружить аномалии или отклонения от ожидаемого поведения в данных и получить представление о том, когда происходят эти переходы.

Github
Документация

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 По сравнению с pandas, Polars предоставляет более продвинутый синтаксис для создания сложных пайплайнов преобразования данных.

Каждая функция в Polars генерирует новую функцию, и эти функции можно объединять в конвейер.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

SQL: комплексный анализ оттока клиентов

Постановка задачи
В конкурентной телекоммуникационной сфере восприятие компании в целом формируется критической оценкой ее услуг клиентами. Сбои в работе чреваты ростом обеспокоенности, поэтому так важен анализ оттока.

Уровнем оттока характеризуется потеря клиентов, а это сказывается на доходах.

На выводы анализа опираются при разработке стратегий, сегментном таргетировании, совершенствовании обслуживания для роста доверия и удовлетворенности клиентов.

Что такое «отток клиентов»?
Отток, или оборот клиентов, называемый также оттоком покупателей, — это явление, при котором клиенты или подписчики прекращают сотрудничать с компанией или пользоваться ее продуктами/услугами. Оно случается, когда привлеченные ее деятельностью или предложениями клиенты решают отказаться от дальнейших отношений или покупок.

Возможные причины: предложения конкурентов, цена, неудовлетворенность продуктом или услугой, недостаточная их ценность в глазах покупателя, личные обстоятельства.

Очистка данных
Определение общего количества клиентов

SELECT DISTINCT COUNT(CUSTOMER_ID) AS TOTALCUSTOMERS FROM CHURNDATA;

То есть выбираем из churndata отдельный счетчик count(customer_id) по общему числу клиентов TotalCustomers:

📌Продолжение

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
100 вопросов для подготовки к собесу Python
Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1
— Полный отчет Github за 2023 о состоянии проектов.
9 вопросов для собеседования по SQL в Apple
Геометрия и навигация
Разметка данных в 2023 году: текущие тренды и требования будущего
fsspec и вообще зачем оно нам нужно
Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути
Расчетная архитектура платформы для A/B-тестов Mail.Ru
Automate the boring stuff with Julia
Трёхканальный ИИ
Decoding a Data Model: Using SchemaSpy in Snowflake ❄️
Quickly create a personalized data dashboard for your boss.
What Is Data Analysis and How Can You Get Started?
Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform
Microsoft PHI-2 + Huggine Face + Langchain = Super Tiny Chatbot
How to rank Fungible Tokens in the TON blockchain by transactions
A good resource on Algorithms!
High-level overview of AWS Glue
What is the population of that region?
Streamlined Data Processing: A Guide to Cost-Effective ELT Implementation

Посмотреть:
🌐 Mixtral 8x7B - новый ИИ. Нейросети, которые ДОМИНИРУЮТ на другими моделями (⏱ 08:04)
🌐 100 вопросов с собеседований Python. Полный разбор реальных вопросов. (⏱ 34:27)
🌐 💡Задача #Python:Комбинация сумм II #python #программирование #код #yotube #youtube #пито (⏱ 00:54)
🌐 💡Крутая задача #Python: #python #программирование #код #yotube #youtube #питон (⏱ 00:49)
🌐 ODSC Webinar | Preparing for your First Enterprise Large Language Model (LLM) Application (⏱ 48:16)
🌐 Adversarial Validation and Training in Stock Market Price Prediction (⏱ 28:09)
🌐 NVIDIA’s New AI Is 20x Faster…But How? (⏱ 08:16)
🌐 Here’s How ChatGPT is Changing The World! (⏱ 08:33)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 csvs-to-sqlite

Чтобы преобразовать файлы CSV в базу данных SQLite для эффективной работы с данными и их хранения, попробуйте csvs-to-sqlite.

https://github.com/simonw/csvs-to-sqlite

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥🐍 mamba-minimal

Простая реализация архитектуры Mamba в одном файле PyTorch.

Mamba - это усовершенствованная модель пространства состояний (SSM), предназначенная для эффективной работы со сложными последовательностями, требующими большого количества данных: Linear-Time Sequence Modeling with Selective State Spaces", разработанной ведущими исследователями Альбертом Гу и Три Дао.

🖥 Github

📖 Paper

🎞 Мамба - замена трансформерам?

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Ранний релиз: Skrub - новый инструмент для подготовки данных.

▪Подготовка таблиц для машинного обучения
▪Создан для работы со scikit-learn, Python
▪Устойчив к зашумленным данным
▪Работает с фреймами данных pandas

pip install skrub -U

https://skrub-data.org/stable/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Swarms in Torch - это экспериментальный репозиторий, созданный для работы с роевыми алгоритмами.

Благодаря целому ряду полезных алгоритмов, включая Particle Swarm Optimization (PSO), Ant Colony, Sakana, Mambas Swarm и других, реализованных с помощью PyTorch, вы сможете легко использовать мощь роевых технологий в своих проектах.

pip3 install swarms-torch

Github
Документация

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ ExLlamaV2: самая быстрая библиотека для работы с LLM

Квантизация больших языковых моделей (Large Language Models, LLM) — наиболее популярный подход для уменьшения размера этих моделей и ускорения вывода. GPTQ (Post-Training Quantization for GPT, пост-тренировочная квантизация GPT) — один из алгоритмов, обеспечивающих потрясающую производительность на графических процессорах. По сравнению с неквантированными моделями, он использует почти в 3 раза меньше VRAM (Video Random Access Memory, оперативная видеопамять), обеспечивая при этом аналогичный уровень точности и более высокую скорость генерации. GPTQ стал настолько популярным, что недавно был напрямую интегрирован в библиотеку Transformers.

ExLlamaV2  — это библиотека, позволяющая выжать еще больше производительности из GPTQ. Благодаря новым ядрам, она оптимизирована для (молниеносно) быстрого вывода. Кроме того, в ней представлен новый формат квантизации EXL2, обеспечивающий большую гибкость при хранении весов.

В этой статье рассмотрим, как квантировать базовые модели в формате EXL2 и как их запускать. Код доступен на GitHub и Google Colab.

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Nvidia и Suno анонсировали модели Parakeet RNNT.

Parakeet превосходит Open AI Whisper и занимает первое место в таблице лидеров Open ASR

Demo: https://huggingface.co/spaces/nvidia/parakeet-rnnt-1.1b

https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 Чтобы расширить возможности вашего терминала за счет автозаполнения кода, подобного IDE, используйте Fig.

Это позволит ускорить рабочий процесс и сократить количество опечаток и ошибок, особенно при работе с длинными или сложными командами.

https://fig.io/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Что ждет ИИ в 2024 году? В последнем выпуске The Batch на deeplearning.ai, множество ИИ-экспертов рассказывают о своих надеждах и прогнозах на ИИ в наступившем году.

В их обширных статьях рассматриваются новые инструменты ИИ, рассуждения о последующем экспоненциальном росте ИИ и многое другое.

https://deeplearning.ai/the-batch/issue-229/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Бесплатный курс от Weights & Biases: Валидация данных в конвейерах ML.

Научитесь поддерживать качество данных и использовать TensorFlow Data Validation,получите практический опыт проверки данных для создания надежных конвейеров ML.

https://www.wandb.courses/courses/data-validation-for-machine-learning

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ OneFormer: Один трансформер для управления универсальной сегментацией изображений.

Модель позволяет решать три разных задачи сегментации: semantic, instance и panoptic segmentation.

🦒colab: https://github.com/camenduru/OneFormer-colab
🌐page: https://praeclarumjj3.github.io/oneformer
📄paper: https://arxiv.org/abs/2211.06220
🧬code: https://github.com/SHI-Labs/OneFormer

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хотите начать увлекательный путь в мир машинного обучения и искусственного интеллекта?

Газпромбанк.Тех совместно с Финтех Хабом Банка России запускает прием заявок на программу «Машинное обучение LITE: базовый уровень» — для тех, кто только начинает осваивать машинное обучение.

Что предстоит изучать?
Основы и методы ML, математику, Python и нейронные сети.

Программа состоит из двух модулей:
- Теоретический модуль пройдет с 21 января по 16 февраля 2024 года
- Практический модуль пройдет с 26 февраля по 10 марта 2024 года для тех, кто показал высокие результаты по итогу первого модуля

Чтобы стать участником, подайте заявку на сайте программы до 17 января 2024 года — https://vk.cc/ctBG1D

Реклама Банк ГПБ (АО), ИНН: 7744001497

Читать полностью…

Анализ данных (Data analysis)

⚡️ Инструменты визуализации графов/сетей

- Geph
- VOSviewer
- Cytoscape
- Kumu
- GraphInsight
- NodeXL
- Orange
- Graphia
- Graphistry
- SocNetV
- Tulip
- Gephisto

🖥 Библиотеки Python
- networkx
- graphviz
- pydot
- python-igraph
- pyvis
- ipycytoscape
- pygsp
- graph-tool
- nxviz
- py2cytoscape
- ipydagred3
- ipysigma
- Py3Plex
- net wulf

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Реальный вопрос c собеседования Microsoft SQL:

"Какой клиент Azure из базы покупателей, приоьретает хотя бы 1 продукт Azure из каждой категории продуктов?"

Подсказки:
- Объединить таблицы с помощью LEFT JOIN
- Подсчитайть разные категории продуктов с помощью COUNT и DISTINCT.

Доп задание: напишие код с использованием Pandas для решения задачи.

Протестировать свой SQL-запрос и посмотреть таблицы можно здесь: https://datalemur.com/questions/supercloud-customer

Пишите свое решение в комментариях👇

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Разбираем тестовое задание в СБЕР на позицию junior-аналитика

📣 Всем привет! Команда Simulative и наш CEO – Андрон Алексанян приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание на позицию junior-аналитика в компанию СБЕР. Это будет последний обучающий интенсив в этом году.

Нам предстоит проанализировать историю договоров клиентов банка, провести аналитику и сформулировать бизнес-выводы.

📅 Дата: 26 декабря
🕘 Время: 19:00 по Мск

Что будем делать на интенсиве:

➖ Решать задания с помощью SQL
➖ Писать хитрые запросы на SCD, pivot table и другие
➖ Подробно разбирать каждый шаг
➖ Считать retention банка и проводить сегментацию
➖ Проводить аналитику и составлять бизнес-выводы

В прямом эфире мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩

❗️ Записи интенсива не будет. Только один раз и только в live-формате.

А вы готовы бустануть свои знания и скиллы в аналитике?

🔗 Регистрируйтесь на интенсив


Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8KD6DY

Читать полностью…

Анализ данных (Data analysis)

🖥 nbgather: 🧽✨ Spit shine for Jupyter notebooks

nbgather предоставляет инструменты для очистки кода, восстановления потерянного кода и сравнения версий кода в Jupyter Lab.

Загрузите расширение alpha с помощью следующей команды:

jupyter labextension install nbgather

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хорошие новости для всех, кто интересуется машинным обучением и генеративными нейросетями!

Банк ВТБ и Финтех Хаб Банка России объявляет набор на вторую совместную образовательную программу "Машинное обучение PRO: обработка документов и генеративные нейросети".

Программа состоит из двух модулей:
Теоретический модуль:
- с 12 февраля по 11 марта 2024
- Дистанционный формат
- Включает в себя лекции по основам NLP, обработке изображений, языковым моделям и другим темам

Практический модуль:
- с 18 марта по 8 апреля 2024 года.
- Дистанционный формат с несколькими очными днями в Москве

Лучшим командам будет предложено презентовать разработанный прототип на международной конференции по анализу данных Data Fusion 18 апреля 2024 года (data-fusion.ru)
Подать заявку можно на сайте программы

Читать полностью…

Анализ данных (Data analysis)

🖥 DataStack

Datastack
- это фреймворк с открытым исходным кодом, который позволяет легко создавать веб-приложения, информационные панели , формы ввода данных или прототипы в режиме реального времени, используя только Python - опыт работы с фронтендом не требуется.

В DataStack доступно много готовых виджетов, включая запись текста, выбор из выпадающего списка, списки, кнопки, формы ввода, HTML формы , iframe, разделитель страниц, dataframe, таблицы и многое другое.

pip install pydatastack

from datastack import datastack
ds = datastack(main=True)

ds.subheader('DataStack click counter app')

count = 0

def inc_count():
global count
count += 1

ds.button('Click', on_click=inc_count)
ds.write('counts: ' + str(count))


Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Легкий старт карьеры в Data Science и анализе данных

Начните с бесплатного урока от Марии Тихоновой – Senior Data Scientist в SberDevices и преподавателя ВШЭ.

В результаты вебинара вы:
- узнаете, чем машинное обучение отличается от классического программирования;
- научитесь решать задачи классификации методами ML;
- обучите свою первую ML-модель для распознавания рукописных цифр.

Занятие пройдёт 26 декабря в 18:00 мск и будет приурочено к старту курса «Специализация Machine Learning». После урока вы сможете продолжить обучение на курсе в рассрочку.

Для бесплатного участия и получения записи регистрируйтесь прямо сейчас: https://otus.pw/lU4k/?erid=LjN8KFngH

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963

Читать полностью…
Subscribe to a channel