data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
100 вопросов для подготовки к собесу Data Science
Сколько ядер CPU можно использовать параллельно в Python?
Вот так я изучаю ML
PLC Allen Bradley подключение с помощью Python
Ortools — библиотека для решения задачи VRP
4 миллиарда операторов if
Python без типов: таким он когда-то был
Вы точно хотите быть Data Scientist-ом?
Введение в SQL & СУБД на примере доступа к данным через Python
Plotting and Data Visualization with Matplotlib
Applications of Data Science
Semantic Search Over Satellite Images Using Qdrant
Introduction to Data Science
A Comprehensive Guide: How Deepchecks Evaluate the Large Language Model
Appreciating the "Learning Problem" - Why AI will never replace your job
Best JavaScript Chart Libraries 2024: Finding the Right Fit for Your JS Applications
NumPy Arrays: An Introduction
Hungarian GP 2022 Qualifying, and see what we can
I built Hippotable for in-browser data analysis
Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год

Посмотреть:
🌐 100 вопросов с собеседований Data Science — часть 1 (⏱ 36:48)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 00:40)
🌐 💡задача #Python: Бинарный поиск #python #программирование #код #yotube #питон #собеседование (⏱ 00:41)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 01:00)
🌐 Evaluating Recommendation Algorithms at Delivery Hero - Manchit Madan (⏱ 23:01)
🌐 ODSC Webinar | Open source Data Lake Management, Curation, Governance for New & Growing Companies (⏱ 46:07)
🌐 Stable Diffusion AI: 100 Cats Per Second…For Free! (⏱ 08:21)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Window ops

Эта библиотека для анализа данных, которая содержит функции альтернативы pd.Series.rolling и pd.Series.expanding,которые позволяют получить ускорение за счет использования оптимизированных под numba функций, работающих с массивами numpy.

pip install window-ops

Github
Документация

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Ruptures

Пакет предоставляет методы для анализа и сегментации нестационарных сигналов. Алгоритмы включают точное и приближенное обнаружение для различных параметрических и непараметрических моделей.

С помощью точек изменения можно обнаружить аномалии или отклонения от ожидаемого поведения в данных и получить представление о том, когда происходят эти переходы.

Github
Документация

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 По сравнению с pandas, Polars предоставляет более продвинутый синтаксис для создания сложных пайплайнов преобразования данных.

Каждая функция в Polars генерирует новую функцию, и эти функции можно объединять в конвейер.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

SQL: комплексный анализ оттока клиентов

Постановка задачи
В конкурентной телекоммуникационной сфере восприятие компании в целом формируется критической оценкой ее услуг клиентами. Сбои в работе чреваты ростом обеспокоенности, поэтому так важен анализ оттока.

Уровнем оттока характеризуется потеря клиентов, а это сказывается на доходах.

На выводы анализа опираются при разработке стратегий, сегментном таргетировании, совершенствовании обслуживания для роста доверия и удовлетворенности клиентов.

Что такое «отток клиентов»?
Отток, или оборот клиентов, называемый также оттоком покупателей, — это явление, при котором клиенты или подписчики прекращают сотрудничать с компанией или пользоваться ее продуктами/услугами. Оно случается, когда привлеченные ее деятельностью или предложениями клиенты решают отказаться от дальнейших отношений или покупок.

Возможные причины: предложения конкурентов, цена, неудовлетворенность продуктом или услугой, недостаточная их ценность в глазах покупателя, личные обстоятельства.

Очистка данных
Определение общего количества клиентов

SELECT DISTINCT COUNT(CUSTOMER_ID) AS TOTALCUSTOMERS FROM CHURNDATA;

То есть выбираем из churndata отдельный счетчик count(customer_id) по общему числу клиентов TotalCustomers:

📌Продолжение

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
100 вопросов для подготовки к собесу Python
Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1
— Полный отчет Github за 2023 о состоянии проектов.
9 вопросов для собеседования по SQL в Apple
Геометрия и навигация
Разметка данных в 2023 году: текущие тренды и требования будущего
fsspec и вообще зачем оно нам нужно
Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути
Расчетная архитектура платформы для A/B-тестов Mail.Ru
Automate the boring stuff with Julia
Трёхканальный ИИ
Decoding a Data Model: Using SchemaSpy in Snowflake ❄️
Quickly create a personalized data dashboard for your boss.
What Is Data Analysis and How Can You Get Started?
Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform
Microsoft PHI-2 + Huggine Face + Langchain = Super Tiny Chatbot
How to rank Fungible Tokens in the TON blockchain by transactions
A good resource on Algorithms!
High-level overview of AWS Glue
What is the population of that region?
Streamlined Data Processing: A Guide to Cost-Effective ELT Implementation

Посмотреть:
🌐 Mixtral 8x7B - новый ИИ. Нейросети, которые ДОМИНИРУЮТ на другими моделями (⏱ 08:04)
🌐 100 вопросов с собеседований Python. Полный разбор реальных вопросов. (⏱ 34:27)
🌐 💡Задача #Python:Комбинация сумм II #python #программирование #код #yotube #youtube #пито (⏱ 00:54)
🌐 💡Крутая задача #Python: #python #программирование #код #yotube #youtube #питон (⏱ 00:49)
🌐 ODSC Webinar | Preparing for your First Enterprise Large Language Model (LLM) Application (⏱ 48:16)
🌐 Adversarial Validation and Training in Stock Market Price Prediction (⏱ 28:09)
🌐 NVIDIA’s New AI Is 20x Faster…But How? (⏱ 08:16)
🌐 Here’s How ChatGPT is Changing The World! (⏱ 08:33)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 csvs-to-sqlite

Чтобы преобразовать файлы CSV в базу данных SQLite для эффективной работы с данными и их хранения, попробуйте csvs-to-sqlite.

https://github.com/simonw/csvs-to-sqlite

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥🐍 mamba-minimal

Простая реализация архитектуры Mamba в одном файле PyTorch.

Mamba - это усовершенствованная модель пространства состояний (SSM), предназначенная для эффективной работы со сложными последовательностями, требующими большого количества данных: Linear-Time Sequence Modeling with Selective State Spaces", разработанной ведущими исследователями Альбертом Гу и Три Дао.

🖥 Github

📖 Paper

🎞 Мамба - замена трансформерам?

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Ранний релиз: Skrub - новый инструмент для подготовки данных.

▪Подготовка таблиц для машинного обучения
▪Создан для работы со scikit-learn, Python
▪Устойчив к зашумленным данным
▪Работает с фреймами данных pandas

pip install skrub -U

https://skrub-data.org/stable/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Чтобы протестировать наличие определенного исключения в модульном тестировании, используйте функцию pytest.raises.

Например, с его помощью можно проверить, будет ли выброшена ошибка ValueError при наличии NaN-значений в столбце group.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Выпущен новый инструмент, который упрощает перенос вашего датасета с GitHub в Hugging Face Hub! 🚀

У вас есть ценные датасеты, спрятанные в папке 'data' в репозитории GitHub? Теперь вы можете поделиться ими с ML-сообществом всего за несколько минут 🤗.

https://huggingface.co/spaces/librarian-bots/github-to-huggingface-dataset-migration-tool

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Представляем MakeReal в jupyter-tldraw ✨.

Теперь вы можете вручную рисовать графики сюжет и MakeReal будет превращать их в код c использованием matplotlib прямо в блокноте!

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

"Дайте мне 7B Llama 2 и GPU, и я изменю мир".
-- Архимед

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Подборка лучших обучающих каналов для программистов.

➡️Делитесь с коллегами и Сохраняйте себе, чтобы не потерять

⚡Машинное обучение

Machine Learning - полезные статьи новости гайды и разбор кода
Ml Собеседование - подготовка к собеседовению мл, алгоритмам, кодингу
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат

🚀 Data Science

Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data

🏆 Golang
Golang - подробные гайды, разбор кода, лучшие практики, заметки
Golang собеседование
Golang вакансии
Golang книги
Golang задачи и тесты
Golang чат
Golang news - новости go

#️⃣C#

С# академия
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа

🐍 Python

Python/django
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги

☕ Java

Java академия
Java вакансии
Java чат
Java вопросы с собеседований
Java книги

💻 C++

C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии

💥 Хакинг Kali Linux

Kali linux
linux_kal - kali чат
Информационная безопасность

🐧 Linux

Linux academy

🦀 Rust
Rust программирование
Rust чат

🛢Базы данных
Sql базы данных
Библиотека баз данных
SQL чат

📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки

🖥 Javascript/React/PHP
Javascript академия
React программирование
PHP
Книги frontend
Задачи frontend

🇬🇧 Английский для программистов

🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence

🔥 DevOPs
Devops для программистов
Книги Devops
Docker

📓 Книги
Библиотеки Книг для программситов

💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#

Читать полностью…

Анализ данных (Data analysis)

⚡️ Python совет

При объединении двух датафреймов Pandas с одинаковыми именами столбцов по умолчанию к именам столбцов добавляются суффиксы "_x" и "_y".

Чтобы улучшить читаемость кода, вы можете указать собственные суффиксы.

#Python

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ OneFormer: Один трансформер для управления универсальной сегментацией изображений.

Модель позволяет решать три разных задачи сегментации: semantic, instance и panoptic segmentation.

🦒colab: https://github.com/camenduru/OneFormer-colab
🌐page: https://praeclarumjj3.github.io/oneformer
📄paper: https://arxiv.org/abs/2211.06220
🧬code: https://github.com/SHI-Labs/OneFormer

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хотите начать увлекательный путь в мир машинного обучения и искусственного интеллекта?

Газпромбанк.Тех совместно с Финтех Хабом Банка России запускает прием заявок на программу «Машинное обучение LITE: базовый уровень» — для тех, кто только начинает осваивать машинное обучение.

Что предстоит изучать?
Основы и методы ML, математику, Python и нейронные сети.

Программа состоит из двух модулей:
- Теоретический модуль пройдет с 21 января по 16 февраля 2024 года
- Практический модуль пройдет с 26 февраля по 10 марта 2024 года для тех, кто показал высокие результаты по итогу первого модуля

Чтобы стать участником, подайте заявку на сайте программы до 17 января 2024 года — https://vk.cc/ctBG1D

Реклама Банк ГПБ (АО), ИНН: 7744001497

Читать полностью…

Анализ данных (Data analysis)

⚡️ Инструменты визуализации графов/сетей

- Geph
- VOSviewer
- Cytoscape
- Kumu
- GraphInsight
- NodeXL
- Orange
- Graphia
- Graphistry
- SocNetV
- Tulip
- Gephisto

🖥 Библиотеки Python
- networkx
- graphviz
- pydot
- python-igraph
- pyvis
- ipycytoscape
- pygsp
- graph-tool
- nxviz
- py2cytoscape
- ipydagred3
- ipysigma
- Py3Plex
- net wulf

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Реальный вопрос c собеседования Microsoft SQL:

"Какой клиент Azure из базы покупателей, приоьретает хотя бы 1 продукт Azure из каждой категории продуктов?"

Подсказки:
- Объединить таблицы с помощью LEFT JOIN
- Подсчитайть разные категории продуктов с помощью COUNT и DISTINCT.

Доп задание: напишие код с использованием Pandas для решения задачи.

Протестировать свой SQL-запрос и посмотреть таблицы можно здесь: https://datalemur.com/questions/supercloud-customer

Пишите свое решение в комментариях👇

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Разбираем тестовое задание в СБЕР на позицию junior-аналитика

📣 Всем привет! Команда Simulative и наш CEO – Андрон Алексанян приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание на позицию junior-аналитика в компанию СБЕР. Это будет последний обучающий интенсив в этом году.

Нам предстоит проанализировать историю договоров клиентов банка, провести аналитику и сформулировать бизнес-выводы.

📅 Дата: 26 декабря
🕘 Время: 19:00 по Мск

Что будем делать на интенсиве:

➖ Решать задания с помощью SQL
➖ Писать хитрые запросы на SCD, pivot table и другие
➖ Подробно разбирать каждый шаг
➖ Считать retention банка и проводить сегментацию
➖ Проводить аналитику и составлять бизнес-выводы

В прямом эфире мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩

❗️ Записи интенсива не будет. Только один раз и только в live-формате.

А вы готовы бустануть свои знания и скиллы в аналитике?

🔗 Регистрируйтесь на интенсив


Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8KD6DY

Читать полностью…

Анализ данных (Data analysis)

🖥 nbgather: 🧽✨ Spit shine for Jupyter notebooks

nbgather предоставляет инструменты для очистки кода, восстановления потерянного кода и сравнения версий кода в Jupyter Lab.

Загрузите расширение alpha с помощью следующей команды:

jupyter labextension install nbgather

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хорошие новости для всех, кто интересуется машинным обучением и генеративными нейросетями!

Банк ВТБ и Финтех Хаб Банка России объявляет набор на вторую совместную образовательную программу "Машинное обучение PRO: обработка документов и генеративные нейросети".

Программа состоит из двух модулей:
Теоретический модуль:
- с 12 февраля по 11 марта 2024
- Дистанционный формат
- Включает в себя лекции по основам NLP, обработке изображений, языковым моделям и другим темам

Практический модуль:
- с 18 марта по 8 апреля 2024 года.
- Дистанционный формат с несколькими очными днями в Москве

Лучшим командам будет предложено презентовать разработанный прототип на международной конференции по анализу данных Data Fusion 18 апреля 2024 года (data-fusion.ru)
Подать заявку можно на сайте программы

Читать полностью…

Анализ данных (Data analysis)

🖥 DataStack

Datastack
- это фреймворк с открытым исходным кодом, который позволяет легко создавать веб-приложения, информационные панели , формы ввода данных или прототипы в режиме реального времени, используя только Python - опыт работы с фронтендом не требуется.

В DataStack доступно много готовых виджетов, включая запись текста, выбор из выпадающего списка, списки, кнопки, формы ввода, HTML формы , iframe, разделитель страниц, dataframe, таблицы и многое другое.

pip install pydatastack

from datastack import datastack
ds = datastack(main=True)

ds.subheader('DataStack click counter app')

count = 0

def inc_count():
global count
count += 1

ds.button('Click', on_click=inc_count)
ds.write('counts: ' + str(count))


Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Легкий старт карьеры в Data Science и анализе данных

Начните с бесплатного урока от Марии Тихоновой – Senior Data Scientist в SberDevices и преподавателя ВШЭ.

В результаты вебинара вы:
- узнаете, чем машинное обучение отличается от классического программирования;
- научитесь решать задачи классификации методами ML;
- обучите свою первую ML-модель для распознавания рукописных цифр.

Занятие пройдёт 26 декабря в 18:00 мск и будет приурочено к старту курса «Специализация Machine Learning». После урока вы сможете продолжить обучение на курсе в рассрочку.

Для бесплатного участия и получения записи регистрируйтесь прямо сейчас: https://otus.pw/lU4k/?erid=LjN8KFngH

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963

Читать полностью…

Анализ данных (Data analysis)

🪐 nbcommands позволяет использовать команды Unix в блокнотах Jupyter.

Это позволяет взаимодействовать с блокнотами Jupyter без запуска сервера блокнотов.

pip install nbcommands

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Colab T4

Выпущена новая версия Colab 🥳

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хотите узнать секреты создания ChatGPT и любого другого LLM-продукта?

Большие языковые модели (LLM) помогают ускорять работу компании, а ML-специалисту — становиться в разы более востребованным.

Чтобы узнать как создавать такие продукты приходите на бесплатный вебинар от школы karpovꓸcourses, на котором вы:

● Изучите паттерны проектирования и построения таких систем (всё проще чем кажется!)
● Разберёте кейсы, где языковые модели ускорят, а где наоборот помешают разработке продукта
● Поймёте, какие навыки необходимы для работы с LLM

Вебинар проведёт Богдан Печёнкин, фаундер AI-стартапа и соавтор Симулятора МЛ-инженера от karpovꓸcourses

Встречаемся 21 декабря в 18:00

Регистрируйтесь, чтобы попасть на вебинар

Читать полностью…

Анализ данных (Data analysis)

Хотите поэкспериментировать с различными методами обработки данных и гиперпараметрами модели? Редактирование конфигурационного файла вручную каждый раз может быть хлопотным.

Hydra позволяет быстро и легко создавать ин настраивать конфиги, выбирать опции из различных групп конфигураций.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Как извлекать пользу из данных: подборка материалов
Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle
Инструменты продуктового аналитика VK, или Как мы работаем с большими данными
Наиболее часто используемые команды Linux
79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
Бесплатные сертификационные курсы для специалистов по данным
Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
Как мы наводим порядок с данными в столичном транспортном институте
Introduction to NannyML: Model Evaluation without labels
AI in Finance: Transforming Investment Strategies and Risk Management
How to Use Pandas for Data Analysis
Telemedicine capabilities expanded through artificial intelligence
Google Cloud Storage com Python: Um Guia Completo
Navigating Financial Insights: Analyzing Stock Data with Python and Visualization
Unveiling Joint Variability: Exploring Covariance
Navigating Financial Relationships: Understanding Correlation in Finance
Amazon QuickSight Summary
6 Data Science Projects That Can Supercharge Your Job Prospects!

Посмотреть:
🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Улучшение нейросетей, рекомендаций и медицинская диагностика — только часть решений, где могут пригодиться ML-исследования. Авторов самых перспективных из них отметил Яндекс на Yandex ML Prize.

Yandex ML Prize — международная премия, которая уже пятый год поддерживает учёных-новичков и мотивирует их заниматься наукой. Участники изучают подходы и алгоритмы, которые позже могут лечь в основу разных технологий и продуктов. Например, поисковых сервисов или компьютерной графики. А ещё способны улучшить медицину: помогать изучать клетки живых организмов или находить редкие болезни на ранних этапах.

В этом году 11 лауреатов получили от Яндекса премии от 500 тысяч до 1 миллиона рублей, грант на использование платформы Yandex Cloud для экспериментов и больших вычислений и другие призы.

@data_analysis_ml

Читать полностью…
Subscribe to a channel