Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
⚡️ Вышел LiteLlama
Подобие LLaMa 2, однако с существенно меньшим размером модели, LiteLlama-460M-1T
имеет 460M
параметров, обученных на 1T токенах.
https://huggingface.co/ahxt/LiteLlama-460M-1T
@data_analysis_ml
⚡️ mergekit - это инструмент для слияния предварительно обученных языковых моделей.
Может выполняться полностью на CPU или ускоряться с помощью всего 8 ГБ VRAM.
Проект поддерживает множество алгоритмов.
▪Github
▪Colab
@data_analysis_ml
💻 Изучайте Математику для Data Science бесплатно с помощью этих бесплатных курсов с Udacity
1. Linear Algebra Refresher Course
2. Intro to Statistics
3. Intro to Inferential Statistics
4. Intro to Descriptive Statistics
5. Eigenvectors and Eigenvalues
6. Intro to Artificial Intelligence
7. Differential Equations in Action
📌 Список
@data_analysis_ml
🚕 Как Uber вычисляет время прибытия со скоростью полмиллиона запросов в секунду
📌 Читать
@data_analysis_ml
📊 Facets
Проект Facets предоставляет инструменты визуализации для понимания и анализа наборов данных машинного обучения: Facets Overview и Facets Dive
.
Визуализации реализованы в виде веб-компонентов Polymer и могут быть легко встроены в блокноты Jupyter или веб-страницы.
Прмеры визуализаций можно найти на странице описания проекта Facets: pair-code.github.io/facets/
▪Github
@data_analysis_ml
💻 Создайте ИИ-клон из своих чатов вWhatsApp
Этот репозиторий поможет вам создать чатбота с ИИ, используя ваши чаты WhatsApp
в качестве обучающих данных.
По умолчанию используется модель Mistral-7B-Instruct-v0.2.
Код в этом репозитории в значительной степени опирается на llama-recipes (https://github.com/facebookresearch/llama-recipes), где вы можете найти больше примеров того, что можно делать с моделями llama.
▪Github
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— 100 вопросов для подготовки к собесу Data Science
— Сколько ядер CPU можно использовать параллельно в Python?
— Вот так я изучаю ML
— PLC Allen Bradley подключение с помощью Python
— Ortools — библиотека для решения задачи VRP
— 4 миллиарда операторов if
— Python без типов: таким он когда-то был
— Вы точно хотите быть Data Scientist-ом?
— Введение в SQL & СУБД на примере доступа к данным через Python
— Plotting and Data Visualization with Matplotlib
— Applications of Data Science
— Semantic Search Over Satellite Images Using Qdrant
— Introduction to Data Science
— A Comprehensive Guide: How Deepchecks Evaluate the Large Language Model
— Appreciating the "Learning Problem" - Why AI will never replace your job
— Best JavaScript Chart Libraries 2024: Finding the Right Fit for Your JS Applications
— NumPy Arrays: An Introduction
— Hungarian GP 2022 Qualifying, and see what we can
— I built Hippotable for in-browser data analysis
— Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год
Посмотреть:
🌐 100 вопросов с собеседований Data Science — часть 1 (⏱ 36:48)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 00:40)
🌐 💡задача #Python: Бинарный поиск #python #программирование #код #yotube #питон #собеседование (⏱ 00:41)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 01:00)
🌐 Evaluating Recommendation Algorithms at Delivery Hero - Manchit Madan (⏱ 23:01)
🌐 ODSC Webinar | Open source Data Lake Management, Curation, Governance for New & Growing Companies (⏱ 46:07)
🌐 Stable Diffusion AI: 100 Cats Per Second…For Free! (⏱ 08:21)
Хорошего дня!
@data_analysis_ml
🚀 Window ops
Эта библиотека для анализа данных, которая содержит функции альтернативы pd.Series.rolling и pd.Series.expanding,
которые
позволяют получить ускорение за счет использования оптимизированных под numba
функций, работающих с массивами numpy
.pip install window-ops
▪Github
▪Документация
@data_analysis_ml
🖥 Ruptures
Пакет предоставляет методы для анализа и сегментации нестационарных сигналов. Алгоритмы включают точное и приближенное обнаружение для различных параметрических и непараметрических моделей.
С помощью точек изменения можно обнаружить аномалии или отклонения от ожидаемого поведения в данных и получить представление о том, когда происходят эти переходы.
▪Github
▪Документация
@data_analysis_ml
🖥 По сравнению с pandas, Polars предоставляет более продвинутый синтаксис для создания сложных пайплайнов преобразования данных.
Каждая функция в Polars генерирует новую функцию, и эти функции можно объединять в конвейер.
@data_analysis_ml
SQL: комплексный анализ оттока клиентов
Постановка задачи
В конкурентной телекоммуникационной сфере восприятие компании в целом формируется критической оценкой ее услуг клиентами. Сбои в работе чреваты ростом обеспокоенности, поэтому так важен анализ оттока.
Уровнем оттока характеризуется потеря клиентов, а это сказывается на доходах.
На выводы анализа опираются при разработке стратегий, сегментном таргетировании, совершенствовании обслуживания для роста доверия и удовлетворенности клиентов.
Что такое «отток клиентов»?
Отток, или оборот клиентов, называемый также оттоком покупателей, — это явление, при котором клиенты или подписчики прекращают сотрудничать с компанией или пользоваться ее продуктами/услугами. Оно случается, когда привлеченные ее деятельностью или предложениями клиенты решают отказаться от дальнейших отношений или покупок.
Возможные причины: предложения конкурентов, цена, неудовлетворенность продуктом или услугой, недостаточная их ценность в глазах покупателя, личные обстоятельства.
Очистка данных
Определение общего количества клиентовSELECT DISTINCT COUNT(CUSTOMER_ID) AS TOTALCUSTOMERS FROM CHURNDATA;
То есть выбираем из churndata отдельный счетчик count(customer_id) по общему числу клиентов TotalCustomers:
📌Продолжение
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— 100 вопросов для подготовки к собесу Python
— Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1
— Полный отчет Github за 2023 о состоянии проектов.
— 9 вопросов для собеседования по SQL в Apple
— Геометрия и навигация
— Разметка данных в 2023 году: текущие тренды и требования будущего
— fsspec и вообще зачем оно нам нужно
— Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути
— Расчетная архитектура платформы для A/B-тестов Mail.Ru
— Automate the boring stuff with Julia
— Трёхканальный ИИ
— Decoding a Data Model: Using SchemaSpy in Snowflake ❄️
— Quickly create a personalized data dashboard for your boss.
— What Is Data Analysis and How Can You Get Started?
— Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform
— Microsoft PHI-2 + Huggine Face + Langchain = Super Tiny Chatbot
— How to rank Fungible Tokens in the TON blockchain by transactions
— A good resource on Algorithms!
— High-level overview of AWS Glue
— What is the population of that region?
— Streamlined Data Processing: A Guide to Cost-Effective ELT Implementation
Посмотреть:
🌐 Mixtral 8x7B - новый ИИ. Нейросети, которые ДОМИНИРУЮТ на другими моделями (⏱ 08:04)
🌐 100 вопросов с собеседований Python. Полный разбор реальных вопросов. (⏱ 34:27)
🌐 💡Задача #Python:Комбинация сумм II #python #программирование #код #yotube #youtube #пито (⏱ 00:54)
🌐 💡Крутая задача #Python: #python #программирование #код #yotube #youtube #питон (⏱ 00:49)
🌐 ODSC Webinar | Preparing for your First Enterprise Large Language Model (LLM) Application (⏱ 48:16)
🌐 Adversarial Validation and Training in Stock Market Price Prediction (⏱ 28:09)
🌐 NVIDIA’s New AI Is 20x Faster…But How? (⏱ 08:16)
🌐 Here’s How ChatGPT is Changing The World! (⏱ 08:33)
Хорошего дня!
@data_analysis_ml
🖥 csvs-to-sqlite
Чтобы преобразовать файлы CSV в базу данных SQLite для эффективной работы с данными и их хранения, попробуйте csvs-to-sqlite.
https://github.com/simonw/csvs-to-sqlite
@data_analysis_ml
🖥🐍 mamba-minimal
Простая реализация архитектуры Mamba в одном файле PyTorch.
Mamba - это усовершенствованная модель пространства состояний (SSM), предназначенная для эффективной работы со сложными последовательностями, требующими большого количества данных: Linear-Time Sequence Modeling with Selective State Spaces", разработанной ведущими исследователями Альбертом Гу и Три Дао.
🖥 Github
📖 Paper
🎞 Мамба - замена трансформерам?
@data_analysis_ml
🖥 Ранний релиз: Skrub - новый инструмент для подготовки данных.
▪Подготовка таблиц для машинного обучения
▪Создан для работы со scikit-learn, Python
▪Устойчив к зашумленным данным
▪Работает с фреймами данных pandas
pip install skrub -U
https://skrub-data.org/stable/
@data_analysis_ml
⚡️ Swarms in Torch - это экспериментальный репозиторий, созданный для работы с роевыми алгоритмами.
Благодаря целому ряду полезных алгоритмов, включая Particle Swarm Optimization (PSO), Ant Colony, Sakana, Mambas Swar
m и других, реализованных с помощью PyTorch, вы сможете легко использовать мощь роевых технологий в своих проектах.pip3 install swarms-torch
▪Github
▪Документация
@data_analysis_ml
⚡️ ExLlamaV2: самая быстрая библиотека для работы с LLM
Квантизация больших языковых моделей (Large Language Models, LLM) — наиболее популярный подход для уменьшения размера этих моделей и ускорения вывода. GPTQ (Post-Training Quantization for GPT, пост-тренировочная квантизация GPT) — один из алгоритмов, обеспечивающих потрясающую производительность на графических процессорах. По сравнению с неквантированными моделями, он использует почти в 3 раза меньше VRAM (Video Random Access Memory, оперативная видеопамять), обеспечивая при этом аналогичный уровень точности и более высокую скорость генерации. GPTQ стал настолько популярным, что недавно был напрямую интегрирован в библиотеку Transformers.
ExLlamaV2 — это библиотека, позволяющая выжать еще больше производительности из GPTQ. Благодаря новым ядрам, она оптимизирована для (молниеносно) быстрого вывода. Кроме того, в ней представлен новый формат квантизации EXL2, обеспечивающий большую гибкость при хранении весов.
В этой статье рассмотрим, как квантировать базовые модели в формате EXL2 и как их запускать. Код доступен на GitHub и Google Colab.
📌 Читать
@data_analysis_ml
⚡️ Nvidia и Suno анонсировали модели Parakeet RNNT.
Parakeet превосходит Open AI Whisper и занимает первое место в таблице лидеров Open ASR
Demo: https://huggingface.co/spaces/nvidia/parakeet-rnnt-1.1b
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
@data_analysis_ml
💻 Чтобы расширить возможности вашего терминала за счет автозаполнения кода, подобного IDE, используйте Fig.
Это позволит ускорить рабочий процесс и сократить количество опечаток и ошибок, особенно при работе с длинными или сложными командами.
https://fig.io/
@data_analysis_ml
🌟 Что ждет ИИ в 2024 году? В последнем выпуске The Batch на deeplearning.ai, множество ИИ-экспертов рассказывают о своих надеждах и прогнозах на ИИ в наступившем году.
В их обширных статьях рассматриваются новые инструменты ИИ, рассуждения о последующем экспоненциальном росте ИИ и многое другое.
https://deeplearning.ai/the-batch/issue-229/
@data_analysis_ml
🎓 Бесплатный курс от Weights & Biases: Валидация данных в конвейерах ML.
Научитесь поддерживать качество данных и использовать TensorFlow Data Validation,
получите
практический опыт проверки данных для создания надежных конвейеров ML.
https://www.wandb.courses/courses/data-validation-for-machine-learning
@data_analysis_ml
⚡️ OneFormer: Один трансформер для управления универсальной сегментацией изображений.
Модель позволяет решать три разных задачи сегментации: semantic, instance и panoptic segmentation.
🦒colab: https://github.com/camenduru/OneFormer-colab
🌐page: https://praeclarumjj3.github.io/oneformer
📄paper: https://arxiv.org/abs/2211.06220
🧬code: https://github.com/SHI-Labs/OneFormer
@data_analysis_ml
Хотите начать увлекательный путь в мир машинного обучения и искусственного интеллекта?
Газпромбанк.Тех совместно с Финтех Хабом Банка России запускает прием заявок на программу «Машинное обучение LITE: базовый уровень» — для тех, кто только начинает осваивать машинное обучение.
Что предстоит изучать?
Основы и методы ML, математику, Python и нейронные сети.
Программа состоит из двух модулей:
- Теоретический модуль пройдет с 21 января по 16 февраля 2024 года
- Практический модуль пройдет с 26 февраля по 10 марта 2024 года для тех, кто показал высокие результаты по итогу первого модуля
Чтобы стать участником, подайте заявку на сайте программы до 17 января 2024 года — https://vk.cc/ctBG1D
Реклама Банк ГПБ (АО), ИНН: 7744001497
⚡️ Инструменты визуализации графов/сетей
- Geph
- VOSviewer
- Cytoscape
- Kumu
- GraphInsight
- NodeXL
- Orange
- Graphia
- Graphistry
- SocNetV
- Tulip
- Gephisto
🖥 Библиотеки Python
- networkx
- graphviz
- pydot
- python-igraph
- pyvis
- ipycytoscape
- pygsp
- graph-tool
- nxviz
- py2cytoscape
- ipydagred3
- ipysigma
- Py3Plex
- net wulf
@data_analysis_ml
🖥 Реальный вопрос c собеседования Microsoft SQL:"
Какой клиент Azure из базы покупателей, приоьретает хотя бы 1 продукт Azure из каждой категории продуктов?"
❕ Подсказки:
- Объединить таблицы с помощью LEFT JOIN
- Подсчитайть разные категории продуктов с помощью COUNT
и DISTINCT
.
Доп задание: напишие код с использованием Pandas для решения задачи.
Протестировать свой SQL-запрос и посмотреть таблицы можно здесь: https://datalemur.com/questions/supercloud-customer
Пишите свое решение в комментариях👇
@data_analysis_ml
Разбираем тестовое задание в СБЕР на позицию junior-аналитика
📣 Всем привет! Команда Simulative и наш CEO – Андрон Алексанян приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание на позицию junior-аналитика в компанию СБЕР. Это будет последний обучающий интенсив в этом году.
Нам предстоит проанализировать историю договоров клиентов банка, провести аналитику и сформулировать бизнес-выводы.
📅 Дата: 26 декабря
🕘 Время: 19:00 по Мск
Что будем делать на интенсиве:
➖ Решать задания с помощью SQL
➖ Писать хитрые запросы на SCD, pivot table и другие
➖ Подробно разбирать каждый шаг
➖ Считать retention банка и проводить сегментацию
➖ Проводить аналитику и составлять бизнес-выводы
В прямом эфире мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩
❗️ Записи интенсива не будет. Только один раз и только в live-формате.
А вы готовы бустануть свои знания и скиллы в аналитике?
🔗 Регистрируйтесь на интенсив
Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8KD6DY
🖥 nbgather: 🧽✨ Spit shine for Jupyter notebooks
nbgather предоставляет инструменты для очистки кода, восстановления потерянного кода и сравнения версий кода в Jupyter Lab.
Загрузите расширение alpha с помощью следующей команды:jupyter labextension install nbgather
🖥 Github
@data_analysis_ml
Хорошие новости для всех, кто интересуется машинным обучением и генеративными нейросетями!
Банк ВТБ и Финтех Хаб Банка России объявляет набор на вторую совместную образовательную программу "Машинное обучение PRO: обработка документов и генеративные нейросети".
Программа состоит из двух модулей:
Теоретический модуль:
- с 12 февраля по 11 марта 2024
- Дистанционный формат
- Включает в себя лекции по основам NLP, обработке изображений, языковым моделям и другим темам
Практический модуль:
- с 18 марта по 8 апреля 2024 года.
- Дистанционный формат с несколькими очными днями в Москве
Лучшим командам будет предложено презентовать разработанный прототип на международной конференции по анализу данных Data Fusion 18 апреля 2024 года (data-fusion.ru)
Подать заявку можно на сайте программы
🖥 DataStack
Datastack - это фреймворк с открытым исходным кодом, который позволяет легко создавать веб-приложения, информационные панели , формы ввода данных или прототипы в режиме реального времени, используя только Python - опыт работы с фронтендом не требуется.
В DataStack доступно много готовых виджетов, включая запись текста, выбор из выпадающего списка, списки, кнопки, формы ввода, HTML формы , iframe, разделитель страниц, dataframe, таблицы и многое другое.pip install pydatastack
from datastack import datastack
ds = datastack(main=True)
ds.subheader('DataStack click counter app')
count = 0
def inc_count():
global count
count += 1
ds.button('Click', on_click=inc_count)
ds.write('counts: ' + str(count))
▪ Github
@data_analysis_ml
Легкий старт карьеры в Data Science и анализе данных
Начните с бесплатного урока от Марии Тихоновой – Senior Data Scientist в SberDevices и преподавателя ВШЭ.
В результаты вебинара вы:
- узнаете, чем машинное обучение отличается от классического программирования;
- научитесь решать задачи классификации методами ML;
- обучите свою первую ML-модель для распознавания рукописных цифр.
Занятие пройдёт 26 декабря в 18:00 мск и будет приурочено к старту курса «Специализация Machine Learning». После урока вы сможете продолжить обучение на курсе в рассрочку.
Для бесплатного участия и получения записи регистрируйтесь прямо сейчас: https://otus.pw/lU4k/?erid=LjN8KFngH
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963