Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
Графовые сверточные сети: введение в GNN
Графовые нейронные сети (GNN) представляют собой одну из наиболее интересных и быстро развивающихся архитектур в области глубокого обучения.
Будучи моделями глубокого обучения, предназначенными для обработки данных, структурированных в виде графов, GNN обладают универсальностью и огромными обучающими возможностями.
Среди различных типов GNN наиболее распространенной и широко применяемой моделью стали графовые сверточные сети (GCN).
Инновационность GCN обусловлена их способностью использовать для прогнозирования как особенности узла, так и его локальность, что обеспечивает эффективный способ обработки данных, структурированных в виде графов.
В этой статье будет подробно описан механизм работы слоя GCN с объяснением его внутреннего устройства.
Кроме того, вы узнаете, как практически применять этот слой для решения задач классификации узлов с использованием в качестве инструмента PyTorch Geometric.
PyTorch Geometric (PyG) — это специализированное расширение PyTorch, созданное для разработки и реализации GNN. Эта продвинутая и в то же время удобная в использовании библиотека предоставляет полный набор инструментов для машинного обучения на основе графов.
📌 Читать дальше
📌 PyTorch Geometric
@data_analysis_ml
🖥 Если вы работаете с блокнотами jupyter для работы с Python и Data Science, попробуйте эти волшебные команды, которые сэкономят вам массу времени:🧵
1. Jupyter AI: выберите любую модель и пообщайтесь с ней прямо из блокнота Jupyter.
Используйте волшебную команду "%%ai", чтобы указать модель и пообщаться с ней, используя промыт на естественном языке: https://github.com/jupyterlab/jupyter-ai
2. %%latex:
Это позволяет отображать LaTeX-код в Jupyter Notebook. Картинка 2.
3. %%sql
С помощью команд %sql(line magic) и %%sql(cell magic)
можно выполнить любой SQL-запрос. Картинка 3.
4. %run
Запуск Python-файла в блокноте становится простым.
Если у вас есть python-файл, например, "demo .py", и вы хотите запустить его в блокноте, то это можно сделать с помощью следующей команды%run demo .py
5. %%writefile
Пример:%%writefile app .py
В результате будет создан новый файл "app .py" со всем содержимым, присутствующим в ячейке.
6. %history -n
Все мы случайно удаляем команды и их результаты в блокноте.
Для отображения всех предыдущих команд можно воспользоваться этой волшебной командой-n
поможет получить последние n команд
@data_analysis_ml
Чтобы ограничить внешний доступ и модификацию переменной за пределами класса, сделайте ее приватной, используя двойное подчеркивание.
Это позволяет свести к минимуму вероятность непреднамеренных изменений.
#Python
@data_analysis_ml
🖥 Feature engineering и кластерный анализ клиентов на PySpark.
BigData плотно входит в нашу жизнь. Датасеты растут и постоянно изменяются, что усложняет задачу кластеризации клиентов. Обычно для задач кластеризации используется библиотека Sklearn
, но с большим объёмом данных её использовать не получиться. Spark позволяет реализовать параллельные вычисления на кластерах и имеет в составе своего фреймворка библиотеку машинного обучения MLlib. В случае больших данных, когда привычные инструменты отказываются работать с такими объёмами, PySpark приходит на выручку.
При этом, прежде чем запустить алгоритмы машинного обучения на вашем датасете, необходимо подготовить данные и провести feature engineering, а это достаточно трудозатратная задача, но в то же время необходимая, так как от этого этапа во многом зависит качество конечного результата. Данный этап также необходимо делать на PySpark, опять-таки из-за объёма данных.
Перед нами стояла задача анализа массива данных заёмщиков физических лиц – злостных неплательщиков кредитов, дела по которым уже направлены в суд. Этот массив необходимо было разбить на блоки (кластеры). Цель кластерного анализа – понять, какие группы по общим признакам можно выделить, и в дальнейшем разработать для каждой группы индивидуальную тактику взыскания, и, возможно, найти пути улучшения методологии скоринга.
1. Подготовка данных
1.1. Идеи
Подготовка данных – этап, предшествующий анализу и требующий хорошего понимания предметной области. Предобработка осуществляется если не руками самого эксперта в этой области, то в очень тесном с ним сотрудничестве. Останавливаться на предварительной подготовке данных долго не будем, поскольку общих рекомендаций здесь не выработать, только кратко отметим основные моменты, которые мы произвели с нашим датасетом и которые отличаются от классической борьбы с отсутствующими значениями.
Выбирали признаки, которые:
• непосредственно характеризуют именно самого заёмщика, а не кредитный продукт, не договор и прочее;
• имеют значение до выхода на просрочку (то есть, например, данные по процедурам взыскания в анализ не берём, так как хотим разобраться в причинах, которые к этому привели).
Убрали признаки:
• дублирующие друг друга по существу (например, остаток основного долга (ОД) в валюте и остаток ОД в рублях – достаточно оставить только один показатель);
• по которым слишком много вариантов (например, 100-200 значений для признака «должность на месте работы»).
В результате предобработки датасета количество исходных данных существенно сократилось. В исходном датасете количество признаков достигало 191, после чистки на основе описанных выше идей их осталось 43. Среди них:
• признаки, связанные с первым кредитным договором: вид кредитования, срок кредита, признак реструктуризации, дата выдачи кредита, ставка, валюта и т.д.;
• числовые признаки (итого по всем договорам): сумма обеспечения, сумма общей задолженности в рублях, сумма погашений по основному долгу;
• признаки — индивидуальные характеристики заёмщика: пол, возраст, резидентство, признак vip, наличие заграничного паспорта, категория надёжности, данные, связанные с рабочей деятельности, данные, связанные с собственностью и т.д.
1.2 Реализация на PySpark
После импорта необходимых библиотеки и создания сессии Spark, входной точки каждого PySpark приложения, загружаем исходные данные и подготовленный совместно с экспертом список признаков в объекты Spark DataFrame. DataFrame – одна из двух абстракций массива данных в Spark (вторая абстракция — RDD), которая предоставляет более высокоуровневое API (по сравнению с RDD). Метод загрузки данных зависит от формата файла (в рассматриваемом примере CSV, но может быть JSON, ORC, Parquet и др.).
Далее на основе списка признаков из исходного датасета отбираем нужные колонки. Затем группируем полученный массив данных по идентификатору заёмщика, при этом для колонок с числовыми значениями данные суммируем, а для колонок с категориальными значениями оставляем только первое значение.
📌 Читать
@data_analysis_ml
Большие датафреймы могут потреблять значительные объемы памяти. Если обрабатывать #данные небольшими фрагментами, то можно избежать нехватки памяти и получить доступ к данным быстрее.
В приведенном примере кода используется chunksize=100000
, что работает примерно в 5495 раз быстрее, чем без использования chunksize
.
#tips #datascience #junior
@data_analysis_ml
📊 Pmdarima
Для достижения функциональности, аналогичной auto.arima в R, в рамках scikit-learn-подобного интерфейса, используйте Pmdarima.
Pmdarima - это статистическая библиотека, для анализа временных рядов на Python.
#Python #DataScience
• Github
@data_analysis_ml
⚡️ 7 признаков того, что вы стали продвинутым пользователем Sklearn
Вы узнаете о семи неоспоримых признаках того, что стали продвинутым пользователем Sklearn, о чем, возможно, и не подозревали. А поскольку Sklearn — самая популярная МО-библиотека, можете считать эти признаки подтверждением своего профессионализма в области машинного обучения.
Начнем!
0. Разделение на три набора
Почти все, что вы делаете в машинном обучении, направлено на избежание чрезмерной подгонки. Один из лучших способов борьбы с этим явлением — разделение данных не на два, а на три набора!
Кэсси Козырьков, руководительница отдела интеллектуальных решений в Google, считает: разделение данных — самая мощная идея в машинном обучении.
Вы знаете, что переподгонка может произойти не только на обучающей, но и на контрольной выборке. Вы замечали, что использование одного и того же набора для тестирования и настройки гиперпараметров часто приводит к утечке данных, которую трудно обнаружить.
При постоянном подстраивании гиперпараметров на основе производительности модели на конкретном тестовом наборе возникает риск переподгонки модели под этот конкретный набор.
Итак, вы обучаете выбранную модель, используя 50% имеющихся данных. Затем проводите тонкую настройку и оценку модели на отдельном контрольном наборе, содержащем 25% данных. И наконец, когда baby-модель уже готова к внедрению, тестируете ее в последний раз, используя совершенно нетронутый (то есть вы даже не просматривали первые пять строк) тестовый набор.
Помня вышеупомянутое правило, вы сохраняете этот фрагмент кода на своем рабочем столе, чтобы скопировать/вставить его в любое время:from sklearn.model_selection import train_test_split
def split_dataset(data, target, train_size=0.5, random_state=42):
# Разделение датасета на обучающий набор и остальные данные
X_train, remaining_data, y_train, remaining_target = train_test_split(
data, target, train_size=train_size, random_state=random_state
)
# Разделение оставшихся данных поровну на тестовый и валидационный наборы
X_val, X_test, y_val, y_test = train_test_split(
remaining_data, remaining_target, test_size=0.5, random_state=random_state
)
return X_train, X_val, X_test, y_train, y_val, y_test
1. Установление общепринятой базовой оценки
Как понять, вносят ли вклад в конечный продукт — идеальную модель — ваши действия в МО-проекте?
Подход “могу определить навскидку”
не годится. Здесь нужна путеводная звезда — некий ориентир, на который всегда можно опереться, чтобы понять, может ли только что подготовленная модель пройти хотя бы простейшие тесты.
Как вы неоднократно убеждались на опыте своих проектов, эта путеводная звезда является общепринятой базовой эффективностью.
После идентификации задачи машинного обучения, выбора характеристик и определения целевой переменной вы устанавливаете либо DummyRegressor, либо DummyClassifier
, чтобы оценить эффективность модели случайного угадывания для конкретной задачи. Эта оценка служит базовой, и все последующие эксперименты направлены на улучшение этого начального результата.from sklearn.dummy import DummyClassifier
Вы не устаете рекомендовать эту практику другим, включая вашего лучшего друга.
clf = DummyRegressor().fit(X_train, y_train)
clf.score(X_test, y_test)
Однажды по глупости он перепробовал все подходящие для задачи классификации изображений Sklearn-модели и все более сложные архитектуры глубокого обучения, пытаясь выяснить, почему все его эксперименты не дают результата выше определенного порога.
Когда вы напомнили ему о базовой оценке, он попробовал DummyClassifier
и понял: задача в принципе была неразрешима и все его усилия оказались пустой тратой времени, потому что ни один из его экспериментов не смог превзойти модель случайного угадывания. Ему пришлось искать новый набор данных.
Ничто не сравнится с ужасом перед оверинжинирингом (чрезмерным инжинирингом), когда модель, казавшаяся исключительной, оказалась совершенно неэффективной.
📌 Читать дальше
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Есть ли жизнь после Nvidia?
— Откройте свое будущее: Изучите 15 бесплатных курсов IBM прямо сейчас
— Перевод трактата по демонологии при помощи GPT-4 и Claude
— Откройте свое будущее: Изучите 15 бесплатных курсов IBM прямо сейчас
— SAGE: коррекция орфографии с помощью языковых моделей
— Python, Go или… готовим сырой видеопоток с полсотни камер
— Как мы используем NLP в банке
— Нейронные сети для планирования движения беспилотных автомобилей
— Организация GPU-вычислений для машинного обучения в компании: проблемы и трудности
— Детекция дефектов дорожного покрытия без размеченных данных: Хакатон, LiDAR, RANSAC, ICP и 44 бесcонных часов
— Чат GPT-4V, который видит — что он умеет
— Feature engineering и кластерный анализ клиентов на PySpark
— Trabaje con sus datos en tiempo real usando Langchain
— BakaLLM, part 3: it's testing time, it's testing time
— Enabling Language Models to Implicitly Learn Self-Improvement
— Introdução ao Aprendizado de Máquina Online
— Why Python is a first choice for Data scientist
— Mastering Machine Learning: Your Path to Excellence with UpSkill Certifications
— Data Science for Beginners: 2023-2024 Edition
— Data Science for beginners, complete roadmap.
— Data Science Beginner's guide.
— The Ultimate Guide to Getting a Data Scientist Job in 2023 (Even If You're a Beginner)
Посмотреть:
🌐 Разбор задачи с собеседования Data Science. Подготовка на практике (⏱ 26:12)
🌐 Cобеседование #Python топовый банк Goldman Sachs Associate на 12000 $ #задача #программирование (⏱ 01:00)
🌐 Interview: "Large Language Model Operations: The Next Frontier in MLOps" (⏱ 59:18)
🌐 Exploring the Generative AI Landscape: From Basics to Hands-on Applications - Raghav Bali (⏱ 32:54)
Хорошего дня!
@data_analysis_ml
✔ No Black Box Machine Learning Course – Learn Without Libraries
Как насчет курса по машинному обучению, который не опирается на библиотеки?
В этом курсе "без черного ящика" алгоритмы изучаются с нуля.
Вы узнаете, как они работают и создадите несколько интересных DS проектов таких, как приложение для рисования, визуализатор данных и многое другое.
• Video
• Github
• Course
@data_analysis_ml
🖥 Оптимизация хранения данных в СУБД Greenplum
Greenplum — это open source MPP СУБД, основанная на PostgreSQL.
Архитектура СУБД укрупненно представляет собой систему, состоящую из n-го количества Segment Host — процессов/серверов, на которых производится хранение и обработка данных, и одного Master Host – процесса/сервера, являющегося точкой входа клиента, который также хранит внутри себя метаданные таблиц и распределяет обработку данных между сегментами.
Вопрос выбора способа хранения данных для меня встал достаточно остро из-за относительно большого объема анализируемых данных. Кратко опишу набор таблиц витрины и примерное количество строк в них на данный момент:
1. Таблица с пользователями маркетплейса (более 4 млн.);
2. Корзина товаров (более 150 млн.);
3. Покупки пользователей в маркетплейсе (более 40 млн.);
4. Таблица с начислениями бонусов за покупки (более 20 млн.)
5. И т.д. (суммарно еще около 5-10 млн. строк уходят на перечень продаваемых товаров, различные справочники и другую сопутствующую информацию)
Аналитические запросы, в особенности с объединением этих таблиц, занимают достаточно большое количество времени и ресурсов, что негативно складывается на работе СУБД, коллег и меня в частности.
В связи с этим, оптимизация хранения таблиц является одним из основных вариантов оптимизации запросов (вкупе с объяснением того, как эти оптимальные запросы строить, но это уже совсем другая история).
Рассмотрим задачу выбора оптимального способа хранения данных подробнее. 👇
📌Читать
@data_analysis_ml
⚡️ bhosmer
PyTorch только что выпустил крутой инструмент для визуализации умножения матриц!
Внутри: Визуализация
умножения матриц, операций на ними и много других интересных функций.
Запустите его в браузере: http://bhosmer.github.io/mm/.
Подробнее читайте в блоге👇
http://pytorch.org/blog/inside-the-matrix/
@data_analysis_ml
⭐️ 9 лучших бесплатных курсов университета MIT по программной инженерии и науке о данных.
Эти курсы - ваш билет к совершенству.
Возможность получить актуальные знания бесплатно от одного из лучших учебных заведений мира.
Ознакомьтесь с ними ниже:
1. Введение в информатику и программирование на языке Python
https://www.edx.org/learn/computer-programming/massachusetts-institute-of-technology-introduction-to-computer-science-and-programming-7
2. Foundations Of Software Engineering.
https://ocw.mit.edu/courses/1-124j-foundations-of-software-engineering-fall-2000/
3. Компьютерные алгоритмы в системной инженерии.
https://ocw.mit.edu/courses/1-204-computer-algorithms-in-systems-engineering-spring-2010/
4 Integrating ESystems & Global Information Systems.
https://ocw.mit.edu/courses/15-565j-integrating-esystems-global-information-systems-spring-2002/
5. Оптимизация проектирования мультидисциплинарных систем.
https://ocw.mit.edu/courses/ids-338j-multidisciplinary-system-design-optimization-spring-2010/
6. Статистическое мышление и анализ данных.
https://ocw.mit.edu/courses/15-075j-statistical-thinking-and-data-analysis-fall-2011/
7. Вычисления и анализ данных.
https://ocw.mit.edu/courses/1-017-computing-and-data-analysis-for-environmental-applications-fall-2003/
8. Концепции программной инженерии.
https://ocw.mit.edu/courses/16-355j-software-engineering-concepts-fall-2005/
9. Анализ данных для социологов
https://mitxonline.mit.edu/courses/course-v1:MITxT+14.310x/
@data_analysis_ml
🐍Как Snowflake повышает эффективность dbt-моделей на Python
dbt — это инструмент, помогающий управлять всеми трансформациями данных, которые выполняются в базах данных с использованием SQL.
Допустим, у вас есть таблица с общим числом клиентских заказов, и нужно подсчитать, сколько из них пришлось на праздничные дни. Выполнить эту задачу можно с помощью двух SQL-запросов.
1. Добавить столбец is_holiday в таблицу sf100_orders, объединив ее с all_holidays. Назвать полученную таблицу sf100_orders_annotated.
2. Подсчитать строки, для которых is_holiday=true в таблице sf100_orders_annotated.
Эти два шага объединяют исходные данные, визуализированные с помощью dbt: в изображении.
Производный граф: из двух исходных таблиц составляется таблица count_holidays
Используя dbt, можно записать эти две трансформации в виде “dbt-моделей”, которые представляют собой файлы, содержащие SQL и некоторую конфигурацию dbt (при необходимости):-- sf100_orders_annotated.sql
{{ config(materialized='table') }}
select a.*, b.date is not null is_holiday
from {{ref('sf100_orders')}} a
left join {{ref('all_holidays')}} b
on a.o_orderdate = b.date
-- count_holidays.sql
{{config(materialized='table')}}
select count(*) total_days
, count_if(is_holiday) holiday_count
, holiday_count/total_days ratio
from {{ref('sf100_orders_annotated')}}
Эти два файла выглядят как типичный SQL, но с некоторым отличием. Вместо ссылок на таблицы dbt позволяет ссылаться на другие “модели” с помощью аннотаций {{ref(‘sf100_orders_annotated’)}}. Таким образом, dbt определяет связь и зависимости между всеми трансформациями, через которые проходят данные.
Продолжение
@data_analysis_ml
🔪 Jackknife+: «швейцарский нож» в конформном прогнозировании для регрессии
Jackknife+ — это эффективный метод конформного прогнозирования, разработанный ведущими исследователями в области машинного обучения из Чикагского университета, Стэнфордского университета, Университета Карнеги-Меллона и Калифорнийского университета в Беркли.
Наша задача — построить функцию регрессии с помощью обучающих данных, которые включают пары признаков (Xi, Yi). Нам нужно предсказать выход Yn+1 для нового вектора признаков Xn+1=x и создать соответствующий интервал погрешности для этого предсказания. Предположительно данный интервал будет включать истинное значение Yn+1 с заранее определенной вероятностью охвата.
Прямой подход может заключаться в подгонке базовой регрессионной модели к обучающим данным, вычислении остатков и использовании этих остатков для оценки квантиля. Этот квантиль затем может быть использован для определения ширины интервала прогнозирования для новой тестовой точки.
Однако такой подход имеет тенденцию недооценивать фактическую погрешность из-за чрезмерной подгонки: остатки, полученные из обучающего множества, обычно меньше, чем те, которые можно было бы получить на основе неизвестных тестовых данных.
📌Читать
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— TechArena Ireland: как готовился хакатон
— Визуализация распределений вероятностей в Python.
— Построение пайплайна обработки данных в реальном времени с использованием Python
— Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика
— Как мы создавали self-service функционал проверки качества данных для ML-моделей
— Становясь Пангеей: будущее современного стека для анализа данных
— Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами
— Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример
— Data Science for Beginners: 2023 - 2024 Complete Roadmap
— A Beginner's Guide to Data Analytics: Understanding the Fundamentals
— The Start of My Year-long Journey into AI: From Novice to Engineer
— Data Science for Beginners: 2023–2024 Complete Roadmap
— Data Science for Beginners: 2023 - 2024 Complete Roadmap
— Data Science Roadmap.
— How can Ed-tech companies adopt AI, and what ways will it help in revenue generation and in work Operations?
— Matplotlib Tutorial: Let’s Take Your Country Maps to Another Level
— Data Analysis with SQL
— Autoscout24 SQL Analysis
Посмотреть:
🌐 Large Language Models Are Not (Necessarily) Generative Ai - Karin Verspoor, PhD (⏱ 29:59)
🌐 Django начало работы. (⏱ 08:18)
🌐 Популярная задача с собеседования в Яндекс #python #задача #программирование #собеседование (⏱ 01:00)
🌐 Новые функции в IOS 17 (⏱ 00:29)
🌐 TokenFlow редактирование видео с помощью текстового описания (⏱ 00:22)
🌐 Парсер телеграм каналов на Python. Гайд по написанию мощного бота. (⏱ 11:58)
🌐 Задача из Собеседования в Яндекс с зарплатой 85000 рублей #python #собеседование #задача #yandex (⏱ 00:59)
🌐 Асинхронный парсинг сайтов на Python (⏱ 22:06)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices (⏱ 33:21)
🌐 OpenAI’s ChatGPT Has Been Supercharged! (⏱ 06:48)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices (⏱ 33:21)
🌐 OpenAI’s ChatGPT Has Been Supercharged! (⏱ 06:48)
🌐 New AI Listened To 20,000 Hours Of Music. What Did It Learn? (⏱ 07:33)
Хорошего дня!
@data_analysis_ml
🖥 GitUp
В командах Git иногда можно запутаться (путаница между "git reset" и "git revert" может привести к непредвиденным последствиям). Кроме того, исправление ошибок в Git может быть сложным.
GitUp представляет удобную модель взаимодействия с #Git, которая позволяет работать с Git быстро и безопасно.
GitUp предоставляет:
🔹 Быстрая отмена/повтор практически всех операций
🔹 Мгновенный поиск по всему репо, включая diff-содержимое
🔹 Интерактивный граф репо для редактирования репозитория.
🔹 Удобный пользовательский интерфейс, который работает быстрее, чем командная строка.
• Github
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Как «воспитать ламу» и ускорить ML-эксперименты
— Airflow vs NiFi: исследуем оркестратор для формирования витрин данных
— Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
— Применение нейросетевых подходов для формирования признаков в моделях
— ipywidgets: создаем графические приложения на базе Jupyter
— Как использовать GPU для ускорения аналитической обработки данных
— Введение в библиотеку Diffusers и диффузионные модели
— 70 % программистов пользуются ИИ-ассистентами. Скоро код будут писать алгоритмы?
— Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
— LLaMA 2, RWKV, Santacoder и другие LLM на iOS
— MLOps на примере прогноза движений акций с помощью MLRun
— Using ggplot2 for Visualization in R
— ИИ вместо астролога или как я создавала астробота Катю
— Learning to Decode the Surface Code with a Recurrent, Transformer-Based Neural Network
— Milvus Adventures | October 13, 2023
— Data Science Roadmap
— Exploratory Data Analysis with Data Visualization Techniques
— Data Visualization
— Exploratory Data Analysis using Data Visualization Techniques.
— Exploratory Data Analysis using Data Visualization Techniques
— Nobel Laureates’ Countries, or Creating a Word Cloud with JS
— Data Modelling
— Exploratory Data Analysis using Data Visualization Techniques
— Exploratory Data Analysis using Data Visualization Techniques
— Stream Processing Engines and Streaming Databases: Design, Use Cases, and the Future
Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. (⏱ 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL (⏱ 19:37)
🌐 Django шаблонизация и маршрутизация (⏱ 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python (⏱ 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial (⏱ 00:59)
🌐 Хитрая задача с собеседования #Python (⏱ 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" (⏱ 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly (⏱ 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Google’s New AI Watched 2,500 Videos! But Why? (⏱
Хорошего дня!
@data_analysis_ml
📊 Perspective
Perspective - это инструмент интерактивной аналитики и визуализации данных, который особенно хорошо подходит для работы с большими и/или потоковыми наборами данных. С его помощью можно создавать настраиваемые отчеты, информационные панели, блокноты и приложения, а затем развертывать их отдельно в браузере или совместно с Python и/или Jupyterlab.
• Github
• Проект
@data_analysis_ml
Cleanlab 🚀
Всего за 3 строки кода эта библиотека с открытым исходным кодом может очистить любой датасет!
Вы можете:
- удалять выбросы
- находить ошибки в данных
- выявлять дубликаты
- проводить активное обучение
- строить распределения
- И многое другое ...
Cleanlab разработана специалистами Массачусетского технологического института и работает на основе нового алгоритма под названием Confident Learning!
На картинке 2 приведено упрощенное объяснение этого алгоритма!
Библиотека работает с:
- Любыми данными (текст, изображения, таблицы, аудио и т.д.)
- Любые задачи ML (классификация,, распознавание, работа с LLM и многое другое ...)
• Github
@data_analysis_ml
✅ A/B тестирование: как сделать правильный выбор?
А/В-тестирование – это метод, который используется для сравнения двух версий переменной, например, дизайна сайта при маркетинговом исследовании с целью выявления лучшей версии. Это критически важный метод исследования в Data Science
, который часто используется различными организациями при принятии решений с целью оптимизации существующего продукта и максимизации прибыли.
Представлю, что компания, продающая мебель, хочет увеличить число кликов по баннеру «Мебель на заказ». Они значительно изменили дизайн сайта для этой цели. К сожалению, не существует способов предсказать, как именно изменится поведение людей на обновленном сайте по сравнению со старой версией. А/В-тестирование может помочь, например, измерить разницу в конверсии между двумя версиями сайта и сказать, является ли эта разница статистически значимой.
Нулевая гипотеза в рамках А/В-тестирования – предположение о том, что разницы между версиями сайта А и В в действительности нет, а все наблюдаемые различия обусловлены случайностью. Моя задача в ходе А/В-тестирования – опровергнуть нулевую гипотезу. Альтернативная гипотеза в рамках А/В-тестирования утверждает, что версии сайта А и В различны с точки зрения поведения пользователей.
Уровень значимости – это порог вероятности для определения того, являются ли результаты эксперимента статистически значимыми. Чаще всего уровень значимости устанавливается равным 0,05. Это значит, что моё утверждение о значимости результата будет справедливо на 95%
. Чем ниже выбранный уровень значимости, тем ниже риск того, что будет обнаружена разница, вызванная случайностью.
P—value – это вероятность наблюдения данного результата при условии, что нулевая гипотеза верна. Если p-value меньше, чем уровень значимости (α)
, то отвергается нулевая гипотеза в пользу альтернативной (то есть результаты являются статистически значимыми). Например, при уровне значимости 0,05 p-value
должна быть меньше 0,05
для признания результатов эксперимента статистически значимыми.
Доверительный интервал – интервал значений, в котором, с вероятностью (1- α)
, лежит истинное значение переменной. Доверительный интервал является оценкой возможных значений переменной в зависимости от её стандартного отклонения.
Статистическая мощность – вероятность отклонения нулевой гипотезы в случае, если альтернативная гипотеза верна. Обычно статистическая мощность теста устанавливается равной 0,8.
Это значение используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.
Организация эксперимента
Для проведения А/В-теста требуется разделить всех пользователей на две группы: одна группа будет видеть старый дизайн сайта, а другая – новый. Пользователи распределяются между группами случайным образом. Как правило, группу, которой показывают новый дизайн сайта (В), называют тестовой, а группу, которой показывают старый дизайн (А) – контрольной.
Целевая метрика – CTR, то есть количество кликов на баннер, делённое на количество показов. Буду сравнивать среднее значение метрики CTR для контрольной и тестовой групп. Предположу, что в контрольной группе среднее значение метрики составляет 12%, а в тестовой – 14%.
Если среднее значение метрики в тестовой группе выше, чем в контрольной, то означает ли это, что дизайн сайта В лучше дизайна сайта А? Ответ: нет. Необходимо показать, что результаты А/В-теста статистически значимы. Это означает, что различие в версиях наблюдается не случайно и не обусловлено какой-либо ошибкой. Проверить это можно с помощью статистических тестов.
Не буду заниматься сбором данных в рамках данной публикации. Буду анализировать данные, взятые из датасета с Kaggle. Скачать его можно здесь.
📌 Читать дальше
@data_analysis_ml
✅ NLP на практике. Определяем тональность текста при помощи NLTK и DL.
https://www.youtube.com/watch?v=w2y01D2tLt4
@data_analysis_ml
Сбер расширяет географию своих ивентов: 19 октября в Алматы состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨💻
На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:
✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.
✔️ Устройстве современных стримингов компаний-партнёров Сбера.
Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 19 октября в 18:00 по адресу: Алматы, Лофт 1205, 2 этаж, Restopark, проспект Сейфуллина 617 💚
🖥 В больших проектах #SQL-запросы могут становиться сложными.
Документирование помогает прояснить функциональность каждого запроса для других членов команды.
С помощью #dbt вы можете легко документировать свои запросы с помощью команды 𝐝𝐛𝐭 𝐝𝐨𝐜𝐬 𝐠𝐞𝐧𝐞𝐫𝐚𝐭𝐞.
📌 Что такое dbt
📌 Больше примеров
@data_analysis_ml
🖥 Загружай данные в 113 раз быстрее.
При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.
Для повышения скорости выполнения запросов следует переместить фильтры в движок PyArrow, чтобы использовать оптимизацию обработки PyArrow.
В приведенном ниже коде фильтрация набора данных из 100 млн строк с помощью PyArrow выполняется примерно в 113 раз быстрее, чем при использовании pandas.
📌 Смотреть код
@data_analysis_ml
🦙 Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads
Попробуйте модель, которая ускоряет в генерацию текста 2 раза: Medusa упрощает и ускоряет большие языковые модели.
Ваша исходная модель остается нетронутой, а в процессе обучения производится только тонкая настройка новых функций. В процессе генерации каждая из этих функций выдает несколько вероятных слов для соответствующей позиции. Затем эти варианты комбинируются и обрабатываются с помощью механизма внимания
, древовидной структуры. Затем, выбираются наиболее правдоподобные генерации для дальнейшего декодирования.pip install medusa-llm
• Github
• Как работает модель
@data_analysis_ml
В начале сентября прошла Practical ML Conf, а сейчас Яндекс опубликовал плейлист с записями докладов, в которых ведущие инженеры ВТБ, Авито, Сбера и самого Яндекса рассказывают о своем опыте применения практического машинного обучения.
Из запоминающегося:
Алексей Морозов из Поиска поделился кейсом модернизации нейронных сетей, которая позволяет ML-инженерам и исследователям не беспокоиться о работоспособности инфраструктуры и автоматически масштабироваться в процессе работы.
Руководитель группы компьютерного зрения и робототехники, Валерий Ильин, рассказал о том, как компьютерное зрение используется в роботах на складах Яндекс Маркета.
Записи этих докладов и всех остальных можно найти здесь.
@data_analysis_ml
📊 Vizro
Если вы хотите использовать модульный и простой код для создания красивых дашбордов, рекомендуем попробовать библиотеку vizro.
С помощью нескольких строк кода и простой конфигурации можно создавать сложные дашборды, которые автоматически генерируются на основе Plotly и Dash.pip install vizro
• Github
• Документация
• Примеры с кодом
@data_analysis_ml
#карьерные_форумы #junior #intern # IT
🖥 Дайджест дней карьеры для начинающих IT-специалистов
На форуме “Найти IT” Сбер, Росатом, Kaspersky и 40+ топовых компаний завалят вас предложениями о работе!
📍 Где и когда:
— Москва: 3 октября
— Санкт-Петербург: 7 октября
— Новосибирск: 26 октября
💥 Участников ждут мастер-классы и кейсы от крутых компаний, предварительные собеседования и Q&A, мерч, призы и вкусная еда.
И все это бесплатно 😲 Нужно только прийти!
🔗 Регистрация
Реклама. ООО "ФТ". ИНН 7731611424. erid: LjN8KXdey
Считаете ребенку недостаточно школьной программы?
Опрос 200 тысяч школьников в России показал, что 60% из них мечтают построить карьеру в IT.
Школа не может помочь реализовать все мечты ребёнка, а IT-кружки рядом с домом часто дают поверхностную информацию без учёта его способностей и интересов: он теряется, опускает руки и бросает своё увлечение.
Главная задача Московской школы программистов — не только дать фундаментальные знания в IT, но и сохранить у ребёнка интерес к профессии. Мы берём ответственность за успеваемость и прогресс каждого ученика.
Ребёнок что-то не понял? Объясним через простую игровую практику. Много пропустил из-за болезни? Проведём дополнительные бесплатные занятия. Мы находим подход к каждому ребёнку.
Регистрируйтесь и начните путь к программированию!
Реклама. ЧУ ДО "МОСКОВСКАЯ ШКОЛА ПРОГРАММИСТОВ". ИНН 9715290128. erid: LjN8KGBxd
🖥 GIF
Если вы хотите без особых усилий анимировать график matplotlib
в Python, используйте библиотеку gif.
Следующая анимация создана с помощью gif.pip install gif
import gif
from random import randint
from matplotlib import pyplot as plt
x = [randint(0, 100) for _ in range(100)]
y = [randint(0, 100) for _ in range(100)]
# (Optional) Set the dots per inch resolution to 300
gif.options.matplotlib["dpi"] = 300
# Decorate a plot function with @gif.frame
@gif.frame
def plot(i):
xi = x[i*10:(i+1)*10]
yi = y[i*10:(i+1)*10]
plt.scatter(xi, yi)
plt.xlim((0, 100))
plt.ylim((0, 100))
# Construct "frames"
frames = [plot(i) for i in range(10)]
# Save "frames" to gif with a specified duration (milliseconds) between each frame
gif.save(frames, 'example.gif', duration=50)
• Github
@data_analysis_ml