data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🔍 Конвейер данных в реальном времени с Kafka и ClickHouse

Построим конвейер данных с их приемом в ClickHouse через Kafka и агрегированием автоматически обновляемых данных. Возьмем набор данных о мировых ценах на продовольствие, хоть и неидеальный для Kafka из-за отсутствия критериев скорости.

Сначала создадим на Python скрипт для выдачи сообщений — строк набора данных. Затем настроим ClickHouse для их получения и обработки, а после поэкспериментируем с представлением в реальном времени и удалением данных.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 13 упражнений по SQL с решениями

В этом наборе упражнений мы поработаем с SQL и T-SQL. С помощью этих упражнений мы будем создавать различные запросы SQL и T-SQL, чтобы отточить навыки работы с запросами.

Независимо от того, являетесь ли вы новичком или опытным разработчиком, эти упражнения помогут укрепить знания и подготовиться к реальным собеседованиям. Так что давайте погрузимся в работу и начнём решать задачи!

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Как загружать данные в SQL в 20 раз быстрее на Python

Python В SQL — Теперь можно загружать данные в 20 раз быстрее

Работа с массивными наборами данных – повседневное дело для большинства специалистов по обработке данных. Не было бы никаких проблем, если бы они сразу передавались потоком в базу данных.

Но, зачастую, случается так, что загрузка данных происходит очень долго. В таких случаях программистам приходится занимать себя другими делами, дожидаясь, пока процесс полностью завершится. Такой вариант подходит далеко не всем!

Если вы действительно хотите сократить это время, вам нужен наиболее оптимальный способ загрузки данных в БД.

🎞 Video

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Улучшите свой следующий проект с помощью этих 7 библиотек Python

Вы когда-нибудь обнаруживали, что застряли в середине проекта, пытаясь решить сложную проблему? Что ж, вы не одиноки. Многие разработчики сталкиваются с такими проблемами при создании программного обеспечения, и именно в данных ситуациях пригождаются библиотеки.

Они помогают вам легко создавать сложные и трудоёмкие ПО, экономя ваше время и усилия. С таким количеством библиотек может быть трудно решить, какую из них использовать. Итак, я составил список из 7 библиотек Python, которые обязательно помогут вам на вашем пути разработчика.

1. Dash
Это самый загружаемый и надёжный Python-фреймворк для создания веб-приложений в сферах ML и data science. Эта библиотека связывает современные элементы пользовательского интерфейса, такие как выпадающие списки, ползунки и графики, непосредственно с вашим аналитическим кодом на Python. На GitHub у неё более 18 тысяч звёзд. Вы можете ознакомиться с данной библиотекой здесь.

2. PyWhatKit
В настоящее время это одна из самых популярных библиотек для автоматизации WhatsApp и YouTube. Она проста в использовании и не требует от вас каких-либо дополнительных настроек. Библиотека PyWhatKit включает в себя множество функций, таких как отправка изображения группе WhatsApp или контакту, преобразование изображения в формат ASCII, отправка писем с HTML-кодом и многое другое. У неё более 1 тысячи звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.

3. Alive-progress
Отображение экрана загрузки или индикатора выполнения во время вычисления или загрузки данных является одной из распространённых практик при разработке программного обеспечения для улучшения пользовательского интерфейса. Как вы уже догадались по названию, эта библиотека предоставляет красивый индикатор выполнения. Она также включает в себя множество функций, таких как настройка, live spinner, ETA, классная анимация и многое другое. У неё более 4 тысяч звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.

4. TextBlob
Если вам приходится работать с обработкой текста, то это хороший ресурс для вас. Эта библиотека предоставляет простой API для погружения в обычные задачи обработки естественного языка (NLP), такие как пометка частей речи, извлечение именных фраз, анализ настроений, классификация, перевод и многое другое. Она обладает множеством функций, таких как извлечение именных фраз, анализ настроений, исправление орфографии и многое другое. У неё более 8 тысяч звезд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.

5. Pdfplumber
Как следует из названия, если вам приходится работать с pdf, то это хороший ресурс для вас. Эта библиотека поможет вам извлекать текст и таблицы из PDF-файлов, упрощая точную обработку больших объёмов PDF-данных. У неё более 3,5 тысяч звезд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.

6. Pdoc
Документация – один из важнейших этапов разработки программного обеспечения. Как вы уже догадались, эта библиотека поможет вам с документацией API вашего проекта. Она включает в себя множество функций, таких как Documentation is plain Markdown, первоклассную поддержку аннотаций типов, все другие современные функции Python 3, встроенный веб-сервер с оперативной перезагрузкой и многое другое. Эта библиотека имеет более 1,5 тысяч звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.

7. Pyrogram
Эта библиотека позволяет создавать Telegram-ботов и приложения на Python, включая поддержку асинхронного программирования и зашифрованных сообщений. Она также позволяет вам легко взаимодействовать с основным Telegram API через учётную запись пользователя (пользовательский клиент) или идентификатор бота (альтернатива bot API). У неё более 3 тысяч звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

За три месяца 36 отчётов — как «Ренессанс Страхование» перенесла работу с данными в Yandex Cloud

«Ренессанс Страхование» использовала накопленные за более чем 25 лет данные для разработки конкурентоспособных продуктов страхования. Чтобы сократить время на подготовку отчётов, компания перенесла BI-инструменты на облачную платформу Yandex Cloud.

Всего за три месяца перенесли 36 отчетов в Yandex Cloud, с которыми работают более 400 активных пользователей. Благодаря сервису для анализа и визуализации данных Yandex DataLens удалось сократить расходы на BI-аналитику и увеличить скорость обработки информации.

Читайте подробнее на сайте ➡️

Читать полностью…

Анализ данных (Data analysis)

🦙 Интеграция плагинов ChatGPT с LLaMA

OpenAI только что выпустила поддержку плагинов для ChatGPT, позволяющих языковой модели выступать в качестве агентов и взаимодействовать с внешним миром с помощью API. Здесь мы рассмотрим варианты использования chatgpt-retrieval-plugin от OpenAI с языковой моделью LLaMA от Meta.

Это больше, чем просто руководство. Это призыв к действию по созданию открытого протокола для моделей, позволяющих нам совместно использовать плагины между LLM и управлять ими.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Футбольно-аналитическая программа plus3s: прогнозирование результата футбольного матча и просто игра.

https://habr.com/ru/post/704648/

Читать полностью…

Анализ данных (Data analysis)

🐼 Добро пожаловать в Pandas 2.0

16 марта, после 3 лет разработки, был выпущен второй релиз pandas 2.0. В pandas 2.0 появилось много новых функций, включая улучшенную поддержку массивов, поддержку pyarrow для фреймов данных и новые форматы даты и времени, отличных от наносекундного, а также множество исправлений и, следовательно, изменений API.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💨 Что, где, откуда: извлекаем реляционный датасет из JSON

Когда вы сталкиваетесь с большим ненормализованным датасетом, да еще и в формате JSON, который нужно переложить в связанные SQL-таблицы, необходимо:

▪Читать датасет по чанкам;
▪Анализировать датасет на качество, смотреть на атрибуты;
▪Нормализовать датасет, раскрывать связи между сущностями и следить за их целостностью.

В целом, знание этих пунктов позволит сразу адаптировать датасет под реляционные СУБД и значительно сократить время, затраченное на его обработку, ведь со структурной точки зрения его не потребуется переделывать бессчётное количество раз. А для всего остального – есть функционал SQL.

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Python В SQL — Теперь можно загружать данные в 20 раз быстрее

Работа с большими наборами данных – повседневное дело для большинства специалистов по обработке данных. Не было бы никаких проблем, если бы они сразу передавались потоком в базу данных.

Но, зачастую, случается так, что загрузка данных происходит очень долго. В таких случаях программистам приходится занимать себя другими делами, дожидаясь, пока процесс полностью завершится. Такой вариант подходит далеко не всем!

Если вы действительно хотите сократить это время, вам нужен наиболее оптимальный способ загрузки данных в БД.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Применение простых Автоэнкодерных архитектур в задачах поиска аномалий при максимально несбалансированных данных

При работе с постоянно растущим потоком данных, довольно часто возникает необходимость проверить, не появляются ли какие-либо аномалии, будь то фродовые мошеннические операции или произвольно возникающие ошибки из-за периодически напоминающих о себе багов внутри самой инфраструктуры или, как это часто бывает, человеческого фактора. Большинство перечисленных событий не являются статистически частыми, что вносит их в рамки редких, даже аномальных, и которые необходимо как-то фиксировать и устранять.

Я хочу поделиться способом решения задач классификации, а именно поиска аномалий, при помощи неприспособленного, на первый взгляд, для этого инструмента — автоэнкодера.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Полная дорожная карта для начинающих в машинном обучении

В 18 лет я получил работу своей мечты в качестве инженера по машинному обучению, которую многие считают высококонкурентной и предназначенной для профессионалов с многолетним опытом. Путь к этому был нелёгким.

Если вы заинтересованы в том, чтобы стать инженером по машинному обучению, но не знаете, с чего начать, вы находитесь в правильном месте. В этой статье я поделюсь полной дорожной картой для того, чтобы стать инженером по машинному обучению . Дорожная карта составлена на основе обширных исследований и обсуждений с несколькими инженерами-самоучками ML

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Взуализация данных – это важная область, которую специалисты по обработке данных могут использовать для получения исследовательской информации, визуализации тенденций и закономерностей или доведения результатов своих выводов до заинтересованных сторон. Однако часто этим диаграммам не хватает чёткости, их трудно читать и интерпретировать или они просто слишком перегружены информацией, чтобы извлечь из них какие-либо значимые выводы.

Часто верно и обратное. Визуальное представление, содержащее минимум информации, может быть полностью устаревшим, и лучшей альтернативой было бы простое числовое представление или таблица.

В этой статье приведены 9 ценных советов о том, как избежать подобных сценариев и повысить ясность и эффективность информации, которую вы хотели бы донести в виде диаграмм.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

3 ПРОСТЫХ СПОСОБА КАК ВИЗУАЛИЗИРОВАТЬ ДАННЫЕ В PANDAS

Визуализация данных является важным аспектом работы с данными. Рассмотрим несколько фнкций из арсенала Pandas.

Для примера будем возьмем датасет iris:

import pandas as pd
df = pd.read_csv("iris.data", header=None,
names=["sepal_length", "sepal_width", "petal_length","petal_width","class"])
df.head()

1) pandas.DataFrame.plot
Это самый простой способ быстро создавать диаграммы. Все, что вам нужно сделать, это добавить .plot() в конце имени DataFrame.

df.plot()

Пример: df["sepal_length"].plot.hist(figsize=(15,7))

2) pd.plotting.scatter_matrix()
Функция scatter_matrix из pandas plotting быстро создает матрицу точечных диаграмм (рассеяния). Таким образом, вы можете видеть взаимосвязь каждого столбца с каждым другим столбцом датафрейма.

Просто используйте функцию:

pd.plotting.scatter_matrix(df);

Пример:
pd.plotting.scatter_matrix(df[["sepal_length",
"sepal_width"]], figsize=(15,7));


3) pd.pivot_table().plot.barh()
Функция pivot_table() группирует указанные столбцы DataFrame вместе и суммирует другие указанные числовые столбцы в соответствии с предоставленной агрегатной функцией.
Для примера изменим немного наш код:

bins = [0,5,10]
labels = ["'0-5'","'6-10'"]
df['sepal_length_bucket'] = pd.cut(df['sepal_length'],
bins=bins, labels=labels)

df.head()
После этого вы можете использовать функцию pivot_table()

pd.pivot_table(data=df, index = ["class"],
columns=["sepal_length_bucket"],
values=["sepal_width"])


@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

5️⃣ Декораторов Python, которые я использую почти во всех своих проектах в области Data Science

С помощью декораторов мы можем сократить код и улучшить его читаемость. Я постоянно декораторами в своей работе.

Вот пять наиболее распространённых декораторов, которые я использую почти в каждом проекте с большим объёмом данных.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Добрый день! В посте, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.

Задача тематического моделирования возникает очень часто, когда существует необходимость в обработке большого количества текстовой информации.

Тематическое моделирование – это разбиение коллекции текстовых документов на группы, в которых элементы имеют общую тематику. Стоит понимать, что один документ может иметь разные темы, в таком случае документ определяется распределением тематик, однако для нашей задачи крайне необходимо, чтобы документ однозначно принадлежал определенной группе. Использование метода предполагает то, что никаких дополнительных данных, кроме самого текста не используется.

Способов применения тематического моделирования в реальных задачах множество. Например, вы можете автоматически определять тематику письма в электронной почте, а после ранжировать его.

В задаче информационного поиска тематическое моделирование позволяет более качественно отбирать информацию по текстовому запросу. Исследователям, которые работают с текстовой информацией просто необходим инструмент, который может структурировать объемные текстовые массивы. Интересно и то, что предметом исследования может быть не только человеческий язык, но и любые текстоподобные данные: программный код, банковские транзакции, музыкальные произведения.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Дзен приглашает на свой апрельский офлайн-митап про факторизацию в рекомендательных системах

На встрече обсудят обучение факторизации в реальном времени и перенос её с ALS на SGD, а также опыт Дзена по улучшению рекомендаций коротких видео и увеличению их аудитории в несколько раз. Доклады будут полезны и новичкам ML-инженерии, и опытным спецам. Кроме этого, будет ML-квиз, а после — возможность для нетворкинга на афтепати.

Количество мест ограничено, регистрируйтесь по ссылке.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💨 YOLOv7 для определения поз людей на видео

В этом посте мы познакомимся с возможностями YOLOv7 для определения поз людей на видео, обсудим принцип работы алгоритма, разберёмся, чем принципиально отличается подход к детекции скелетов человека в модели YOLOv7 и других фреймворках, подробно пройдёмся по всем шагам запуска на инференс предобученной модели YOLOv7-pose для детекции людей с их скелетами.

В процессе копания в первоисточниках и не только, мне удалось почерпнуть несколько интересных фактов о YOLO, чем я поделюсь. Некоторые труднопереводимые термины будут оставаться как есть.

Читать
Код

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Руководство по эффективной визуализации данных: выбор правильного графика

Когда я впервые начал работать с визуализацией данных, я обнаружил, что мне трудно выбрать правильный тип диаграммы для точного представления данных.

Было неприятно тратить часы на создание визуализации только для того, чтобы понять, что она неэффективно передаёт задуманный смысл. Вскоре я понял, что был не одинок в своей проблеме. Многие новички сталкивались с подобным при работе с визуализацией данных, вот почему я пишу эту статью (чтобы сэкономить ваше время и лучше разобраться в графиках). Я также приведу вам примеры кода.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Пошаговое руководство по обнаружению мошенничества с использованием логистиче▪▪▪ской регрессии Python: комплексный подход

Выявление мошенничества является важнейшей задачей для различных отраслей, включая банковское дело,
страхование и электронную коммерцию. Поскольку мошеннические действия становятся всё более изощрёнными, традиционных методов, основанных на правилах, может оказаться недостаточно для выявления мошеннических транзакций.

Именно здесь методы машинного обучения, такие как логистическая регрессия, могут обеспечить более точное и эффективное решение. В этом всеобъемлющем руководстве мы углубимся в реализацию логистической регрессии для обнаружения мошенничества с использованием популярной библиотеки Sklearn на Python.

Мы применим комплексный подход, используя набор данных с открытым исходным кодом от Kaggle, и продемонстрируем этапы построения модели логистической регрессии от предварительной обработки данных до оценки. К концу этого руководства вы будете иметь полное представление о том, как реализовать логистическую регрессию в Python для обнаружения мошенничества.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖼 Погружения в библиотеку Mahotas для обработки изображений.

В даннм посте я познакомлю вас с библиотекой Mahotas, которая позволяет обрабатывать изображения. Рассмотрим некоторые методы и функции работы с картинками.

При работе с данными иногда возникает необходимость работать с изображениями. Для этого можно использовать библиотеку Mahotas. Давайте рассмотрим некоторые операции с изображениями, которые можно выполнять с ее помощью.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 7 шагов, которые помогут сделать ваши столбчатые диаграммы Matplotlib красивыми

Столбчатые диаграммы можно легко создавать в matplotlib. Однако matplotlib часто рассматривают как библиотеку, которая создаёт неинтересные диаграммы и с которой может быть сложно работать.

Но проявив настойчивость и желание, мы можем создавать эстетически приятные и информативные диаграммы.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Полезные приемы с кодом для аналитиков данных на Python

1. Data Science. Советы по написанию эффективного кода на Python - https://www.youtube.com/watch?v=1Mcy-uatp_c&t=14s

2. Полезные приемы в Pandas - https://www.youtube.com/watch?v=Sd2S5rXe8sY&t=165s

3. Раскройте потенциал Python Numpy: руководство для начинающих в науке о данных - https://www.youtube.com/watch?v=XX2XremQ0fg&t=12s

4. Data science c Python.Ускоряем Pandas в 120 раз- https://www.youtube.com/watch?v=-dAdaEv23vk&t=4s

5. 26 практических приёмов и хитростей Python - https://www.youtube.com/watch?v=vAMyfvtxxdQ&t=5s

6. 5 декораторов Python для Data Science проектов - https://www.youtube.com/watch?v=rxq11WHAlqU

7. ChatGPT + Midjouney на практике - https://www.youtube.com/watch?v=2gUqbc3Ikmo&t=5s

8. Разбор вопросов с собеседований Python - https://www.youtube.com/watch?v=4L1e-A3AOL4&t=5s

9. 15 полезных лайфхаков с кодом Машинного обучения на Python - https://www.youtube.com/watch?v=loOtlwcdiBA&t=4s

10. Декораторы Python, которые выведут ваш код на новый уровень - https://www.youtube.com/watch?v=qxrGAogl4iM

🎞 uproger">Все видео по анализу данных

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 3 быстрых и простых способа визуализации ваших данных с помощью Pandas

В этой статье мы рассмотрим 3 простых и экономящих время способа визуализации ваших данных с помощью Pandas. Кроме того, я приложил Jupyter-Notebook со всеми примерами в конце этой статьи.

Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 12 Декораторов Python, которые выведут ваш код на новый уровень

Если вы Python-разработчик, эта статья расширит ваш инструментарий полезными скриптами, поможет повысить производительность и избежать дублирования кода.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 3 Уникальные диаграммы, созданные с помощью Matplotlib

В рамках этой статьи мы кратко рассмотрим три уникальные визуализации, которые могут быть сгенерированы с помощью matplotlib (возможно, вы даже не представляли, что такое можно создать).

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

MLOps. Советы и хитрости. 75 примеров кода

MLOps, или операции машинного обучения, относятся к набору методов, которые оптимизируют разработку, развёртывание и обслуживание моделей машинного обучения.

Эта статья с содержит советы и рекомендации по MLOps и обработке данных, охватывая широкий круг тем, таких как обучение моделей, предварительная обработка данных, оптимизация производительности, мониторинг и развёртывание моделей.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Математика дата саентиста - здесь мы публикуем математические задачи и гайды для машинного обучения с упором на практику. Проверяем ваши знания, а затем на основе ошибок предлагаем статьи и уроки.

Если хочешь познать дзен и понимать как работают алгоритмы, а не просто импортировать их, подписывайся. Здесь реально учат.

@ds_math

Читать полностью…

Анализ данных (Data analysis)

⚙️ Контролируемое машинное обучение (ML): Ускоренный курс по обработке данных 2023

В этом посте мы собираемся изучить этапы, необходимые для успешной интеграции и предварительной обработки любых данных, которые могут быть использованы в аналитических проектах в машинном обучении.

Мы взяли реальный пример того, как предсказать погоду на озере Мичиган, взяв данные из двух разных источников.

Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Docker: размещение и запуск Python сценария на русском

Процесс размещения скрипта Python в контейнере Docker:

Создание Dockerfile
Создание образа из Dockerfile
Запуск образа Docker

#doc #python #docker

Читать

@data_analysis_ml

Читать полностью…
Subscribe to a channel