🖥Python анализ данных с Pandas. PandaSQL
▪Видео
▪Код из видео
▪Введение в Pandas
@data_analysis_ml
⚡Легкий способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
Go: t.me/Golang_google
Java: t.me/java_library
Базы данных: t.me/sqlhub
Машинное обучение: t.me/ai_machinelearning_big_data
Data Science: t.me/machinelearning_ru
C/C++/ t.me/cpluspluc
C#: t.me/csharp_ci
Хакинг: t.me/linuxkalii
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/python_job_interview
Rust: t.me/rust_code
Javascript: t.me/javascriptv
React: t.me/react_tg
PHP: t.me/phpshka
Android: t.me/android_its
Linux: t.me/+A8jY79rcyKJlYWY6
Big Data: t.me/bigdatai
Devops: t.me/devOPSitsec
Тестирование:/channel/+F9jPLmMFqq1kNTMy
Собеседования: /channel/machinelearning_interview
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
ИИ: t.me/vistehno
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
У Яндекс Практикума есть бесплатный курс по основам Python-разработки. Программу составили опытные разработчики и методисты, чтобы вы сами могли освоить базу Python.
На курсе вы
— узнаете, какие задачи решает бэкенд-разработчик;
— будете писать код на Python — с первого урока;
— создадите программного помощника Анфису;
— узнаете, как устроено полноценное обучение в Практикуме.
После бесплатного курса вы сможете принять спокойное, взвешенное решение.
→ Начните действовать: разберитесь бесплатно, что к чему в Python.
🗺Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab,
и позволяет анализировать и визуализировать геоданные без особого труда.
Leafmap теперь поддерживает загрузку и визуализацию данных из Google Solar API, включая аэроснимки, маску зданий, цифровую модель поверхности, годовой/месячный/часовой солнечный поток 🛰️☀️.
▪Github
▪Documentation
▪giswqs">Лекции по работе с Leafmap
@data_analysis_ml
🖥 Полный курс по библиотеке Numpy. Урок 5: Продвинутые функции.
▪Видео
▪Код из видео
▪Часть 1
▪Часть 2
▪Часть 3
▪Часть4
@data_analysis_ml
👆 Принципы SOLID в инженерии данных. Часть 1.
SOLID — это набор основных принципов процесса разработки ПО, направленных на упрощение чтения, тестирования и сопровождения кода.
Как расшифровывается SOLID
Акроним SOLID расшифровывается так:
• Single responsibility principle («Принцип единственной ответственности»).
• Open/close principle («Принцип открытости/закрытости»).
• Liskov substitution principle («Принцип подстановки Лисков»).
• Interface segregation principle («Принцип разделения интерфейса»).
• Dependency inversion principle («Принцип инверсии зависимостей).
1. Принцип единственной ответственности
Согласно этому принципу, класс должен меняться только по одной причине. То есть у каждого модуля должно быть только одно назначение, отчего код становится удобнее для восприятия и тестирования.
Примеры
Продемонстрируем нарушение и соблюдение принципа единственной ответственности, создав простой класс для банковского счета:
а) нарушение принципа:class BankAccount:
def __init__(self, account_number: int, balance: float):
self.account_number = account_number
self.balance = balance
def deposit_money(self, amount: float):
self.balance += amount
def withdraw_money(self, amount: float):
if amount > self.balance:
raise ValueError("Unfortunately your balance is insufficient for any withdrawals right now ... ")
self.balance -= amount
def print_balance(self):
print(f'Account no: {self.account_number}, Balance: {self.balance} ')
def change_account_number(self, new_account_number: int):
self.account_number = new_account_number
print(f'Your account number has changed to "{self.account_number}" ')
Принцип нарушается, поскольку классом BankAccount контролируется больше одной задачи, связанной с банковскими счетами: управление профилями счетов и управление денежными средствами.
б) соблюдение принципа:
А вот пример соблюдения принципа:class DepositManager:
def deposit_money(self, account, amount):
account.balance += amount
class WithdrawalManager:
def withdraw_money(self, account, amount):
if amount > account.balance:
raise ValueError("Unfortunately your balance is insufficient for any withdrawals right now ... ")
account.balance -= amount
class BalancePrinter:
def print_balance(self, account):
print(f'Account no: {account.account_number}, Balance: {account.balance} ')
class AccountNumberManager:
def change_account_number(self, account, new_account_number):
account.account_number = new_account_number
print(f'Your account number has changed to "{account.account_number}" ')
class BankAccount:
def __init__(self, account_number: int, balance: float):
self.account_number = account_number
self.balance = balance
self.deposit_manager = DepositManager()
self.withdrawal_manager = WithdrawalManager()
self.balance_printer = BalancePrinter()
self.account_number_manager = AccountNumberManager()
def deposit_money(self, amount: float):
self.deposit_manager.deposit_money(self, amount)
def withdraw_money(self, amount: float):
self.withdrawal_manager.withdraw_money(self, amount)
def print_balance(self):
self.balance_printer.print_balance(self)
def change_account_number(self, new_account_number: int):
self.account_number_manager.change_account_number(self, new_account_number)
Задачи, связанные с управлением банковским счетом, мы разделили на отдельные классы, упростив в случае необходимости изменение классов одинакового назначения.
в) пример расширения кодовой базы:
🔘 Продолжение части 1.
🔘 Часть 2.
@data_analysis_ml
🖥 Полный курс по библиотеке Numpy. Урок 4: Создание матриц из файла.
▪Видео
▪Код из видео
▪Часть 1
▪Часть 2
▪Часть 3
@data_analysis_ml
🦅 Falcon 180B is here!
Falcon 180B устанавливает новый уровень для открытых моделей. Это самая большая открытая языковая модель со 180 миллиардами параметров, которая была обучена на огромном массиве данных TII RefinedWeb, насчитывающем 3,5 триллиона лексем. Это самый продолжительный период предварительного обучения открытой модели на одной эпохе.
По своим возможностям Falcon 180B достигает самых высоких результатов в задачах на естественном языке. Он занимает первое место в рейтинге предварительно обученных моделей открытого доступа и конкурирует с собственными моделями, такими как PaLM-2.
🤗 HF: https://huggingface.co/blog/falcon-180b
🖥 Github: https://github.com/huggingface/blog/blob/main/falcon-180b.md
📕 Demo: https://huggingface.co/spaces/tiiuae/falcon-180b-demo
/channel/data_analysis_ml
Станьте дипломированным экспертом по Data Science и развитию искусственного интеллекта
Первый университет Сибири – ТГУ запускает первую онлайн-магистратуру в России по программе «Анализ естественного языка (NLP) в лингвистике и IT».
На программе вы:
●Будете обучать нейросети, учить машины распознавать и анализировать человеческую речь и генерировать ответы;
●Узнаете как устроены виртуальные ассистенты, генеративные и нейронные сети (например, ChatGPT, Siri, Олег из Тинькофф);
●Получите доступ к суперкомпьютерному центру CYBERIA от ТГУ, с помощью которого вы сможете обучать нейросети и решать задачи NLP Data Science в режиме онлайн;
●Освоите инструменты: написание кода на Python, Data Mining, Feature Engineering;
●Получите знания от академического руководителя – тимлида направления Data Science в Сбере.
– Обучение очное, но в онлайн-режиме
- Студенческие льготы и отсрочка от армии
– Обучение с нуля, технический "бэкграунд" не обязателен
– Очный диплом ТГУ и готовое портфолио для дальнейшего трудоустройства.
Необходим любой диплом первого высшего образования!
А благодаря господдержке первый год обучения стоит всего от 280 р/мес!
Успейте записаться на бесплатный подготовительный курс: https://go.skillfactory.ru/nV2f3w
Прием документов до 13 сентября!
Реклама - ООО «Скиллфэктори»
Kra23UuFT
О нейросетях в кредитном скоринге на реальных примерах
Поговорить о применении нейросеток в деятельности кредитных организаций так, чтобы было не скучно, решили эксперты из управления моделирования КИБ и СМБ ВТБ, лаборатории машинного обучения Альфа-Банка и центра компетенций Data Science МТС. В новом эпизоде подкаста «Деньги любят техно» они обратились к ML с новой стороны и поделились собственным опытом его внедрения в больших проектах. Заодно дали много практических советов и рекомендаций.
Послушать:
https://podcast.ru/e/dTYEDjzyYj
🔥История LLM с открытым исходным кодом: Ранние разработки (часть первая)
Понимание принципов работы GPT-Neo, GPT-J, GLM, OPT, BLOOM и других.
https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-early
@data_analysis_ml
🔥 Дайджест полезных материалов из мира : Data Science за неделю
Почитать:
— Таблица-справочник – генератор DAG? А что так можно было?
— Как создать привлекательные графики с рейтингами стран с помощью Python и Matplotlib
— Как полностью устранить дублирующие записи в ClickHouse
— Как подружить Spark и S3 для обработки файлов
— Первые шаги в ML на обучающем хакатоне: обнаружение птиц на фотографиях yolov8s + sahi
— Просто о Deep #1
— How AI models are transforming evidence-based predictions
— Auto-Synchronizing an Entire MySQL Database for Data Analysis
— "Which job sectors are witnessing a surge in demand for AI and Data Science professionals?"
— NumPy Tutorial #14: Random
— 5 Completely FREE Data Analytics Online Courses
— Innovative Smart Surfaces: Walls That Can Generate Energy and Data
— Python Cheat Sheet for Data Engineers and Data Scientists!
— Harnessing the Power of Accountability Buddies for Learning
— NumPy Tutorial #13: Array Filtering
— Exploring Connections: How Meeting People Enriched My Master's Journey
Посмотреть:
🌐 How to Use the Open-Source Hugging Chat API in Python (⏱ 07:38)
🌐 Продвинутый парсинг на Python со сменой прокси (⏱ 10:27)
🌐 Уроки Golang с нуля /#25 - Интерфейсы (⏱ 10:51)
🌐 Многопоточный парсер на Python. ООП подход (⏱ 08:24)
🌐 AI in a Minefield: Learning from Poisoned Data - Johnathan Roy Azaria (⏱ 37:07)
🌐 Orchestrating Data Assets instead of Tasks, with Dagster - Sandy Ryza (⏱ 31:06)
🌐 1,000,000,000 Parameter Super Resolution AI! (⏱ 04:59)
🌐 DeepMind-Like Gaming AI: Incredible Driving Skills! (⏱ 05:09)
Хороших выходных!
@data_analysis_ml
🗣💭 Speech Wikimedia: A 77 Language Multilingual Speech Dataset
Speech-wikimedia - это общедоступная компиляция аудиозаписей с транскрипциями, взятых из Wikimedia. Она включает 1780 часов (195 ГБ) транскрибированной речи с лицензией CC-BY-SA из различных источников и дикторов на 77 различных языках.from datasets import load_dataset
dataset = load_dataset("MLCommons/speech-wikimedia")
🤗 HH: https://huggingface.co/datasets/MLCommons/speech-wikimedia
📌Статья: https://arxiv.org/abs/2308.15710v1
⭐️ Dataset: https://paperswithcode.com/dataset/voxpopuli
@data_analysis_ml
🖥 Выполнение SQL непосредственно в Jupyter Notebook с помощью IPython-SQL
IPython-SQL – это мощный инструмент, позволяющий легко интегрировать язык SQL (Structured Query Language) в среду IPython или Jupyter Notebook. Такая интеграция позволяет выполнять SQL-запросы и взаимодействовать с базами данных, используя при этом интерактивные возможности IPython. В этом руководстве мы рассмотрим установку, настройку и базовое использование IPython-SQL.
✔️ Установкаpip install ipython-sql
✔️ Подключение к базе данных
Для подключения к базе данных сначала необходимо загрузить расширение IPython-SQL, а затем с помощью магической команды %sql задать строку подключения к базе данных. Синтаксис команды следующий:%load_ext sql
Например, для подключения к базе данных SQLite с именем example.db, расположенной в текущем каталоге, используйте:
%sql dialect+driver://username:password@host:port/database%load_ext sql
%sql sqlite:///example.db
Замените dialect+driver на соответствующий диалект и драйвер базы данных (например, mysql, postgresql, sqlite и т.д.), а также укажите необходимую информацию об аутентификации и подключении.
✔️ Выполнение SQL-запросов
После подключения к базе данных можно выполнять SQL-запросы с помощью команды %sql magic, за которой следует сам SQL-запрос. Запросы могут состоять из нескольких строк для улучшения читаемости. Вот пример:%sql SELECT * FROM employees WHERE department = 'HR';
✔️ Доступ к результатам запросов
IPython-SQL предоставляет различные способы доступа к результатам запросов. По умолчанию результаты запроса возвращаются в виде Pandas DataFrame, что облегчает работу с данными и их анализ. Чтобы присвоить результаты запроса переменной, используйте флаг -o, за которым следует имя переменной:result = %sql -o SELECT * FROM products;
Также можно получить прямой доступ к результатам запроса, используя переменную _:result = %sql SELECT * FROM orders;
print(_.head()) # Display the first few rows of the result
✔️ Магические команды
IPython-SQL предлагает дополнительные магические команды для улучшения взаимодействия с базами данных:
▪️%config SqlMagic.autocommit: Включает или отключает режим автокоммита для транзакций.
▪️%config SqlMagic.displaylimit: установка максимального количества строк для отображения в результатах запроса.
▪️%%sql: Использование двойных знаков процента для выполнения многострочных SQL-запросов.
Рассмотрим пример использования магической команды %%sql для многострочных запросов:%%sql
SELECT department, AVG(salary) as avg_salary
FROM employees
GROUP BY department
ORDER BY avg_salary DESC;
✔️ Расширенное использование
▪Продолжение
▪Github
@data_analysis_ml
🎞 🖥 Видео-уроки по парсингу на Python для сбора данных
▪ Основы работа с bs4
▪ Работаем с selenium
Работаем с selenium
▪ Сравниваем Scrappy и bs4
▪ Парсинг на Python с использованием Proxy
@data_analysis_ml
🎥 7 лучших бесплатных курсов по Конструирование признаков, которые вам стоит пройти.
1. Feature Engineering – Coursera
Этот курс предлагается компанией Google Cloud. В этом курсе вы узнаете, что является хорошим признаком и как работать с ним в модели машинного обучения.
2. Feature Engineering for Machine Learning in Python– DataCamp
Это еще один хороший курс по отбору признаков. В этом курсе вы узнаете об основах отбора признаков и о том, как конструировать новые признаки с помощью pandas.
3. Feature Engineering for Machine Learning– Udemy
В этом курсе Udemy вы узнаете о различных методах по работе с данными.
4. Data Processing and Feature Engineering with MATLAB– Coursera
В этом курсе вы будете объединять данные из различных датасетов и работать с примерами, когда часть дынных отсутствует. В начале курса вы изучите различные типы распределений.
5. Feature Engineering in R– Datacamp
В данном курсе используется программирование на языке R для отбора признаков. В этом курсе вы узнаете, как преобразовывать категориальные признаки в числовые представления и техники кодирования данных.
6. Feature Engineering with PySpark– Datacamp
Это еще один курс по работе с признаками от Datacamp. В этом курсе вы узнаете, как подготовить и очистить данные и как создать новые функции для модели машинного обучения. Затем вы узнаете, как построить модель машинного обучения и как оценить ее.
7. Feature Engineering– Kaggle
Этот курс доступен на сайте Kaggle. В этом курсе вы изучите процесс отбора признаков. В ходе курса вы научитесь определять важные признаки из вашего датасета.
@data_analysis_ml
⚡ 7 БЕСПЛАТНЫХ курсов по математике для Аналитиков данных.
1. Linear Algebra Refresher Course
Это бесплатный курс для изучения основ линейной алгебры.
2. Intro to Statistics
Курс "Введение в статистику" - это совершенно БЕСПЛАТНЫЙ курс для начинающих. Курс ведет сооснователь Udacity Себастьян Трун. Структура курса интересна и увлекательна для начинающих.
3. Intro to Inferential Statistics
Более продвинутый курс - "Введение в описательную и инференциальную статистику".
4. Intro to Descriptive Statistics
Курс "Введение в описательную статистику" - это объемный курс с уклоном в практику.
5. Eigenvectors and Eigenvalues
Это очень короткий курс, в котором вы изучите линейные преобразования, векторы, метод главных компонентов.
6. Intro to Artificial Intelligence
Курс начинается с основ искусственного интеллекта и его приложений. В рамках этого курса вы познакомитесь с различными алгоритмами поиска, такими как поиск по дереву, поиск по графу, поиск по ширине, поиск по A* и т.д.
7. Differential Equations in Action
В этом курсе 7 уроков. В нем вы научитесь находить решения систем дифференциальных уравнений.
@data_analysis_ml
🔥 Дайджест полезных материалов из мира : Data Science за неделю
Почитать:
— Руководство по масштабированию MLOps
— Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса
— Что нового в Pandas 2.1
— Готовые скрипты Python
— Machine Learning: хорошая подборка книг для начинающего специалиста
— Как понять, что клиента пора реактивировать?
— Data Vendor Lock-In and Web3
— Mastering Data Preparation for Your Dream Data Job: Using Job Postings Data
— Matplotlib Tutorial #7: Plot Color Customization
— 10 NoSQL databases available as alternatives to MongoDB
— Data Science in Human Resources: Talent Acquisition and Retention
— Explain the Central Limit Theorem in Data Science with Python?
— Ultimate Guide: Best Books for Data Science with Ratings for All Levels
— Professional literature as a way to improve your analytics skills
— Top 10 Online Courses to Learn ChatGPT in 2023
— Matplotlib Tutorial #6: Plot Line Customization
Посмотреть:
🌐 Streamlit LLM Hackathon (⏱ 03:27)
🌐 Полный курс по библиотеке Numpy. Матрицы (⏱ 11:24)
🌐 Python+SQL работа с базами данных. (⏱ 11:10)
🌐 Полный курс по библиотеке Numpy. Полезные функции (⏱ 11:05)
🌐 Полный курс по библиотеке Numpy. Применение Numpy (⏱ 11:52)
🌐 Полный курс по библиотеке Numpy. Создание матриц из файла (⏱ 15:55)
🌐 Python Атоматизация отправки email с selenium (⏱ 04:59)
🌐 Полный курс по библиотеке Numpy. Продвинутые методы работы с матрицами (⏱ 07:28)
🌐 Python анализ данных с Pandas. (⏱ 17:04)
🌐 Lightning Interview “Beyond the Code: How AI Is Disrupting the Programmer's Role” (⏱ 58:40)
🌐 Уроки Golang с нуля /#26 - Обработка ошибок (⏱ 08:14)
🌐 Introduction to Generative Art with Stable Diffusion, presented by HP Inc - Hunter Kempf (⏱ 43:48)
🌐 Emerging Approaches to AI Governance: Tech-Led vs Policy-Led - Ilana Golbin (⏱ 44:36)
🌐 Wow, NVIDIA’s Rendering, But 10X Faster! (⏱ 06:58)
Хорошего дня!
@data_analysis_ml
👩💻Как выглядит карьера специалиста по Data Science: где и чему учиться, какие soft skills нужно освоить и как не выгореть в профессии?
В новом выпуске «Уютного ФКНчика» обсуждаем, как попасть в анализ данных и куда двигаться.
⏺️Ведущий: Евгений Соколов, научный руководитель Центра непрерывного образования ФКН
Гости:
⏺Ян Пиле, руководитель группы аналитики VK и преподаватель Центра непрерывного образования ФКН НИУ ВШЭ
⏺Алексей Борисенко, инженер-разработчик по интерпретации данных в Schlumberger и выпускник программы профессиональной переподготовки «Специалист по Data Science» Центра непрерывного образования ФКН НИУ ВШЭ
Подкаст организован Центром непрерывного образования ФКН.
9 сентября Сбер приглашает IT-специалистов поучаствовать в отборе: пройти все интервью, познакомиться с командой и, возможно, даже получить оффер.
Какими задачами занимаются DS-специалисты крупнейшего банка страны? 👇
✔️ Обучают все модели искусственного интеллекта: от классического ML до глубоких нейронных сетей.
✔️ Создают инновационные сервисы от систем принятия решений до компьютерного зрения и обработки естественного языка
✔️ Развивают блочное хранилище на Teradata и DataLake на Hadoop.
✔️ Работают на Python, Spark, SQL, Hadoop, GreenPlum.
За год команда разрабатывает и внедряет более 200 моделей для отделений банка, приложений, колл-центра, банкоматов и так далее, поэтому работа точно будет интересной и разнообразной.
Переходите по ссылке и регистрируйся на One Day Offer, чтобы получить оффер мечты! 💚
Анализ данных и машинное обучение в облаке
Если вам не хватает мощностей собственного компьютера для разработки модели машинного обучения, у вас краткосрочный проект, для которого нецелесообразно покупать мощные видеокарты, или вы хотели бы собрать небольшую платформу обработки данных, используйте Data Analytics Virtual Machine.
В чем преимущества Data Analytics Virtual Machine в @Selectel:
◽Это виртуальные серверы с предустановленным набором инструментов для анализа данных, BI и машинного обучения. Решение подойдет для небольших команд и стартапов и поможет с хранением, обработкой, анализом и визуализацией данных.
◽Вам не придется тратить время на установку драйверов для видеокарты, Python и библиотек для работы с ML. Все компоненты предустановлены, сервер разворачиватся из образа и сразу готов к работе.
◽ Отсутствие vendor lock-in. Решение построено на базе Open Source инструментов: Jupyter, Prefect, Apache Superset. Вы платите только ресурсы облака по модели pay-as-you-go.
Арендовать готовый сервер и узнать больше о решении можно по ссылке: https://slc.tl/f63rg
Реклама ООО «Селектел» 2VtzqwjSSDE
💪 Data Scientist нужны бизнесу
Время стать востребованным специалистом — в этом поможет курс от Слёрм ✨
В руках Data Scientist находится будущее. Он может рассказать бизнесу:
✔️Когда произойдет отток клиентов
🕒 Как будет загружен персонал в ближайшее время
👥 На какие сегменты можно разделить аудиторию
❓ Что будет делать покупатель в магазине
И многое другое.
И специалисту для этих ответов не требуется хрустальный шар и умение видеть будущее. Достаточно знаний, которые Слёрм дает на курсе «Data Scientist».
Подробная программа и эксперты уже на сайте — можете посмотреть по ссылке ⚡️
На курсе вам дадут полноценное представление о профессии и практику с рабочими инструментами — комплект знаний и умений, с которым можно пойти работать junior Data Scientist.
Реклама. ООО «Слёрм» г. Лиски, ОГРН 1193668020545
🖥 Полный курс по библиотеке Numpy. Урок 3: применение Numpy
▪Видео
▪Код из видео
▪Часть 1
▪Часть 2
▪Упражнения
@data_analysis_ml
Овладейте основными навыками работы с искусственным интеллектом с помощью этих 10 бесплатных курсов:
1. Google - искусственный интеллект для всех
https://edx.org/learn/artificial-intelligence/google-google-ai-for-anyone
2. Microsoft - ИИ для начинающих
https://microsoft.github.io/AI-For-Beginners
3. IBM - AI for Everyone: Освоить основы
https://edx.org/learn/artificial-intelligence/ibm-ai-for-everyone-master-the-basics
4. Гарвард - Введение в искусственный интеллект с помощью Python
https://cs50.harvard.edu/ai/2023
5. Google - Введение в генеративный ИИ
https://cloudskillsboost.google/journeys/118
6. Deep Learning - Finetuning Large Language Models
https://deeplearning.ai/short-courses/finetuning-large-language-models/
7. Microsoft - Основы ИИ в Azure
https://learn.microsoft.com/en-us/training/paths/create-no-code-predictive-models-azure-machine-learning/
8. Linux Foundation - Основы работы с данными и искусственным интеллектом
https://edx.org/learn/computer-programming/the-linux-foundation-data-and-ai-fundamentals
9. Alison - 13 бесплатных курсов по ИИ
https://alison.com/tag/artificial-intelligence
10. Проекты по искусственному интеллекту
https://mygreatlearning.com/academy/learn-for-free/courses/artificial-intelligence-projects
@data_analysis_ml
🖥 Полный курс по библиотеке Numpy. Урок 2 Полезные функции.
▪Видео
▪Код из видео
▪Часть 1
▪Упражнения
@data_analysis_ml
🖥 Полный курс по библиотеке Numpy. Урок 1 Матрицы.
▪Видео
▪Код из видео
▪Упражнения по Numpy
@data_analysis_ml
🖥 Бесплатные сертификационные курсы по изучению Git и GitHub в 2023 году
❯ Введение в управление версиями с помощью Git
https://learn.microsoft.com/en-us/training/paths/intro-to-vc-git
❯ Курс GitHub от Microsoft
https://learn.microsoft.com/en-us/training/github
❯ Начало работы с GitHub
https://udemy.com/course/git-started-with-github
❯ 5-дневное испытание The Ultimate GIT
https://udemy.com/course/the-ultimate-git-5-day-challenge
❯ Контроль версий с помощью Git от Atlassian
https://coursera.org/learn/version-control-with-git
❯ Интерактивное руководство по Git
https://learngitbranching.js.org
❯ Основы командной строки: Git Bash для Windows
https://udemy.com/course/git-bash
❯ Изучение Git с помощью Bitbucket Cloud
https://hackernoon.com/top-5-free-courses-to-learn-git-and-github-best-of-lot-2f394c6533b0
❯ Изучайте Git: Все, что нужно знать
https://udemy.com/course/learngit
@data_analysis_ml
🚀 Список лучших Data Science шпаргалок
🔸Статистика - https://res.cloudinary.com/dyd911kmh/image/upload/v1662111933/Marketing/Blog/Descriptive_Statistics_Cheat_Sheet.pdf
🔸Теория вероятностей - https://res.cloudinary.com/dyd911kmh/image/upload/v1674822557/Marketing/Blog/Probability_Cheat_Sheet.pdf
🔸Data storytelling - https://res.cloudinary.com/dyd911kmh/image/upload/v1662633286/Marketing/Blog/Data_Storytelling_Cheat_Sheet.pdf
🔸Data Visualization - https://s3.amazonaws.com/assets.datacamp.com/email/other/Data+Visualizations+-+DataCamp.pdf
🔸Machine Learning - https://s3.amazonaws.com/assets.datacamp.com/email/other/ML+Cheat+Sheet_2.pdf
🔸Deep Learning - https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf
🔸Big Data - https://github.com/Ritik2703/Data-Science-Cheat-Notes-/blob/master/Big%20Data/Hadoop-and-mapreduce-cheat-sheet.pdf
🔸NLP - https://cheatography.com/sree017/cheat-sheets/nlp/
🔸SQL - https://s3.amazonaws.com/assets.datacamp.com/email/other/SQL+for+Data+Science.pdf
🔸Python - https://res.cloudinary.com/dyd911kmh/image/upload/v1673614153/Marketing/Blog/Python_Cheat_Sheet_for_Beginners.pdf
🔸R Programming - https://res.cloudinary.com/dyd911kmh/image/upload/v1654763044/Marketing/Blog/R_Cheat_Sheet.pdf
🔸Plotly Express - https://res.cloudinary.com/dyd911kmh/image/upload/v1668605954/Marketing/Blog/Plotly_Cheat_Sheet.pdf
🔸Git - https://res.cloudinary.com/dyd911kmh/image/upload/v1656573882/Marketing/Blog/git_cheat_sheet.pdf
🔸Excel - https://res.cloudinary.com/dyd911kmh/image/upload/v1674225421/Marketing/Blog/Excel_Cheat_Sheet.pdf
🔸Tableau - https://s3.amazonaws.com/assets.datacamp.com/email/other/Tableau+Cheat+Sheet.pdf
🔸Power BI - https://s3.amazonaws.com/assets.datacamp.com/email/other/Power+BI_Cheat+Sheet.pdf
@data_analysis_ml
🖥 Как создать привлекательные графики с рейтингами стран с помощью Python и Matplotlib
Шаг 1: Создание рейтингов
На первом этапе необходимо упорядочить страны по каждому году в датасете, что легко сделать с помощью pandas.def create_rankings(df, columns):
rank_columns = ["rank_{}".format(i) for i in range(len(columns))]
for i, column in enumerate(columns):
df[rank_columns[i]] = df[column].rank(ascending=False)
return df, rank_columns
Шаг 2: Создание и стилизация сетки
Теперь, когда мы подготовили данные, пришло время создать сетку, на которой мы можем рисовать наши линии и флажки.set_style
- функция Seaborn, которая создает общий стиль. Она определяет такие вещи, как цвет фона и семейство шрифтов. Я также удаляю корешки и галочки.def set_style(font_family, background_color, grid_color, text_color):
sns.set_style({
"axes.facecolor": background_color,
"figure.facecolor": background_color,
"axes.grid": True,
"axes.axisbelow": True,
"grid.color": grid_color,
"text.color": text_color,
"font.family": font_family,
"xtick.bottom": False,
"xtick.top": False,
"ytick.left": False,
"ytick.right": False,
"axes.spines.left": False,
"axes.spines.bottom": False,
"axes.spines.right": False,
"axes.spines.top": False,
}
)
Я запускаю функцию со следующими значениями.
font_family = "PT Mono"
background_color = "#FAF0F1"
text_color = "#080520"
grid_color = "#E4C9C9"
set_style(font_family, background_color, grid_color, text_color)
Для создания сетки у меня есть функция, которая форматирует оси y и x. Она принимает несколько параметров, которые позволяют мне применять различные настройки, например, размер меток.def format_ticks(ax, years, padx=0.25, pady=0.5, y_label_size=20, x_label_size=24):
ax.set(xlim=(-padx, len(years) -1 + padx), ylim=(-len(df) - pady, - pady))
xticks = [i for i in range(len(years))]
ax.set_xticks(ticks=xticks, labels=years)
yticks = [-i for i in range(1, len(df) + 1)]
ylabels = ["{}".format(i) for i in range(1, len(df) + 1)]
ax.set_yticks(ticks=yticks, labels=ylabels)
ax.tick_params("y",labelsize=y_label_size, pad=16)
ax.tick_params("x", labeltop=True, labelsize=x_label_size, pad=8)
Вот как это выглядит, когда я запускаю все, что у нас есть на данный момент.# Load data
years = ["2000", "2005", "2010", "2015", "2020", "2022"]
df = pd.read_csv("rankings.csv", index_col=None)
df, rank_columns = create_rankings(df, years)
# Create chart
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(15, 1.6*len(df)))
format_ticks(ax, years)
📌 Читать дальше
📌 Код
@data_analysis_ml
Команда архитекторов Yandex Cloud собрала общепринятые методики и проверенные практики, которые помогут оптимизировать хранилище данных на базе Greenplum:
✓ как рассчитать и спланировать оптимальную конфигурацию кластера;
✓ как выбрать модель данных;
✓ какие особенности Greenplum учесть;
✓ какой сценарий интеграции с источниками выбрать;
✓ как выполнять оптимизации кластера и другие административные операции.
Делимся с вами контентом бесплатно!
➡️ Заполните форму, чтобы получить доступ.