🐼 Pandas для анализа данных. 33 функции библиотеки Pandas полезные в работе.
В этой статье я перечислю 33 лучших функций, встроенных в библиотеку Pandas, которые обычно используются для анализа данных, и, возможно, этих функций будет достаточно для выполнения какой-либо вашей задачи.
➡️ Читать дальше
@data_analysis_ml
🖥 Mathematical Statistics and Data Analysis
Отличная бесплатная книга на английском предназначена для специалистов по данным, для изучения статистики.
📚 Книга
@data_analysis_ml
🎓 Математика для Data Scientist. Книги, курсы, лекции и рекомендации.
Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.
Для специалиста Data Science важны следующие направления математики:
- статистика;
- теория вероятностей;
- математический анализ;
- линейная алгебра.
💨 Читать дальше
@data_analysis_ml
🖥 15 крутых трюков Jupyter, которые сэкономят время при работе с данными.
Как специалисты по анализу данных мы используем Jupyter Notebook практически каждый день – от загрузки данных до создания и развертывания моделей с его помощью.
Мне нравится Jupyter Notebook за её простой и удобный дизайн и при этом Jupyter незаменим для решения любых python-ориентированных задач. В частности, Jupyter поддерживает возможность запуска и тестирование скриптов с множеством датасетов.
Однако, при всей простоте этого инструмента, мы часто склонны совершать ошибки, которые приводят к потере времени и увеличению затрат мощности.
В этой статье мы расскажем о некоторых советах и хитростях, которые должен знать каждый специалист по работе с данными. Эти трюки помогут сэкономить время и увеличить продуктивность работы.
➡️ Читать дальше
@data_analysis_ml
✅ Создаем программу искусственного интеллекта, которая воспринимает человеческую речь с Python и OpenAI
Создать программу искусственного интеллекта, которая воспринимает человеческую речь и отвечает на вопросы, не так сложно, как кажется. Такое чудо можно сотворить за один день с помощью нескольких пакетов Python и API.
➡️ Читать дальше
🖥 Код
@data_analysis_ml
Уже больше 70 лет биологи исследуют состояние Байкала: берут пробы воды в одной и той же точке и вручную ведут подсчет микроорганизмов. Этот метод не менялся с 1945 года. Теперь учёным помогают алгоритмы машинного обучения — они анализируют виды и формы планктона и экономят время специалистов.
Нейросеть Yandex Cloud стала доступна в опенсорсе — то есть и сам алгоритм, и датасет можно использовать в исследованиях других водоемов по всему миру. Читайте подробнее в блоге.
Посмотрите короткометражку о том, как нейросети учились различать байкальских рачков, а специалисты из разных областей — понимать друг друга
⭐️ Data Science: Wrangling
Еще один бесплатный курс от Harvard. С этим курсом вы научитесь датамайнингу, обработке и преобразованию данных в форматы, необходимые для анализа.
➡️ Курс
@data_analysis_ml
⭐️ Data Science: Machine Learning (Harvard university)
Отличный бесплатный курс от Harvard. Создайте систему рекомендаций фильмов и изучите научные основы одного из самых популярных и эффективных методов обработки данных.
По мере создания системы рекомендаций фильмов вы узнаете, как обучать алгоритмы с использованием обучающих данных, чтобы алгоритм мог предсказывать результат для будущих наборов данных. Вы также узнаете о переобучении и способах его избежать.
➡️ Курс
ставьте ❤️, если подобный контент вам полезен
@data_analysis_ml
🙂 Ускоряем анализ данных. В 4 раза быстрее операции Pandas с минимальным изменением кода
Одним из основных ограничений Pandas является то, что он может быть медленным при работе с большими наборами данных, особенно при выполнении сложных операций. Это может расстроить специалистов по обработке данных и аналитиков, которым в своей работе необходимо обрабатывать и анализировать большие наборы данных.
Есть несколько способов решить эту проблему. Одним из способов является использование параллельной обработки.
➡️ Читать дальше
🖥 Github
@data_analysis_ml
🎲 Бесплатный курс по основам статистики
Курс знакомит слушателей с основными понятиями и методами математической статистики. В течение трех недель мы рассмотрим наиболее широко используемые статистические методы и принципы, стоящие за ними. Полученных знаний будет достаточно для решения широкого круга задач, возникающих в рамках исследовательской работы.
➡️ Курс
ставьте ❤️, если подобный контент вам полезен
@data_analysis_ml
Узнайте, как правильно исследовать опыт пользователя и составлять Customer Journey Map! За 5 дней расскажем о лучших мировых и российских практиках использования карты пути клиента. О ее видах (UJM, EJM, PJM) и ключевых компонентах.
✔️ Что будем делать на онлайн-курсе «Customer Journey Map»▻
Изучать мировую практику CJM и Service Blueprint и решать прикладные кейсы.▻
Проводить исследования пользователей и правильно упаковывать результаты. глубинных интервью в карту CJM.▻
Создавать прототипы решений, ориентированные на интуитивный опыт пользователей.
🔎 Инструменты, которые вы освоите:
• Gap map
• Product Evolution Canvas
• Service Blueprint
• Карта эмпатии и персона-модель
• Прототипирование
💡Курс для тех, кто хочет улучшать продукты на основе реального опыта человека. Для тех, кто создает бесшовный клиентский опыт. Для тех, кому важно выявить и проработать «боли» пользователя.
🎓 После прохождения онлайн-курса участники получат именной сертификат Центра дизайн-мышления.
Подробнее: https://dtcenter.ru/education/online_intensives/cjm
⭐️ Бесплатный курс Визуализации данных от Kaggle
https://www.kaggle.com/learn/data-visualization
@data_analysis_ml
✔️ Огромный список шпаргалок Data science на все случаи жизни.
Тщательно подобранный список потрясающих шпаргалок по науке о данных, машинному обучению и статистике чтобы решать любые задачи.
➡️ Шпаргалки
ставьте ❤️ и отправляйте друзьям
@data_analysis_ml
🚀 Библиотека eli5 в приложении к задачам регрессии и классификации
Библиотека scikit-learn для многих профессионалов в области машинного обучения является своего рода «lingua franca» (международный язык, на котором говорят и которому учатся по всему миру), без которой не обойтись. Но, в тоже время, она имеет ряд таких недостатков, как отсутствие объяснения выбранных весов в моделях машинного обучения и сделанных этими моделями прогнозов. Компенсировать это обстоятельство пытается библиотека eli5.
eli5 означает «объясни, как будто мне 5». Использование этого термина обычно предполагает объяснение сложной или непонятной темы простыми словами, таким образом, чтобы это мог понять даже пятилетний ребенок. Однако это сокращение редко используется буквально, eli5 означает ответ на вопрос через понятные читателю термины.
➡️ Читать дальше
🖥 Github
📋 Документация
@data_analysis_ml
🔧 Подготовка данных для расширенного машинного обучения
Предварительная обработка и очистка данных должны проводиться до того, как набор данных будет использоваться для обучения модели. Необработанные данные зачастую искажены и ненадежны, и в них могут быть пропущены значения. Использование таких данных при моделировании может приводить к неверным результатам. Эти задачи являются частью процесса обработки и анализа данных группы и обычно подразумевают первоначальное изучение набора данных, используемого для определения и планирования необходимой предварительной обработки. Более подробные инструкции по процессу TDSP см. в процедуре, описанной в статье Процесс обработки и анализа данных группы.
Задачи предварительной обработки и очистки данных, например задача изучения данных, могут быть выполнены в самых разнообразных средах, таких как SQL, Hive или Студия машинного обучения Azure (классическая версия), и с помощью различных средств и языков, таких как R или Python, в зависимости от того, где хранятся данные и как они отформатированы. Поскольку по свой природе процесс TDSP является итеративным, эти задачи могут выполняться на различных этапах рабочего процесса.
➡️ Читать дальше
@data_analysis_ml
🖥 SQL для анализа данных. 7 аспектов SQL, которые следует знать специалисту по работе с данными.
Пост содержит в себе все ключевые элементы SQL, которые должен знать каждый специалист по Data Science. Этой статьей мы начинаем цикла статей – SQL для анализа данных.
➡️ Читать статью
🖥 Десять практических упражнений SQL
@data_analysis_ml
🗣 Делаем проект по анализу речи на Python
Представьте ситуацию: вас назначили спикером на мероприятии, и вы даже знаете, о чем хотите рассказать аудитории. Но будет ли публикой воспринят ваш доклад так, как вы себе это представляли? Давайте посмотрим, что может пойти не так, и как это исправить.
Как часто нам приходится выступать с докладом, презентацией, проводить обучение, быть спикером на конференции? Если деятельность напрямую не связана с человеческим общением, навык грамотно доносить свою точку зрения теряется естественным образом. Друзья и близкие зачастую воспринимают нас “как есть”, исключая обратную связь для сохранения отношений. Несмотря на лояльность друзей и коллег, практика публичных выступлений важна и необходима для поддержания способности передавать свои мысли и чувства.
Данное исследование поможет разобраться с нашими вербальными привычками и подсветит зоны роста. К его созданию меня подтолкнул спикер одного из youtube каналов it-направленности. Его речь, наполненная идиомами и вводными словами, мешала восприятию основного полезного контента. Впоследствии родилась идея перевести аудиозаписи роликов в текст и выяснить, какие выражения чаще других перегружают речь. Первой задачей стала транскрибация целевой аудиодорожки, второй – анализ текста, третьей — выводы и работа над ошибками.
✔️ Читать дальше
🖥 Код
@data_analysis_ml
🔥 Освойте все актуальные навыки NLP-специалиста.
🚀 Запишитесь в группу онлайн-курса «Natural Language Processing (NLP)» от OTUS. В программе курса — все самые актуальные знания, современные инструменты и практика, приближенная к реальным задачам. Вы научитесь работать с текстовыми данными, парсить данные с сайтов, применять методы классического NLP, а также создавать телеграм-ботов и вопросно-ответные системы.
💣 В конце вас ждет практический проект из области NLP, проходящий все этапы построения модели от сбора данных и их предобработки до обучения модели и анализа ее результатов.
👉 Старт занятий — 28 декабря.
💻 Пройдите тестирование и успейте оставить заявку и занять место в группе со скидкой -23%.
❗️Сейчас действуют новогодние скидки! Возможна оплата в рассрочку!
Реклама. Информация о рекламодателе на сайте www.otus.ru
🖥 20 основных команд Linux для Data Scientist специалистов.
Базовые команды Linux для улучшения рабочего процесса обработки данных. Это даст вам возможность автоматизировать задачи, создавать конвейеры, получать доступ к файловым системам и эффективно использовать команды для работы с данными.
✅ Читать
@data_analysis_ml
💨 Выбираем оптимальный вариант хранения даннных с Parquet.
Порой случается так, что различные данные невозможно загрузить, обработать и сохранить для передачи или дальнейшей обработки из-за их большого объема. Тем не менее эту проблему можно решить путем грамотного выбора формата их хранения.
➡️ Читать дальше
@data_analysis_ml
🖥 Настройка интерпретатора Python внутри CHATGPT. Ai Пишет код на Python.
Вам больше не нужен интерпритатор.
Этот рассказ вдохновлён другой историей, “Настройка Виртуальной Машины внутри ChatGPT”. Я был впечатлен и решил попробовать нечто подобное – в этот раз вместо командной строки Linux давайте попросим ChatPGT стать нашим интерпретатором Python.Можно воспринимать эту статью как инструкцию по работе с CHATGpt.
Вот исходная команда для инициализации ChatPGT:
Я хочу, чтобы ты выступил в роли интерпретатора Python. Я буду вводить команды, а ты будешь отвечать, что должен показать вывод Python. Я хочу, чтобы ты отвечал только с выводом на терминал внутри одного уникального блока кода, и ничего больше. Не пиши объяснений, выводи только то, что выводит Python. Не вводи команды пока я не дам соответствующих инструкций. Когда мне нужно сказать тебе что-то по-английски, я буду делать это, помещая текст внутри фигурных скобок, как это сделано здесь: {пример текста}. Моя первая команда – a=1.
➡️ Читать дальше
@data_analysis_ml
Про AutoML, от истоков и определения, до перспектив в будущем, в подкасте «Деньги любят техно» (специальная серия Data Science) поговорили Денис Суржко, начальник управления перспективных алгоритмов машинного обучения ВТБ и Алексей Натёкин, основатель сообщества ODS. Обсудили самые острые вопросы и рассказали, каким будет дата-сайентист будущего.
Послушать подкаст можно на любой удобной платформе.
Реклама, Банк ВТБ (ПАО) https://www.vtb.ru/
🖥 Использование SQL для анализа данных
SQL или язык структурированных запросов — это язык программирования, используемый для связи с базами данных. Это позволяет пользователям извлекать, манипулировать и управлять данными, хранящимися в системах управления реляционными базами данных (RDBMS). SQL — это мощный инструмент для анализа данных, поскольку он позволяет пользователям быстро и легко получать доступ к большим объемам данных, хранящихся в базе данных, и манипулировать ими. В этой статье мы рассмотрим основы использования SQL для анализа данных.
SQL или язык структурированных запросов — это язык программирования, используемый для управления данными, хранящимися в реляционных базах данных, и манипулирования ими. Это мощный инструмент для анализа данных, поскольку он позволяет пользователям легко извлекать и обрабатывать большие объемы данных организованным и эффективным образом.
➡️ Читать дальше
@data_analysis_ml
🌐 Бесплатный курс Анализ данных
Продолжаем публиковать полезные бесплатные курсы.
Цель курса - приобретение слушателями необходимых знаний методов статистического анализа данных и практических навыков их применения.
В процессе изучения курса слушатели получат базовые теоретические знания статистической методологии анализа статистических данных в части оценки колеблемости, динамики и структуры, а также построения прогнозных оценок.
В курсе рассматриваются прикладные аспекты анализа на основе абсолютных, относительных и средних величин, показателей вариации, взаимосвязи и структурных сдвигов. Рассмотрены вопросы анализа динамики социально-экономические явлений и построения прогнозных оценок на основе простейших методов прогнозирования.
Курс будет полезен тем, кто хочет понять статистику, познать суть методов статистического анализа данных и возможности из прикладного применения для решения конкретных практических задач.
➡️ Курс
@data_analysis_ml
🖥 ChatGPT: Конец программированию (как мы его знаем). Искусственный интеллект, который пишет код.
Когда я впервые воспользовался ChatGPT, это взорвало мой мозг.
Я не мог поверить, что этот чат-бот на базе искусственного интеллекта может писать код на многих языках, отлаживать код, переводить код с одного языка программирования на другой, писать скрипты с нуля и т.д.
Хотя я сомневаюсь, что ChatGPT когда-либо сможет заменить программиста, я думаю, что этот , когда программируем, а также началом новых возможностей в ит-области.
Вот как ChatGPT изменит область программирования.
➡️ Читать
🖥 ChatGPT объясняет ошибки в коде
@data_analysis_ml
📊 Курс про основы Julia для применения в Data Science проектах
Язык Julia создан математиками для математиков, он действительно прост, красив и элегантен, но при этом очень быстр. За последние годы, язык созданный в 2009 году сильно окреп, оброс серьезной экосистемой и стал действительно привлекать внимание специалистов в области анализ данных. Именно поэтому мы решились сделать курс про основы Julia для применения в Data Science проектах.
🖥 Github
✔️ Плейлист на YouTube
➡️ Инструкция
@data_analysis_ml
Что индустрия AI и ML подарила нам в уходящем году?
Наливайте какао с зефирками и подключайтесь к встрече, где команды Cloud, SberDevices и Sber AI подведут итоги года в сфере ML-deep-tech разработок.
📆 22 декабря в 11:00 на вебинаре «Трансформеры для генерации контента в ML Space: итоги года и тренды 2023» обсудим:
✅ state-of-the-art инструменты для оценки больших базовых моделей в 2022 году и тенденции на 2023;
✅ как ученые и разработчики объединяют усилия, чтобы обеспечить самые крутые результаты работы моделей;
✅ на десерт — обзор всего самого мощного, что за год появилось на витрине AI Services и DataHub и способы применить это на практике.
Ждем всех неравнодушных к AI и ML — дата-сайентистов, ML-инженеров, ИТ-директоров, разработчиков и продактов.
Зарегистрироваться на вебинар
❓Хотите научиться визуализировать метрики и данные с помощью BI-инструментов?
Приходите 20 декабря в 20:00 на открытый урок «BI решения на основе open-source: Python Dash».
⚡️На занятии онлайн-курса «BI-аналитика» OTUS вы узнаете о возможностях конструирования custom дашбордов при помощи нативного Python и библиотек Plotly и Dash.
Урок будет полезен аналитикам данных, продуктовым и маркетинговым аналитикам, Data Scientist’ам, дата инженерам, Product Owner’ам, Project Manager’ам и BI-аналитикам, которые хотят углубиться в тему создания и развёртывания Business Intelligence моделей и решений.
🔥В результате урока мы построим небольшой дашборд из тестовых данных, узнаем базовые сущности и объекты, используемые в Python Dash.
Пройдите вступительный тест, чтобы записаться на урок:
https://otus.pw/4sTO/
Сейчас действуют новогодние скидки -23% на все курсы.
Яндекс Практикум запускает бесплатный курс, который поможет выбрать профессию в анализе данных. Расскажем, чем занимаются разные аналитики, сколько они зарабатывают и как стать одним или одной из них.
Курс будет полезен, если
→ у вас нет опыта, но хочется работать в анализе данных;
→ хотите сменить профессию, но не знаете, с чего начать.
После курса можно будет пройти бесплатную вводную часть о профессии, которая понравилась. Там вы решите первые практические задачи настоящих аналитиков.
Начините путь в анализ данных вместе с Практикумом →
Хотите выйти на новый уровень в аналитике данных и стать действительно крутым специалистом?
Всему необходимому для решения своих рабочих задач можно научиться на курсе «Аналитик данных» от школы karpovꓸcourses за 5 месяцев. Вы не только изучите теорию, но и на практических кейсах отточите навыки работы со всеми актуальными инструментами для анализа данных.
В программу курса входят:
– Python и SQL
– Git и Airflow
– Теория вероятностей
– Статистика и A/B-тесты
– Продуктовая аналитика
– Визуализация данных
Обучение построено на реальных задачах индустрии и проходит в формате буткемпа, когда максимум знаний даётся за минимальный срок. Преподаватели — специалисты с опытом работы в топовых IT-компаниях.
Записывайтесь на курс по ссылке до 19 декабря — по промокоду DAML35 вы получите скидку 10%.
Также на сайте доступна бесплатная демоверсия — можете начать с неё.