data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🖥 11 Полезных функций Pandas, которые вы, возможно, упустили из виду

Я совершенно уверен, что Pandas не нуждается в представлении. В этой статье мы продолжим изучать некоторые полезные функции pandas, о которых вы, возможно, не слышали.

Давайте начинать!

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💥 Шпаргалка scikit-learn: функции для машинного обучения

В этой статье мы рассмотрим 50 наиболее полезных функций, Sci-kitlearn для задач машинного обучения. От предварительной обработки данных до выбора и оценки модели — эти функции охватывают широкий спектр методов и методологий для решения реальных задач.

Мы будем использовать готовые наборы данных, чтобы проиллюстрировать применение каждой функции, чтобы вам было легче следовать и применять их в ваших собственных проектах.

Звучит фантастически? А теперь сюрприз: многие из этих функций просты в использовании и требуют для реализации всего несколько строк кода.

Независимо от того, являетесь ли вы опытным специалистом по данным или только начинаете, эта памятка поможет вам лучше познакомиться с мощными инструментами, доступными в Sci-kit, и позволит вам ускорить свои проекты по науке о данных и машинному обучению.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Курс "Машинное обучение" на ФКН ВШЭ

Конспекты лекций, материалы семинаров и домашние задания (теоретические, практические, соревнования) по курсу "Машинное обучение", проводимому на бакалаврской программе "Прикладная математика и информатика" Факультета компьютерных наук Высшей школы экономики.

Записи лекций и семинаров

▪Полный плейлист
Вводная лекция
Линейная регрессия
Линейная регрессия и градиентное обучение
Продвинутые градиентные методы, линейная классификация
Метрики качества классификации (+небольшое продолжение)
Логистическая регрессия (+продолжение)
Метод опорных векторов, многоклассовая классификация
Решающие деревья
Решающие деревья (продолжение), разложение ошибки на смещение и разброс
Случайные леса, градиентный бустинг
Градиентный бустинг (продолжение)
Стекинг. Обучение без учителя и кластеризация.
Визуализация, обучение представлений
Рекомендательные системы

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎲 t-SNE с нуля (ft. NumPy)

Я понял, что один из лучших способов по-настоящему понять любой статистический алгоритм или методологию – это реализовать его самостоятельно вручную.

С другой стороны, написание этих алгоритмов иногда может отнимать много времени и доставлять настоящую боль, и когда кто-то другой уже сделал это, зачем мне тратить на это свое время – кажется неэффективным, не так ли? И то, и другое справедливо, и я здесь не для того, чтобы приводить доводы в пользу одного, а не другого.

Эта статья предназначена для читателей, которые заинтересованы в понимании t-SNE посредством перевода математики из оригинальной статьи — Лоренса ван дер Маатена и Джеффри Хинтона — в реализацию кода на python.

Я нахожу, что такого рода упражнения достаточно хорошо проливают свет на внутреннюю работу статистических алгоритмов / моделей и действительно проверяют ваше базовое понимание относительно этих алгоритмов / моделей. Как минимум, успешная реализация всегда приносит большое удовлетворение!

Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎲 Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Алгоритм Apriori достаточно удобный инструмент, несмотря на то что он в действительности далеко не новый. Существует много других алгоритмов, в том числе и модификации Apriori для полного анализа продуктовой корзины. Но для типовых задач комбинаторики этот инструмент подходит отлично.

Пример с продуктами лишь более просто и наглядно демонстрирует возможности применения этого инструмента. В действительности задачи на поиски комбинаций с полным покрытием встречаются и в повседневной работе любого IT специалиста.

Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 9 встроенных декораторов Python, которые помогут оптимизировать код

“Лучше проще, чем сложнее” — оптимальным примером использования этого философского положения “Python-дзена” являются декораторы.
Важно помнить, что существует много функциональных встроенных декораторов Python, которые значительно облегчают жизнь разработчику. С их помощью можно использовать всего одну строку кода для добавления сложных функций к существующим функциям и классам.

Представляю вашему вниманию топ-9 декораторов, которые покажут, насколько элегантным может быть Python.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Проекты курса Аналитик данных (Яндекс.Практикум)

В репозитории представлены проекты c кодом курса Аналитик данных. Отличный вариант для практики.

🖥 https://github.com/ovalentinka/Data_analyst?

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как ChatGPT и GPT-4 можно использовать для создания 3D-контента

Спрос на 3D-миры и виртуальные среды растёт в геометрической прогрессии во всех отраслях промышленности. 3D-рабочие процессы являются основой промышленной цифровизации, разработки симуляций в реальном времени для тестирования и валидации автономных транспортных средств и роботов, эксплуатации цифровых двойников для оптимизации промышленного производства и прокладывания новых путей для научных открытий.

Сегодня 3D-дизайн и построение мира по-прежнему в значительной степени выполняются вручную. В то время как 2D-художники и дизайнеры получили в своё распоряжение вспомогательные инструменты, 3D-рабочие процессы по-прежнему заполнены повторяющимися, утомительными задачами.

Создание или поиск объектов – это трудоёмкий процесс, требующий специальных навыков 3D, оттачиваемых с течением времени, таких как моделирование и текстурирование. Правильное размещение объектов и доведение 3D-среды до совершенства требует нескольких часов тонкой настройки.

Чтобы сократить количество ручных, повторяющихся задач и помочь создателям и дизайнерам сосредоточиться на творческих, приятных аспектах своей работы, NVIDIA запустила множество проектов в области искусственного интеллекта, таких как generative AI tools для виртуальных миров.

Читать
▪ @Chatgpturbobot

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Скрытые возможности Python: набор инструментов для эффективного и гибкого написания кода

Добро пожаловать в мир Python, универсального и мощного языка программирования, известного своей простотой, удобочитаемостью и обширной экосистемой библиотек.

В этой статье мы рассмотрим скрытые функциональные возможности Python, включая магические методы, контекстные менеджеры, понимание списков, декораторы, генераторы, динамическую типизацию и метапрограммирование, которые могут значительно улучшить ваши навыки программирования.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🗒 Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Представим ситуацию. Перед вами важная задача — классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову — в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.

Задача классификации текстовых данных на языке Python довольно обширная тема, в ней могут встречаться как automl‑подходы, модели тематического моделирования так и нейросетевые методы. В рамках данного поста будет рассмотрен относительно эталонный pipeline для решения данной задачи с помощью классических моделей машинного обучения, предназначенных для классификации.

Читать

@data_analysis_ml1

Читать полностью…

Анализ данных (Data analysis)

🖥 Прощай, os.path: 15 хитростей Pathlib для быстрого освоения файловой системы на Python

Pathlib, возможно, моя любимая библиотека (очевидно, после Sklearn). А учитывая, что в мире насчитывается более 130 тысяч библиотек, это о чём-то да говорит. Pathlib помогает мне превратить подобный код, написанный в os.path…

import os

dir_path = "/home/user/documents"

files = [os.path.join(dir_path, f) for f in os.listdir(dir_path) \
if
os.path.isfile(os.path.join(dir_path, f)) and f.endswith(".txt")]

…в это:

from pathlib import Path

files = list(dir_path.glob("*.txt"))


Читать дальше

@data_analysis_ml1

Читать полностью…

Анализ данных (Data analysis)

🖥 Освоение SQL: Использование данных для решения сложных задач

Я решил подробно рассказать о том, как я подхожу к использованию SQL для запроса баз данных. Я принял участие в еженедельном конкурсе Danny’s SQL challenge, чтобы начать тематическое исследование по этой теме. Вся необходимая вам информация об этом испытании доступна здесь.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Дзен Python ООП: лучшие практики и шаблоны проектирования Python

🎞 Video
Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Визуализация траекторий движения инструмента при обработке ЧПУ с помощью динамической точечной 3D-диаграммы

В этой статье мы исследуем потенциал метода визуализации для получения представления о траектории движения режущего инструмента во время обработки. Мы демонстрируем, как визуализация помогла выявить проблемы с новыми данными, показывая, что проблемы были в самом процессе, а не в модели.

Наши результаты подчёркивают важность визуализации данных как инструмента для получения информации о сложных процессах и устранения неполадок в моделях машинного обучения.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Наборы данных для машинного обучения (ML) и экспериментов

Как специалист по Data Science, могу сказать, что данные являются основой любого проекта. В этой статье рассматриваются наиболее распространённые и популярные наборы данных.

Также мы привели примеры кода для извлечения данных и загрузки в DataFrame. Давайте начинать!

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Функциональные возможности метода Наивного Байеса на практике.

Подход, о котором я расскажу, позволяет расширить функциональные возможности метода Наивного Байеса благодаря использованию весовых коэффициентов для различных групп признаков объекта датасета (модель может обучаться не только на отдельных словах в тексте, но также на некоторых метаданных, таких как авторы текста и источник информации).

С помощью разработанной ML‑модели можно улучшить качество классификации текстов при использовании обучающей выборки небольшого объёма (всего 30 объектов) и сократить время обучения модели.

Задача решалась в рамках разработки системы рекомендаций научных статей. Наработки могут быть использованы в любых задачах NLP и Text Mining.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В Авито открылись классные вакансии для дата-инженеров в двух командах:

➡️ DWH
➡️ Search Quality

Кое-что из условий:
- Интересные и важные задачи на очень большом проекте;
- Передовые технологии и подходы, возможность пробовать новое;
- Мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы;
- Страховка со стоматологией с первого дня работы;
- Личный бюджет на обучение, который можно тратить на книги, курсы и конференции, обмен опытом с зарубежными коллегами.

Заинтересовали? Переходите по ссылкам и откликайтесь.

Читать полностью…

Анализ данных (Data analysis)

Сеньор от мидла отличается как минимум несколькими цифрами в зарплате

Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.

👉 Статья на Хабре и матрица компетенций по уровням.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 Навык работы с большими данными открывает путь в ведущие IT-корпорации. Обычно такие корпорации используют MLOps — способ повышения производительности и создания надежных моделей корпоративного уровня.

📊 Занимаетесь дата-инжинирингом и хотите выйти на новый уровень? Эксперты топовых компаний обучат вас необходимым навыкам на практическом онлайн-курсе «MLOps» от OTUS.

👉 Определите свой уровень подготовки с помощью теста — https://otus.pw/OKGc/

🔥 Пройдете тест, получите велкам-скидку и доступ к 2 предстоящим открытым урокам:

✔️ Построим свой конвейер обучения моделей на Airflow и k8s.
✔️ DataFrame API: от Dask к PySpark

Читать полностью…

Анализ данных (Data analysis)

Прокачай свои навыки в использовании Apache Spark для дата-инжиниринга до продвинутого уровня

Newprolab предлагает две программы для практикующих и будущих дата-инженеров. Пройти можно в любое время – видеолекции, тесты и лабы для отработки навыков на реальных данных, облачный кластер и поддержка эксперта-координатора.

Погружение в Apache Spark

11 видеолекций, 6 лаб и 10 тестов: Scala API, создание витрин данных и real-time, Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS.

ссылка

Apache Spark Advanced

8 видеодекций и 4 лабы. Программа поможет разобраться, что скрыто “под капотом” Apache Spark и как ускорить обработку данных в своих проектах. Лабы объединены в единый проект по разработке коннектора к гибридному хранилищу.

ссылка

По промокоду friends20 действует скидка 20% на каждую из программ, а при оплате двух программ сразу скидка составит 30%!

Читать полностью…

Анализ данных (Data analysis)

Разработчики, архитекторы, Data Science и R&D-специалисты Нижнего Новгорода, вы здесь? Сбер приглашает вас на инженерный митап RecSys Community, который пройдет 25 апреля в Сo-working Garage 💻

О чем расскажут спикеры?

✔️ Рассмотрят подходы к применению трансформеров в рекомендательных системах и поделятся успешными кейсам.

✔️ Покажут, как используют AmazMe для обработки персонализированных и мультимодальных рекомендаций.

✔️ Раскроют все секреты, какие изменения помогли сделать рекомендательную систему поиска друзей такой точной.

Конечно же, на митапе будут Q&A-сессии, кофе-брейк, розыгрыш мерча и интересное общение. Встречаемся 25 апреля в Co-working Garage по адресу: ул. Октябрьская, д.35. Сбор гостей в 18:30.

Зарегистрироваться!⚡️

Читать полностью…

Анализ данных (Data analysis)

Как стать высокооплачиваемым специалистов в ML?

Совершенствуй мастерство ML в сообществе единомышленников. 25 апреля — старт продвинутого онлайн-курса «Machine Learning Advanced» от OTUS.

Приглашаем на курс тех, кто хочет вырасти до позиции Middle или Senior уровня.

🧑‍💻 В программе:
- Продвинутые ML-алгоритмы и кейсы решения нестандартных задач
- Работа в production: настройка окружения, оптимизация кода, построение end-to-end пайплайнов и внедрение решений.
- Уникальный исследовательский проект по машинному обучению

⚠️ Вебинары в формате Live coding, где преподаватель с «чистого листа» показывает решение актуальных задач ML.

Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на углубленном курсе - «Machine Learning. Advanced» от OTUS и его партнера — Сбера.

👉 ПРОЙТИ ТЕСТ:
https://otus.pw/gqfa/

Читать полностью…

Анализ данных (Data analysis)

Аналитики данных — настоящие супергерои и занимают 1 место в рейтинге профессий с самым большим спросом на рынке труда до 2025 года (по данным Всемирного экономического форума).

Как стать таким специалистом?

Приходите на бесплатный симулятор работы в аналитике данных с 18 по 20 апреля и вместе с дата-сайентистом Сбера Марией Жаровой будете решать бизнес-задачи с помощью анализа данных. 30 минут теории, час практики и домашнее задание — каждый день в 19:30 мск. Самые активные из вас получат полезные подарки.

На интенсиве вы научитесь:
- разбираться в понятиях и направлениях анализа данных;
- оценивать результаты A/B-теста вручную;
- анализировать данные с помощью Google Таблиц;
- использовать язык программирования Python.

Записывайтесь: https://go.skillfactory.ru/QrowaA

И главное — поймете, подходит ли вам специальность и стоит ли начинать обучение.

Реклама ООО "Скилфэктори", LatgBtYsi

Читать полностью…

Анализ данных (Data analysis)

🤖 Создайте чат-бота с нуля, используя Python и TensorFlow

Создание чат-бота может быть сложной задачей, но при наличии правильных инструментов и техник это может стать увлекательным и полезным занятием. В этом руководстве мы создадим простого чат-бота с использованием Python и библиотеки Natural Language Toolkit (NLTK).

Вот шаги, которым мы будем следовать:

▪Настройка среды разработки
▪Определение постановки задач
▪Сбор и предварительная обработка данных
▪Обучение модели
▪Создание интерфейса чат-бота
▪Тестирование чат-бота

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 19 советов для улучшения вашего синтаксиса в Python

Заставить функцию работать – это одно. Другое дело – реализовать это с помощью точного и элегантного кода.

Как упоминалось в “The Zen of Python”: “красивое лучше, чем уродливое”. Хороший язык программирования, такой как Python, всегда предоставит соответствующий синтаксический сахар, который поможет разработчикам легко писать элегантный код.

В этой статье освещаются 19 важнейших синтаксических ошибок в Python. Путь к мастерству предполагает их понимание и умелое использование.

Читать

@data_analysis_ml1

Читать полностью…

Анализ данных (Data analysis)

🤖 Создайте своего собственного чат-бота с искусственным интеллектом на Python

В этом пошаговом руководстве я покажу вам, как создать чат-бота с искусственным интеллектом с помощью Python.

Не волнуйтесь, если вы ничего не смыслите в программировании – я объясню всё на понятном языке, а примеры кода будут очень простыми.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👁‍🗨 Освоение OpenCV с помощью Python: Полное руководство по обработке изображений и компьютерному зрению

OpenCV – это библиотека с открытым исходным кодом, которая предоставляет разработчикам инструменты и алгоритмы для задач компьютерного зрения и машинного обучения.

Она поддерживает несколько языков программирования, включая C++, Java и Python. Привязки Python для OpenCV, известные как opencv-python, позволяют разработчикам Python легко использовать возможности OpenCV в своих приложениях.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

ML-разработчики, хотите создать что-то действительно уникальное? Присоединяйтесь к IT-команде Сбера и приступайте к работе над русской версией ChatGPT 🖥

Чем предстоит заниматься?

• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.

Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚

Читать полностью…

Анализ данных (Data analysis)

⚜️ Meta AI представляет революционную модель сегментации изображений, обученную на 1 миллиарде масок

После революционного шага, сделанного ChatGPT от OpenAI в области NLP, развитие искусственного интеллекта продолжается, и Meta AI вносит поразительный прогресс в компьютерное зрение.

Исследовательская группа Meta AI представила модель под названием Segment Anything Model (SAM) и набор данных из 1 миллиарда масок на 11 миллионах изображений.

Сегментация изображения – это разбиение изображения на множество покрывающих его областей.

Читать
Github
Project
Статья
Датасет

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Повысьте производительность ChatGPT с помощью Prompt Engineering

ChatGPT генерирует ответы, используя метод, называемый авторегрессией, который включает в себя предсказание наиболее вероятного следующего слова в последовательности на основе предыдущих слов. Но, если вы попробуете ChatGPT, вы поймёте, что качество данного ответа напрямую будет зависеть от качества вопроса.

Секрет получения наилучшего возможного ответа заключается в том, чтобы понять, как ChatGPT будет его генерировать, и соответствующим образом сформулировать вопрос.

В этой статье мы обсудим несколько приёмов написания хороших подсказок для ChatGPT, чтобы вы могли использовать их для решения желаемой задачи.

Читать
@Chatgpturbobot

@data_analysis_ml

Читать полностью…
Subscribe to a channel