data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

📄 Методы обработки текста для NLP задач: лемматизация, стемминг

Лемматизация
- приведение слова в его начальную форму в зависимости от конекста. Например: для слов "решал", "решала", "решаемые" начальная форма будет - "решать". Чтобы ваша модель классификации не считала эти слова разными - используем лемматизацию, чем повысим производительность и точность

Стемминг - удаление окончаний слов. Например: для слов "красивый", "красивое", "красивые" результатом будет - "красив". Используется для тех же целей, что и лемматизация

Код для использования и подробное описание подходов тут - статья ( от себя - рекомендую использовать spaCy )

Разберём методы исключения стоп-слов из ваших текстов после 50 🔥 под этим постом!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📝 Предобработка текста для обучения модели классификации

Перед обучением модели классификации необходимо провести предварительную обработку текста, используя следующие методы:

Лемматизация / стемминг
Приведение слов в нижний регистр
Исключение стоп-слов из текста
Удаление пунктуации, союзов, предлогов, частиц
Очистка текстов от часто встречающихся слов
Токенизация

Порядок шагов обязателен. Поясню: если вы предварительно не привели слова в нижний регистр, то "Документ" и "документ" будут в вашем словаре разными токенами. То же самое и для других шагов

Хотите подробный разбор каждого из методов обработки текста? Тогда ставьте свои - 🔥 и уже совсем скоро подробно разберём каждый пункт

Классификация текста с использованием моделей трансформеров

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Руководство по работе с Matplotlib

Качественный образовательный материал, объясняющий простым языком принципы построения самых разнообразных диаграмм (в том числе комбинированных, например, scatterplot + line plot).

- Про различные типы графиков
- Подробный разбор компонентов и функций matplotlib - Про то, как управлять подписями на осях, размерами и расположением визуализаций
- Разбор функций для построения продвинутых визуализаций

Руководство
Книга Matplotlib

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

↪️ 7 Простых советов, которые сделают вас профессионалом в использовании Pandas

Pandas – одна из самых популярных и широко используемых библиотек для анализа данных на Python. Её мощь и универсальность делают её незаменимым инструментом для всех, кто работает с данными.

Независимо от того, являетесь ли вы новичком или опытным пользователем, всегда есть возможности для совершенствования ваших навыков работы с Pandas. Вот несколько советов, которые помогут вам поднять свои навыки владения Pandas на новый уровень.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

5️⃣ Шагов для разработки уникальных Data Science проектов

Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.

Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

20 марта NewProLab запускает 4-й поток онлайн-программы Spark Advanced

Программа разработана для дата-инженеров, имеющих практический опыт работы с Apache Spark 2 и желающих изучить внутреннюю архитектуру проекта. Вы получите опыт и знания, которые позволят ускорить обработку данных в ваших рабочих проектах уже в течение программы.

📌4 недели (всего 8 занятий в зуме 2 раза в неделю)

📌что вы сделаете во время программы:
1) Разработаете Encoder JSON to Row
2) Разработаете коннектор для DataFrame API с использованием Datasource API
3) Добавите поддержку Predicate Pushdown в коннектор
4) Добавите поддержку Structured Streaming API в коннектор

📌Подробности по ссылке: https://clck.ru/33bB7G

В честь дня рождения NewProLab по промокоду birthday23 вы получите скидку 23% при покупке программы

Читать полностью…

Анализ данных (Data analysis)

🟢Как стать системным аналитиком?

➡️Поговорим об этом 21 февраля в 20:00 на открытом уроке в OTUS.
Мы разберем, какими знаниями и навыками должен обладать системный аналитик, а также обсудим его роль в команде и проекте. Участие будет актуально для тех, кто хочет освоить востребованную IT-профессию.

Открытый урок является частью специализации «Системный аналитик», которая доступна в рассрочку.

Занятие проведет Мария Красавина, Lead System/Data Analyst в MentorMate and more.

➡️Готовьте свои вопросы и регистрируйтесь на вебинар: https://otus.pw/tM6Z/

Читать полностью…

Анализ данных (Data analysis)

Нет опыта — нет работы, нет работы — нет опыта. Как аналитику данных разорвать этот замкнутый круг?

Хорошие pet-проекты — отличный способ впечатлить работодателей и дать старт своей карьере. Получить классные идеи и реализовать их можно на Симуляторе аналитика от karpovꓸcourses.

За 5 недель под руководством Анатолия Карпова вы с нуля выстроите аналитические процессы, поработаете с настоящей инфраструктурой, научитесь уверенно справляться с ежедневными задачами аналитика и поймёте, какая логика стоит за каждым решением.

На курсе вы научитесь:
▪️Разрабатывать интерактивные дашборды
▪️Автоматизировать поиск аномалий в данных
▪️Строить ETL-пайплайны
▪️Анализировать продуктовые метрики
▪️Планировать и запускать A/B-тесты

Свои решения вы сможете оформить в привлекательное портфолио, а опытные HR обязательно доведут вас до оффера в хорошую компанию.

Переходите по ссылке и записывайтесь на Симулятор до 27 февраля!

Читать полностью…

Анализ данных (Data analysis)

🔍 Как собрать качественный датасет для задач машинного обучения.

Данные — это душа каждой модели машинного обучения. В этой статье мы расскажем о том, почему лучшие команды мира, занимающиеся машинным обучением, тратят больше 80% своего времени на улучшение тренировочных данных.

Точность ИИ-модели напрямую зависит от качества данных для обучения. Современные глубокие нейронные сети во время обучения оптимизируют миллиарды параметров.

Но если ваши данные плохо размечены, это выльется в миллиарды ошибочно обученных признаков и многие часы потраченного впустую времени.
Мы не хотим, чтобы такое случилось с вами. В своей статье мы представим лучшие советы и хитрости для улучшения качества вашего датасета.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional — https://otus.pw/lUOow/

🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера

⏰ Время прохождения теста ограничено 30 минут

📌 РЕЗУЛЬТАТ ПРОХОЖДЕНИЯ КУРСА:
Серьезное
портфолио с проектами и возможность претендовать на Junior+ и Middle позиции Data Scientist

Протестируйте обучение на открытом уроке:
✅ Мы похожи на свое окружение: алгоритм k Nearest Neighbours для задачи классификации — https://otus.pw/BnIN/

👉 ПРОЙТИ ТЕСТ:
https://otus.pw/lUOow/

Читать полностью…

Анализ данных (Data analysis)

Ежегодная серия соревнований по машинному обучению Data Fusion Contest 2023 открыта!

Вас ждут две задачи в уникальном турнирном соревновании от команд ВТБ и ODS.AI:

🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на транзакционных данных.

🛡 В задаче Защита — наоборот, учиться защищать свои модели от заранее оговоренного вида атак.

🏆 Призеров определит турнир — лучшие команды обеих задач столкнутся друг с другом за призовой фонд в 2,000,000 рублей!

💪 Участников также ждет много мерча, онлайн митапы с воркшопами, и возможность фундаментально прокачаться в новых DS/ML методах.

Подробности и регистрация — на сайте.

Читать полностью…

Анализ данных (Data analysis)

🔵Нефункциональные требования часто вызывают трудности у аналитика, но больше проблем вызывает их некачественная проработка.

Как работать с нефункциональными требованиями?

📆Обсудим 16 февраля в 20:00 мск на открытом уроке онлайн-курса «Системный аналитик. Advanced» в OTUS. Вебинар проведет Михаил Максимов, эксперт с опытом участия во многих крупных ИТ-проектах в роли бизнес-аналитика.

На занятии мы:
✔️ Обсудим актуальные проблемы работы с нефункциональными требованиями
✔️ Сформируем базовую структуру подходов и методов для работы с ними
✔️ Узнаем, где можно взять шаблоны для формулировок требований

Вебинар будет полезен системным и бизнес-аналитикам, которые занимаются сбором, проработкой требований и проектированием целевых ИТ-решений.

В результате мы структурируем представление о нефункциональных требованиях и получим список источников для более глубокого изучения темы.

➡️Для участия пройдите вступительный тест: https://otus.pw/MAUf/

Читать полностью…

Анализ данных (Data analysis)

🤖 С 20 февраля по 7 марта пройдёт онлайн-буткемп "Second step in NLP"

Перед Новым годом онлайн-магистратура «Машинное обучение и высоконагруженные системы» провела базовый буткемп по автоматическому анализу текстов. А теперь приглашает вас сделать следующий шаг в изучении Natural Language Processing :)

✅ Что будет?
- 3 лекции — погружение в NLP + практика;
- 2 домашних задания;
- 2 Q&A сессии с разбором вопросов участников;
- соревнование на Kaggle: предсказание зарплаты соискателей по описанию вакансии;
- разбор лучших решений;
- электронные именные сертификаты за прохождение курса.

✅ Для кого?
Для слушателей, знакомых с основными алгоритмами машинного обучения, в частности, с классическими подходами для работы с текстовыми данными.

✅ Начальные требования:
- знание основных алгоритмов ML
- знание python на пользовательском уровне

✅ Когда?
С 20 февраля по 7 марта

👉 Подробности и регистрация.

Читать полностью…

Анализ данных (Data analysis)

📈 Yahoo Webscope

Программа Yahoo Webscope — это справочная библиотека интересных и полезных с научной точки зрения финансовых наборов данных для некоммерческого использования академиками, дата саентистами и другими учеными.

➡️ Сайт

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Увеличь это! Современное увеличение разрешения в 2023

Почти 4 года назад вашим покорным слугой была опубликована статья Увеличь это! Современное увеличение разрешения, которая набрала +376 хабролайков и 176 тысяч просмотров. Но прогресс на месте не стоит! Новые нейросетевые методы жгут! Их результаты прекрасны и великолепны. 1,5 года назад на хабре была неплохая статья Апскейл, который смог (+160), в которой были показаны плюсы новых алгоритмов.

Но всегда ли все прекрасно? Конечно нет!

Мой любимый пример фантастических способностей нейросетевых алгоритмов выше. В шарике отражается наша лаборатория. Бюст Зевса был взят в датасет, чтобы оценить работу нейросетей с полутенями, но результат «обработки полутеней» сильно превзошел ожидания. Во-первых, мудрые голубые глаза и покрасневшие губы! Во-вторых, Зевс теперь причесан! В-третьих, его борода стала короче и тоже аккуратно подстрижена! Наконец, Зевс теперь выглядит ощутимо моложе и… человечнее! О, жители Олимпа, согласитесь, это просто божественно!

Почему нам таки есть что сказать по теме? За последние годы мы создали 3 бенчмарка Video Super-Resolution под разные кейсы использования, которые на данный момент занимают первые 3 (из 14) места в соответствующем разделе на сайте paperswithcode.com.

Подобная деятельность безмерно актуальна, поскольку если 4 года назад на GitHub было меньше 200 репозиториев Super-Resolution, то сейчас их там больше 900 и разобраться в этом море исходников стало совсем непросто.

Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

27 февраля стартовал финал совместного профиля «Искусственный интеллект» НТО и Академии искусственного интеллекта для школьников БФ Сбербанка «Вклад в будущее»

📌 3 дня продлится командная работа над финальной задачей.

Sber AI подготовил задание по разработке алгоритма, который анализирует видео и отвечает на вопросы по его содержанию. Такое решение позволит ускорить анализ видеоинформации, а также проводить эффективный поиск по видеопоследовательностям.

📌Подробности по ссылке: https://www.ng.ru/news/760842.html

По итогам командам-победителям вручат приглашения на оплачиваемую стажировку в Сбер и компании-партнеры по направлению «Машинное обучение». Призовой фонд превышает 4 млн рублей

Читать полностью…

Анализ данных (Data analysis)

Гайд по работе с изображениями Python Pillow для Датасаентиста

В этом уроке вы узнаете, как:

Читать изображения с помощью Pillow
Выполнять основные операции с изображениями
Использовать Pilow для обработки изображений
Используйте NumPy с Pillow для дальнейшей обработки
Создавать анимации с помощью Pillow

В этом руководстве представлен обзор возможностей библиотеки Python Pillow с помощью распространенных методов. Как только вы освоитесь в использовании этих методов, вы сможете использовать документацию Pillow для изучения остальных методов в библиотеке.

Если вы никогда раньше не работали с изображениями в Python, это отличная возможность сразу приступить!

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

“Анализ тональности текста” в Google Colab с использованием ChatGPT

Иногда люди используют слова или язык тела, чтобы показать, что они чувствуют. Анализ тональности текста (sentiment Analysis) – это своего рода компьютерный способ понять, что чувствуют люди, когда они что-то пишут, например, по электронной почте или в социальных сетях. Компьютер просматривает слова и пытается определить, несет ли написанное слово положительный, отрицательный оттенок или вовсе не несёт в себе эмоций.

Это может быть полезно в различных приложениях, таких как понимание отзывов клиентов, мониторинг общественного мнения в социальных сетях или анализ отзывов о продуктах, особенно если у вас есть большое количество датасетов.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Bamboolib — Анализ данных с помощью Python без программирования

Bamboolib – это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без написания кода.

Одним из вариантов её использования является импортирование готовых функций для анализа данных, создание которых занимает много времени. Bamboolib предназначена для автоматизации рутинных задач обработки данных, исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данных.

💨Статья
🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎉 32 библиотеки с открытым исходным кодом к 32-летию Python

Гвидо Ван Россум создал Python 20 февраля, в 1991 году. За последние 32 года Python стал одним из самых популярных языков программирования в мире с более чем 15 миллионами разработчиков!

Сегодня существует более 137 тысяч библиотек с открытым исходным кодом! Давайте посмотрим на 32 полезные библиотеки для Датасаентистов с открытым исходным кодом в честь 32-го дня рождения Python.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐼 О Pandas: малоизвестные функции и ошибки, которые следует избегать

В этой статье мне бы хотелось поговорит о библиотеке для обработки и анализа данных на Python – Pandas.

А если быть конкретнее, то о малоизвестных функциях, которые смогут расширить ваш кругозор, и об ошибках, которые следует избегать во время работы с этой библиотекой!

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 SQL запросы c датафреймом Pandas

Если вы хотите отфильтровать свои данные, чтобы найти релевантную информацию с помощь SQL запросов, используя датафрейм Pandas, вы можете воспользоваться встроенной функции 𝗾𝘂𝗲𝗿𝘆() .

Функция выполняет запросы на основе логических выражений, как если бы вы писали запрос на естественном языке!

В этой статье мы расскажем, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах.

Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

19 Датасетов для анализа данных, о которых вы скорее всего не слышали.

Работа с представленными датасетами сделает ваше портфолио в области науки о данных более привлекательным и разнообразным для работодателей.

Эти необычные датасеты могут стать идеальным способом найти вдохновение в мире Data Science.

Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌲 Заглянем «под капот» алгоритмов, использующих в своей основе деревья решений

Один из самых мощных алгоритмов контролируемого машинного обучения на сегодня – градиентный бустинг (Catboost, XBGR), построен на столь казалось легком и базовом элементе, как бинарное дерево, или же дерево решений.

Оно является строительным блоком данного алгоритма, в данном случае можно привести притчу про веник и его части, но в этом случае, иногда даже одно дерево решений способно выдать неплохой результат в решениях задач классификации и регрессии. Сегодня я рассмотрю его подробнее, на примере Decision Tree и Random Forest из библиотеки sklearn, а также визуализирую работу.

В практике всегда возникает проблема верного выявления гипотез, в моей работе с этим помогают модели машинного обучения, но и их необходимо контролировать. Визуализация весов - один из способов это сделать.

Читать
Датасет

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🗺 Визуализация интерактивных карт

Часто возникает проблема визуализации данных за несколько периодов времени. Те, кто уже пытался создавать карты знают, что эту проблему можно решить с помощью разных слоёв на карте.

Для визуализации интерактивных карт рассмотрим библиотеку - Folium.

Folium — это мощная библиотека визуализации данных в Python, которая была создана в первую очередь для того, чтобы помочь людям визуализировать гео-пространственные данные.

С помощью Folium можно создать карту любого местоположения в мире, если вы знаете его значения широты и долготы.

Также можете создать карту и наложить маркеры, а также кластеры маркеров поверх карты для крутых и очень интересных визуализаций.

Для интерактивной визуальной аналитики - библиотеку Folium сначала нужно установить. В терминале прописываем:

pip install folium

📌 Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Bokeh

Интерактивная визуализация данных в браузере на Python
. Экспресс введение в библиотеку Bokeh.

pip install bokeh

🖥 Github
📑Документация

@pythonl

Читать полностью…

Анализ данных (Data analysis)

👺 Маскируем данные с Python

Каким же образом можно свободно передавать, в некоторых случаях даже хранить данные, не переживая о потенциальных утечках? Именно здесь в игру вступает анонимизация данных путём маскирования.

Проще говоря, анонимизация данных – это процесс перестановки данных таким образом, после которого будет невозможно понять, кому принадлежат данные. В зависимости от цели может так же возникнуть потребность в том, чтобы сохранить смысл и такие свойства как однородность, целостность, взаимозависимость и вариативность исходных данных. Чтобы решить возможную проблему, необходимо понять, как и какие данные необходимо маскировать, а какие нужно сохранить.

Anonympy – простая, но богатая своим функционалом библиотека, обладающая набором инструментов и функций для анонимизации и маскировки данных. На текущий момент проходит бета-тестирование функционала по анонимизации изображений и цензурированию текста в PDF-документах, но об этом в другой раз.

pip install anonympy

- Читать дальше
- Зеркало
- Anonympy

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как организовать работу над ML-экспериментами с помощью MLflow

MLOps помогает стандартизировать и повысить эффективность процессов работы с ML. В статье ребята из VK Cloud и Karpov.Courses показали последовательность действий по выстраиванию MLOps-подхода c применением MLflow (компонент Cloud ML Platform) в проектах.

▪️ Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Переходите на «крутую» российскую bi-систему Biplane24
👉 Информация на сайте - Биплан24

Доступное решение для аналитиков, экономистов, финансовых специалистов, руководителей:
• 100% пользовательские настройки – no-code
• Удобный конструктор дашбордов и расчётных показателей
• Отдельный модуль создания визуального 3D двойника предприятия с размещением данных по: оборудованию, кабинетам, подразделениям, цехам, складам, сотрудникам, рабочим местам
• Автоматический обмен данных с: 1С (любая конфигурация), Битрикс24, Excel, csv, Oracle, внешними БД
• Варианты: облачная версия, серверная версия, десктопная версия на ПК (Windows, AstraLinux, macOS),
• Полноценное мобильное приложение (iPhone, Android), в котором можно настраивать дашборды «с нуля»
• Все данные в 1 месте по: продажам, закупкам, ФОТу, задачам, выполнению планов, маркетингу, производству, финансам, персоналу
• Встроенная система планирования

Бесплатная интеграция + настройка отчетов - на тестовый период
Сайт - Биплан24

Читать полностью…

Анализ данных (Data analysis)

В "Школу 21" открыт набор заявок на обучение в Новосибирске!

Не упусти возможность бесплатно обучиться востребованной профессии в ИТ.

Неважно, какие у тебя были предыдущие знания, опыт работы, умение программировать и наличие дипломов, если тебе больше 18 лет — подавай заявку сейчас и начни учиться уже этой зимой! В «Школе 21» можно изучать цифровые технологии самых разных направлений и сфер: от алгоритмов и графики до Unix, Web и многого другого.

Успей попасть на интенсив в Новосибирске! Подай заявку.

Читать полностью…
Subscribe to a channel