Какие актуальные инструменты нужны для развития в Data Science?
🔥 5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS.
➖Тема: «Один в поле не воин: методы ансамблирования в машинном обучении» — https://otus.pw/VpnZ/
Кому подходит этот урок:
🟠IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
🟠 Дата-сайентистам, желающим углубиться в профессию
🟠Тем, кто самостоятельно изучает Data Science и уже изучил основы ML
⚠️ На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.
🟡 Пройдите вступительный тест, чтобы записаться на урок
https://otus.pw/VpnZ/
🟢 Как работать с большими данными? Сделайте первые шаги в изучении Big Data!
📊 Приходите 6 декабря в 20:00 на открытый урок «Использование коннекторов для Spark» в OTUS. А после вебинара сможете продолжить обучение на онлайн-курсе «Spark Developer».
🚀 На занятии вы узнаете, какие коннекторы используются Spark из коробки, какие подключаются из библиотек, а какие и когда надо писать самому.
🔥 Кому будет полезен урок?
- IT-специалистам, которые хотят перейти в Big Data
- Начинающим дата-инженерам, желающим углубиться в профессию
- Тем, кто самостоятельно изучает технологии Big Data
🦾 Лектор: Вадим Опольский, Scala Big Data разработчик в Luxoft DXC Technology.
✅ Пройдите вступительный тест для регистрации на урок
Реклама. Информация о рекламодателе на сайте www.otus.ru
Роудмэп Re+Ops, программа исследования, план и лайфхаки исследования пользователей, шаг за шагом. Организация исследовательской работы в команде - курс с практикой и домашними заданиями по процессу клиентских исследований.
На курсе вы найдете ответы на вопросы:
💡Как быстро запустить исследование? Люди, время?
💡Как сформировать программу исследования? Что за чем?
💡У нас есть конкретная задача - как выбрать подходящий метод исследования?
💡Мы получили кучу инсайтов из интервью - что дальше?
💡Как проверять гипотезы быстро и дешево на регулярной основе?
Курс будет полезен:
📌продуктологам и продакт-менеджерам
📌стартап-командам и предпринимателям
📌дизайнерам и проектировщикам
📌маркетологам
🌎Получайте знания из любой точки мира: https://dtcenter.ru/education/online_intensives/research_ops
❔❔❔⚠️Проверьте себя - пройдите тест по «MLOps»
🔓 Вырвись из однотипных задач на ML. Освой продвинутые подходы. Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на курсе «MLOps» от OTUS по специальной цене.
⏰ Время прохождения теста ограничено 30 минут
🖌ПРОЙТИ ТЕСТ: https://otus.pw/65Xs/
Хочешь протестировать учебный процесс заранее? Тогда смотри запись интенсива "Как вывести модель в продакшн с помощью AWS?"
https://otus.pw/65Xs/
❇️ Почему при разработке ИИ главное — это данные
Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.
Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.
➡️ Читать дальше
@data_analysis_ml
🐘 Как найти «слона» в песочнице на Hadoop
В процессе работы часто требуется создать базу данных (командное пространство, песочница и т.п.), которую необходимо использовать для временного хранения данных.
Как у любого «помещения» в «песочнице» есть ограничение по объёму выделенного места для хранения данных. Иногда это ограничение забывается и заканчивается объём выделенной памяти.
В этом случае можно применить маленький «лайфхак», который позволит оперативно просмотреть, какая таблица занимает больше всего места, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, можно оперативно почистить место в песочнице, предварительно согласовав эти действия с владельцем данных, без нанесения вреда данным другим пользователям. Кроме того, данный инструмент позволит периодически проводить мониторинг наполняемости общей песочницы.
➡️ Читать дальше
@data_analysis_ml
🛠 Ансамбли моделей для распознавания рукописных цифр
Применение нескольких моделей машинного обучения для решения задачи является частой практикой и данная технология преимущественно выигрывает по качеству по сравнению с одной моделью. Однако, для успешного результата такой технологии необходимо разбираться в ее модификациях.
В данном посте будет рассказано об алгоритмах ансамблирования. Ансамблевые методы применяются, чтобы объединить в себе несколько моделей машинного обучения. Такая композиция может привести к увеличению качества решаемой задачи за счет использования сразу нескольких моделей вместо одной. Логику алгоритма можно объяснить поговоркой – “одна голова хорошо, а две лучше”. Далее будет объяснено с математической точки зрения, почему же это так.
Например, есть некоторый метод обучения - линейная регрессия. У этого алгоритма существует ошибка. Ошибку метода обучения можно разложить на 3 компоненты: шум, смещение и разброс. Шум показывает, насколько ошибается построенная модель, и он не зависит от модели. Он характеризует насколько репрезентативна была выборка данных, на которой мы обучали модель. Смещение (bias) показывает, насколько отличается средняя модель по всем возможным обучающим выборкам от истинной зависимости. Разброс (variance) - как сильно меняется модель в зависимости от выборки, на которой обучается модель. Подытожив, шум – это показатель данных, смещение характеризует приближенность к реальной зависимости модели, разброс говорит о чувствительности к обучающей выборке. Такое разложение называется bias-variance decomposition.
➡️ Читать дальше
@data_analysis_ml
⭐️ Собеседование на вашу первую работу Data Scientist'ом: чего ожидать и к чему готовиться
Виды собеседований на должность Data Scientist'а, их течение и советы для успеха.
Если вы ошеломлены подготовкой к собеседованию на должность Data Scientist'а, вы не одиноки. Поиск "собеседование в Data Science" вернет вам бесконечное количество ссылок, включая статьи о Python, R, статистике, A/B тестированию, машинному обучению, Big Data. Вам посоветуют прочитать бесконечное количество книг. К сожалению, мы и сами давали такие же обширные рекомендации другим.
В реальности вам не нужно готовиться ко всему, чтобы получить свою первую работу Data Scientist'ом.
В этой статье мы расскажем вам о четырех ключевым вещах:
- Виды должностей Data Scientist'ов.
- Виды собеседований, к которым вы должны приготовиться.
- Чего ожидать в процессе собеседования.
- Что оценивают собеседующие.
Давайте погрузимся в эти темы.
➡️ Читать дальше
@data_analysis_ml
🐼 Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas
С большими наборами данных работать сложно, особенно при отсутствии необходимых ресурсов. У большинства из нас нет доступа к распределенному кластеру, GPU-установкам или более 8 ГБ оперативной памяти. Это не значит, что мы не можем работать с большими данными. Просто нужно обрабатывать их по одному фрагменту за раз, то есть при итерации полного набора данных работать с отдельно с каждым подмножеством.
➡️ Читать дальше
🖥 Датасет
⭐️ Код
@data_analysis_ml
🚀 ClickHouse: как обрабатывать big data в 800 раз быстрее
Классифицировать СУБД можно по нескольким признакам, например, по модели организации данных: реляционные SQL и нереляционные NoSQL. Первые организуют данные в виде двумерных таблиц с большим количеством строк, вторые представляют их в виде графов, пар «ключ-значение», колонок в таблицах.
Из нереляционных СУБД часто используются Redis и MongoDB. Они менее универсальны, подходят не для любых типов данных. Например, Redis стоит выбрать, если необходим скоростной доступ к данным — загрузка из кэша. А MongoDB подойдет для приложения, которое работает с документами.
Реляционные базы более распространены. Яркие представители — MySQL, PostgreSQL, Oracle и другие. Информация в них вносится в строки таблиц, колонки которых соответствуют типам данных. Между строками можно настроить связи, а для работы с базой данных использовать SQL-синтаксис.
ClickHouse тоже относится к реляционным СУБД, но данные в ней вносятся не в строки, а в колонки двумерной таблицы: такой способ хранения повышает производительность веб-сервисов. Ее профиль — обработка большого объема аналитических запросов. Разработка ClickHouse началась в 2009 году с внутренней системы управления данными Яндекса — OLAP. С 2016 года СУБД доступна как открытое программное обеспечение по лицензии Apache 2.0. Технологию нельзя назвать абсолютно уникальной: у нее достаточно аналогов, систем управления большими данными. Например, Paracell, Vertica, Sybase IQ, InfiniDB.
➡️ Читать дальше
@data_analysis_ml
✅ Первая глава анализа данных
Данные поступают из разных источников, таких как устройства IoT, извергающие поток данных для анализа. Первая и наиболее важная цель науки о данных — использовать возможно большой объем необработанных данных и преобразовать их в практические знания. В большинстве случаев необработанные данные собираются в виде неструктурированных или полуструктурированных данных. Чтобы извлечь знания, неструктурированные данные должны быть преобразованы в структурированные данные. Типичной формой структурированных данных являются прямоугольные данные (иногда называемые фреймом данных), которые состоят из множества строк, называемых записями, с несколькими столбцами, называемыми функциями. В Python с библиотекой Pandas базовой прямоугольной структурой данных является объект DataFrame.
➡️ Читать дальше
@data_analysis_ml
⭐️ Как получить данные в нужном формате с помощью Pandas
Всем дата-сайентистам хорошо известно: данные никогда не будут такими, какими вы хотите их видеть. Вы можете получить сколько-нибудь упорядоченный спредшит или более-менее точные табличные данные, но в любом случае вам придется проводить очистку, прежде чем перейти к анализу.
Поэтому очень важно научиться переходить от одного формата данных к другому. Иногда это исключительно вопрос читабельности и простоты интерпретации. В других случаях программный пакет или алгоритм, который вы пытаетесь использовать, просто не заработает, пока данные не будут отформатированы определенным образом. Как бы там ни было, этим навыком нужно владеть всем дата-сайентистам.
Предлагаю рассмотреть два распространенных формата данных: длинный и широкий. Обе версии — часто используемые парадигмы в науке о данных, поэтому стоит ознакомиться с ними. Разберем несколько примеров, чтобы понять, как именно выглядит каждый формат данных, а затем посмотрим, как конвертировать один формат в другой с помощью Python (и, в частности, Pandas).
➡️ Читать дальше
@data_analysis_ml
🖥 Восстановление данных.Практическое руководство
Книга представляет собой подробное пошаговое руководство по восстановлению поврежденных данных на жестких дисках, съемных носителях и твердотельных накопителях. Подробно рассмотрена структура популярных файловых систем: NTFS, ext3/ext4, UDF/UFS/FFS и др. Описаны автоматические методы восстановления данных для операционных систем Windows и Linux. Приведены способы ручного восстановления, используемые в случае, когда автоматическое восстановление невозможно. Даны рекомендации по ремонту жестких дисков.
Во втором издании уделено внимание работе с новыми приложениями для Windows 10 и Linux, c файловой системой ext4, твердотельными накопителями и флеш-памятью, рассмотрено использование облачных технологий. Книга сопровождается большим количеством полезных советов и исчерпывающим справочным материалом. На сайте издательства находятся цветные иллюстрации к книге и дополнительные материалы.
📘 Книга
@data_analysis_ml
💨 Проверка гипотезы ANOVA как на R, так и на Python
Дисперсионный анализ (ANOVA) - это набор статистических моделей и связанных с ними процедур оценки, используемых для анализа разницы между средними значениями. ANOVA была разработана статистиком Рональдом Фишером в его статье 1918 года, озаглавленной «Корреляция между родственниками в предположении менделевского наследования», а первое применение ANOVA было опубликовано в 1921 году. ANOVA основан на законе общей дисперсии, где наблюдаемая дисперсия по конкретной переменной разбивается на компоненты, относящиеся к различным источникам вариации. ANOVA обеспечивает статистический тест на то, равны ли два или более средних по совокупности, и, следовательно, обобщает t-критерий за пределы двух средних.
Тест гипотезы ANOVA использует нулевую и альтернативную гипотезы:
- В нулевой гипотезе групповые средние значения равны.
- В альтернативной гипотезе по крайней мере одно среднее значение группы отличается от других групп.
В данном примере мы проведем два теста ANOVA как на R, так и на Python. Тест гипотезы, который будет использоваться для ответа на вопросы, - это основанный на дисперсии F-тест, используемый для проверки равенства групповых средних. Сначала приведем код на R, а затем переведем его на Python.
➡️ Читать дальше
@data_analysis_ml
🖥 5 рекомендаций по оптимизации запросов SQL
Также как небольшие улучшения повышают качество запросов, так и мелкие некорректные навыки могут снизить качество и понятность кода в долгосрочной перспективе.
Следовательно, пора избавиться от непродуктивных навыков SQL, а взамен сформировать новые и эффективные. Этим мы сейчас и займемся.
➡️ Читать дальше
@data_analysis_ml
🔎 Разведочный анализ данных в одной строке кода
Разведочный анализ данных (Exploratory Data Analysis, EDA) — это выявление скрытой информации в наборе данных.
sweetviz — библиотека, которая предоставляет важную информацию о наборе данных без написания большого количества кода.pip install sweetviz
➡️ Читать дальше
🖥 Github
@data_analysis_ml
💨 Предобработка изображений с OpenCV
Огромную долю в восприятии информации человеком занимает визуальная информация. Практически всё в мире можно представить в виде изображения. Изображения и видео могут содержать в себе очень много данных — именно поэтому задачи по обработке изображений человек отдает машине.
➡️ Читать дальше
@data_analysis_ml
⭐️Awesome data science
Вероятно, лучший кураторский список программного обеспечения для обработки данных на Python.
🖥 Github
@data_analysis_ml
⭐️ CRISP-DM: проверенная методология для Data Scientist-ов
Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.
➡️ Читать дальше
@data_analysis_ml
🖥 Парсинг Яндекс Карт или как собрать целевую аудиторию
Перед тем как перейти к парсингу Яндекс Карт, расскажу, какую задачу я хотел решить.
Я решил узнать, кто является целевой аудиторией для сервисов мультиссылок, например Taplink. Если зайти на сайт Taplink'a[ссылка удалена модератором], то они там показывают сценарии использования сервиса и пишут о категориях клиентов, на которые они ориентируются. Это “популярные люди”, “бизнес”, “интернет-магазин” и “каждый”. На лендинге немало примеров работ для оффлайн бизнеса, поэтому появилась идея проверить, используют ли вообще эти категории бизнеса сервисы мультиссылок. И для этого пригодится информация с Яндекс Карт.
➡️ Читать дальше
🖥 Код парсера
🖥 Ноутбук для анализа сайтов организаций
@data_analysis_ml
Топ 3 обучения для продвинутых специалистов от OTUS при поддержке партнера Сбербанк:
ML Engineer/Data Scientist, Middle (зп 180.000р) - https://otus.pw/tZcF/
Data Scientist, Senior (зп 200.000р) - https://otus.pw/HsUp/
Data Scientist, Middle (зп 150.000р) - https://otus.pw/17dT/
*Заработная плата по данным HeadHunter
Запишитесь на обучение с скидкой 20% до 30.11
ПРОМОКОД: BLACKFRIDAY22
🆕 Новые организации присоединились к Кодексу этики ИИ
Кодекс этики искусственного интеллекта разработал Альянс в сфере ИИ. Ранее к нему присоединились такие компании, как Сбер, Яндекс, VK и другие. Теперь же список участников пополнился новыми именами: Datanа, Factory 5, ГК «GlobalTruck», ГеомирАгро, Цифровая платформа КАМАЗ, ГК Медси, Самолет, Сибур, Северсталь Менеджмент, РЖД, Русагро Технологии, Уралхим. Всего присоединилось 12 новых организаций.
Мероприятие по присоединению к Кодексу было проведено во время конференции AI Journey — на нем присутствовали зампред правительства РФ Дмитрий Чернышенко, а также зампред правления Сбера Александр Ведяхин.
@data_analysis_ml
Avito Analytics meetup #8 — онлайн-митап со спикерами из Авито, СберМаркета и Lamoda: clc.to/h0tt1A
Подключайтесь, если интересно:
– увеличить эффективность привлечения целевого трафика за счёт предиктивной классификации данных;
– анализировать результаты свитчбэк-тестов по иерархическим регрессионным моделям;
– проводить аналитику клиентской базы, сегментировать её и строить прогнозы.
Будут гипотезы, доказательства и кейсы.
Встречаемся 6 декабря в 19:00 по мск.
Зарегистрируйтесь сейчас, чтобы не забыть!
Реклама. ООО «Авито Тех». JapBI8LiN
🔥 Хардовый тест для системных аналитиков 🔥
💣 Ответьте на 12 вопросов за 20 мин и проверьте, насколько вы готовы к обучению на курсе - «Системный аналитик. Advanced».
💎 Всех, кто сдаст тест, ждет скидка 20% до конца ноября по промокоду BLACKFRIDAY22 и доступ к 2 открытым урокам курса для знакомства с преподавателями.
🚀 Прокачайте свои навыки системного анализа до Middle+ уровня и улучшите скиллы проектирования ПО
❇️ После 6 месяцев обучения на курсе вы сможете:
✔️Понимать процесс разработки
✔️Эффективно использовать средства визуализации требований
✔️Проектировать сервисы RESTFul API и SOAP
✔️Проектировать архитектуру, структуры хранения данных, интеграционные взаимодействия между приложениями и многое другое.
🟢 ПРОЙТИ ТЕСТ - https://otus.pw/NIl1/
Реклама. Информация о рекламодателе на сайте www.otus.ru
⭐️ Начало работы с языковой моделью Galactica
Galactica — научно-ориентированная языковая модель со 120 миллиардами параметров. Galactica предсказывает аннотации к белкам, создает конспекты лекций и излагает математические формулы текстом.
Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.
➡️ Читать дальше
🖥 Github
⭐️ Проект
@data_analysis_ml
🖥 Одна панель, чтобы объединить все визуализации. Panel for Python
Качественная визуализация данных не менее важна для анализа данных, чем методы математической обработки. На сегодняшний день существуют десятки (если не сотни) библиотек для визуализации наборов данных на Python, но иногда в них встречаются уникальные возможности и хотелось бы иметь возможность объединить различные инструменты в единой панели. В статье мы рассмотрим основы библиотеки panel для реализации реактивной модели интерактивных визуализаций и попробуем объединить визуализации из разных библиотек в одном dashboard.pip install panel
➡️ Читать дальше
🔧 Demo
🖥 Github
@data_analysis_ml
❤️ 100+ шпаргалок для аналитиков данных и data scientists
Шпаргалки помогут:
- подготовиться к экзамену
- подготовиться к собеседованию
- в повседневной работе – быстро вспомнить нужную информацию
Сохраняйте себе, чтобы не потерять
➡️ Читать дальше
@data_analysis_ml
Яндекс Банк ищет рок-звёзд от мира данных
Финтех — самые молодые и смелые ребята в Яндексе. За 1,5 года они придумали и сделали Сплит (тот самый, что делит оплату на части), и Карту Плюса (ту самую, что даёт кешбэк не только в Яндексе). На подходе собственный апп и запуск кредитных продуктов, и всем этим нелёгким делом управляет data-driven-подход. Поэтому умеющих работать с данными здесь любят, ценят и ждут, и прямо сейчас ищут:
Риск-аналитика
Если твой любимый вопрос «А что если…?», ты немного ясновидящий, всегда держишь руку на пульсе и не паникуешь от работы в условиях полной неопределённости, с профессией ты точно не ошибся. А если ещё и программируешь, умеешь взаимодействовать с бэкендом и тестированием, и готов с головой погрузиться в кредитные продукты, не ошибёшься и с вакансией. Подробности тут.
Продуктового аналитика
Для запуска на рынок довольно нетривиального продукта — кредита для людей, которых, как правило, в этих вопросах несправедливо обделяют: водителей такси и курьеров. Надо будет разбираться в том, «кто» сделал «что, когда и где», и как со всем этим поступать дальше, работать рука об руку с продакт-менеджером и помогать принимать правильные решения. Желательно иметь за плечами опыт дирижёрства командой, потому что именно этим здесь и предстоит заниматься.
Дата-инженера
Учёный может открыть новую звезду, но не может её создать — ему придётся просить инженера сделать это за него (с). Поэтому ребята ищут звезду-инженера, способного создать хранилище, которое переживёт даже вторжение инопланетян. Если обеспечение надёжной инфраструктуры пробуждает в тебе свет, а финансовые технологии греют душу — кажется, вы нашли друг друга. Детали ищи здесь.
Кратчайший путь в руки рекрутеров — в описании вакансии. Дочитай до конца, реши нехитрую профильную задачку и дверь откроется!
✔️ Подборка бесплатных курсов для Data Scientist'ов.
Если не знаешь с чего начать изучение Data Science, не знаешь в какую сторону двигаться или как улучшить свои навыки и нет желания отдавать большие деньги за курсы, которые непонятно что дадут — эта подборка для тебя.
Курсы упорядочены по степени необходимости, начиная с базовых знаний, без которых будет тяжело даваться дальнейшее изучение (линейная алгебра, статистика, базовое знание python и т.д.), переходя к более сложным.
Оставил только самые ценные, на мой взгляд, курсы.
Структура курсов:
- Линейная алгебра и дискретная математика.
- Статистика и теория вероятностей.
- Python, SQL, R.
- Машинное обучение.
- Алгоритмы и структуры данных.
- Нейронные сети и Deep learning.
➡️ Читать дальше
@data_analysis_ml
Как размечать данные для машинного обучения
Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.
Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.
Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.
В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:
• Что такое разметка данных?
• Как она работает?
• Какие оптимальные практики разметки данных существуют?
• Как компании размечают свои данные?
• Нужна ли мне платформа инструментария для разметки данных?
➡️ Читать дальше
@data_analysis_ml