Круговая диаграмма или pie chart, наверное, один из самых критикуемых вариантов визуализации. Но, не в случае, когда с чувством юмора все в порядке )))
Читать полностью…Заканчиваем нашу рубрику, в которой опытные специалисты и руководители рассказывают о структуре команд по работе с данными в их компаниях.
И сегодня у нас последнее мини-интервью с Сергеем Брылем - Chief Data Science Officer в MacPaw. У Сергея есть телеграм-канал @analyzecore и блог https://www.analyzecore.com, где он в основном пишет про анализ данных, Data Science и визуализацию с использованием языка R.
Сергей Брыль:
"MacPaw мультипродуктовая компания, в текущем портфеле есть 10 продуктов, которые представлены на различных платформах. Поэтому, продуктовая аналитика для нас является ключевой экспертизой, а продуктовые аналитики - ядром команды аналитики.
На данный момент мы развиваем 6 направлений, которые входят в структуру Data Science Department. Важность и независимость аналитической функции в компании обеспечивается через то, что я представляю ее интересы на уровне Executive team.
Product Analytics. Мы пришли к выводу, что продуктовая аналитика должна быть глубоко интегрирована в продуктовую команду. С самого начала аналитики должны помочь разработать показатели успеха продукта, измерять прогресс и помогать выявлять риски и области роста для бизнеса. Более того, их понимание, основанное на данных, должно быть постоянным вкладом в разработку продукта. Функционально они подчиняются Chief Data Science Officer, а линейно - соответствующим продуктовым менеджерам.
Такой тип организационной структуры дает нам возможность:
- распространять дата-дривен культуру непосредственно на людей, принимающих ежедневные решения, вовлекать в культуру всю продуктовую команду
- всегда быть в контексте происходящего в продукте и очень оперативно и гибко действовать
- добиваться большей синергичности с другими аналитическими командами в решении задач
Кроме вышесказанного, это удобно для продуктового менеджера, иметь единую точку входа в достаточно широкую аналитическую функцию, как в MacPaw. Достаточно пообщаться с аналитиком своей команды, чтобы иметь представление какие дополнительные исследования могут быть сделаны силами всего Data Science направления.
С другой стороны, такая структура предполагает достаточно высокие требования к продуктовым аналитикам как в hard, так и soft skills.
Другие направления построены на специализированной глубокой экспертизе и в организационной структуре представлены в виде сервисов (или экспертных центров).
DataHub - тут сосредоточена наша data инженерная экспертиза. Команда DataHub делает возможной тонко-настраиваемую аналитику с помощью кастомных технических решений и интеграций с продуктами и сервисами.
Особое значение это направление приобретает из-за того, что в портфеле нашей компании продукты на различных платформах, используют различные рекламные каналы, имеют разные модели монетизации и другие специфические особенности.
AI Lab. Миссия команды повышать эффективность процессов и ежедневных решений с помощью Machine Learning.
Этот сервис отвечает за два вектора развития:
- улучшение существующих решений в области продаж продуктов и улучшения пользовательского опыта
- использование машинного обучения как части продукта (фичи)
Market & Customer/User Research - сервис, который дает нам аналитику из внешнего мира о:
- рынках и аудиториях, их особенностях
- пользовательском опыте
Это дает возможность обогащать наши внутренние данных внешними, количественные данные качественными. В итоге, мы получаем взгляд на 360 градусов о предмете изучения. Мы можем сравнить наши успехи на определенном рынке или у определенной аудитории с доступной аналитикой о них. Мы можем подтвердить, опровергнуть или сгенерировать новые гипотезы, которые мы строим о поведении пользователей на наших внутренних данных.
MarTech - сервис, который сфокусирован на автоматизации маркетинга с использованием аналитических данных. Кроме того, это наш инновационный и исследовательский центр. Благодаря работе сервиса, мы являемся бета-тестировщиками, имеем ранний доступ к различным аналитическим и маркетинговым инструментам и более подготовлены к изменениям в этой сфере.
Хороший пример эффективной визуализации данных. Достаточно посмотреть на чарт, чтобы понять главную мысль автора.
https://www.theguardian.com/environment/ng-interactive/2019/may/25/the-power-switch-tracking-britains-record-coal-free-run
Что делает визуализацию данных по настоящему хорошей, объясняет David McCandless с помощью визуализации ))
Классный концепт, который показывает из чего должна состоять удачная во всех смыслах визуализация.
https://informationisbeautiful.net/visualizations/what-makes-a-good-data-visualization/
Sony Music обратилась к Nadieh Bremer с идеей создать более “data art inspired” версию традиционного золотого или платинового диска.
В детальной статье Nadieh можно фактически прожить процесс создания визуализации музыки.
https://www.visualcinnamon.com/2020/06/sony-music-data-art
#just_for_fun
Столбчатая диаграмма (bar plot) отображает сравнение нескольких дискретных категорий. Одна её ось показывает сравниваемые категории, другая — измеримую величину. Иногда столбчатые диаграммы отображают несколько величин для каждой сравниваемой категории. (из wiki)
А можно просто взять и нарисовать bar'ами чей-то портрет. А можно не чей-то, а, например, портрет Паши Педенко, который ведет интересный канал про Product Management и смежные с ним сферы. Паша совместно с Яриком Степаненко (моим коллегой по MacPaw) регулярно записывают классный подкаст Product&Growth Show, ссылки на который можно найти там же в канале.
Паша еще не знает, что я его нарисовал и прорекламировал его канал. Это сюрприз, если что. Заодно проверю, пересекаются ли наши аудитории )))
А для тех, кто хочет подобным образом кого-то порадовать, тут репозиторий с подобными трюками на R
В далеком 2014 году я начал вести блог analyzecore.com про всевозможные аналитические решения с помощью языка R. Несмотря на то, что последние 2-3 года я не пишу активно, блог понемногу посещают и число просмотров приближается к своего рода майлстоуну в 500 тыс.
Эта отметка еще знаковая и потому, что с этой точки я планирую изменить тематику и писать больше о своем виденье развития аналитики и культуры работы с данными в компаниях. Пока не знаю что из этого выйдет, но сейчас я хочу подвести небольшой итог моего блогинга как аналитика и составить свой топ-5 статей с учетом их популярности среди читателей.
Итак, мой топчик (3-5 места):
5 место: Несколько вариантов визуализации когортного анализа: от практичного до не очень. Для меня статья особенная тем, что один чарт попал в longlist авторитетного и уважаемого мной конкурса KANTAR Informational is beautiful awards 2016
https://www.analyzecore.com/2015/12/10/cohort-analysis-retention-rate-visualization-r/
4 место: Статья о подходах к анализу последовательностей покупок
https://www.analyzecore.com/2014/12/04/sequence-carts-in-depth-analysis-with-r/
3 место: Вторая часть статьи о мультиканальной атрибуции с фокусом на практические моменты, которые могут возникнуть в процессе применения методики (Марковские цепи)
https://www.analyzecore.com/2017/05/31/marketing-multi-channel-attribution-model-r-part-2-practical-issues/
Интересная идея: взять bar chart и "наполнить" его реальным количеством случаев, в данном случае - заболеваний COVID-19. Очень похоже на waffle chart, через который в R и воспроизвели график, но оригинал все же лучше.
воспроизведение графика в R:
https://rud.is/b/2020/07/24/aligning-the-dots-on-covid-prison-waffles/
оригинал чартов в статье:
https://www.themarshallproject.org/2020/05/01/a-state-by-state-look-at-coronavirus-in-prisons
Классная статья о том как “устроены” цвета (речь про оттенок, насыщенность, яркость). В статье много примеров, как, управляя этими тремя факторами, получать не просто разные, но и более качественные цветовые палитры для визуализации.
Вот несколько советов:
⁃ избегайте “чистых” цветов
⁃ избегайте ярких насыщенных цветов
⁃ сочетайте цвета с разной яркостью
⁃ избегайте слишком слабого и слишком сильного контраста с фоном
И мой любимый совет (вольный перевод):
Выбрать хорошие цвета сложно. Совершенно нормально не уметь этого делать и просто копировать. Нет ничего постыдного в том, чтоб “подсмотреть” палитру.
Cтатья изобилует ссылками на соответствующие инструменты по работе с цветами. Очень рекомендую!
https://blog.datawrapper.de/beautifulcolors/index.html
“Я помогаю человеку высадиться на Луне”
В субботу с несколькими ребятами из нашей команды возили Диму Осиюка (каналы @WebAnalyst и @MarkeTech) на конференцию 8p (Одесса) с докладом на актуальную тему Incrementality Marketing Measurement (про инкрементальный анализ рекламных кампаний). Кроме Диминого доклада, мне очень понравился бизнес-поток и понравилось, что в этом году появилось слово Analytics в названии одного из потоков, т.к. изначально это конференция больше для маркетологов и направлений SEO, PPC, Affiliates и т.д.
Так вот, меня зацепил один простой вопрос. Вы наверняка постоянно слышите его на конференциях. Спикеры обращаются к аудитории и спрашивают что-то вроде: кто из вас занимается маркетингом? А кто аналитикой? А кто занимается бизнесом?
Кроме этого, у каждого участника был набор стикеров с названием профессиональной отрасли, которые можно было клеить на бейдж и тем самым помогать другим сориентироваться стоит ли с вами знакомиться )) - что, в целом, выглядит классной идеей.
Большинство, клея такой стикер на свой бейдж или отвечая на вопрос спикера “чем вы занимаетесь?”, автоматически выбирал SEO, PPC, Affiliate, Analytics, Business и т.д...
И о чем я подумал: как же это важно осознавать, что на самом деле каждый из этих ребят занимается бизнесом. Да, через какую-то свою профессиональную сферу, но бизнесом. И как это должно мотивировать - быть причастным к чему-то большему, чем твой кусок работы.
Пожалуй, это точно не новый, но от того не менее важный инсайт, который я увёз с собой.
В заголовке фраза, которую, по легенде, произнес уборщик в NASA в ответ на вопрос Джона Кеннеди “Что вы тут делаете?”. Возможно, это не более чем легенда, но очень красиво подчеркивает мысль.
Алексей Макаров собрал исчерпывающий список ресурсов по аналитике и классно описал мотивацию их изучать!
Интересная метафора: "начинающим аналитикам очень важно найти для себя тех гигантов, на чьи плечи они смогут взобраться. Список этих гигантов (простите за пафосную красноречивость) — ниже"
Мне же особенно приятно, что в список попали ресурсы ребят из моей команды MacPaw, как и, даже, этот телеграм-канал и блог 😎
Internal Analytics - наше экспериментальное направление. Идея: анализировать данные, которые мы генерируем как компания и использовать их для принятия решений. Это направление ценно еще и тем, что работает над развитием дата-дривен культуры в поддерживающих сервисах и популяризирует подход в самых разных подразделениях компании.
Что касается организационной структуры направления, мы достаточно гибкие и готовы к быстрым изменения. Постоянно проверяем все ли работает как мы задумывали и, при необходимости, внедряем изменения."
В канале @smart_data_channel Денис Соловьев публикует мини-интервью про структуру команд и роли по работе с данными в разных компаниях. Очень интересно заглянуть у кого как устроена аналитика.
В последнем интервью цикла поучаствовал и я. Поделился тем, что нам удалось построить за последние два года. Далее репост:
Огромный туториал по самой популярной R-библиотеке для визуализации данных ggplot2. Множество примеров как можно управлять различными параметрами для улучшения качества визуализации.
https://cedricscherer.netlify.app/2019/08/05/a-ggplot2-tutorial-for-beautiful-plotting-in-r/
16 декабря OWOX проведет вебинар, на котором Сергей Абрамов из iProspect и Дмитрий Щеголяев из Эльдорадо расскажут, как с помощью OWOX BI им удалось предсказать вероятность, с которой пользователь купит товар, что привело к увеличению ROI контекстной рекламы в 2,2 раза!
Обещают, что будет полезно ➡️ https://www.owox.com/c/515
"Визуализация данных помогла появиться новому воображению, приспособленному для навигации в реальности, намного большей, чем жизненный опыт любого человека."
Невероятная подборка старых визуализаций, начиная с 18 века: https://exhibits.stanford.edu/dataviz
Продолжение топ-5 статей на моем старом блоге, который вот-вот достигнет 500 тыс. просмотров:
2 место: Статья про одновременно простой и мощный подход к сегментации клиентов, который я нашел в книге Jim Novo "Drilling Down". Кстати, сам Джим ретвитнул эту статью!
https://www.analyzecore.com/2015/02/16/customer-segmentation-lifecycle-grids-with-r/
1 место: Абсолютный чемпион! Статья про мультиканальную атрибуцию с помощь Марковских цепей, в которой я попытался простым языком описать суть подхода на примерах
https://www.analyzecore.com/2016/08/03/attribution-model-r-part-1/
И три бонусные статьи, которые я рекомендую:
визуализация когортного анализа с помощью heatmap
https://www.analyzecore.com/2015/05/03/cohort-analysis-with-heatmap/
мониторинг аномалий в метриках
https://www.analyzecore.com/2018/06/13/anomaly-detection-for-business-metrics-with-r/
классная техника предсказания кривой churn и расчета прогнозного LTV
https://www.analyzecore.com/2018/09/19/ltv-prediction-for-a-recurring-subscription-with-r/
Минутка ужасной статистики 😢
Вес всех земных млекопитающих распределен так:
- 30% люди
- 67% домашний скот и домашние животные
- 3% дикие животные
Источник: https://twitter.com/ProfMarkMaslin/status/1311920897075359746
Эффектная идея визуализации плотности населения
https://www.behance.net/gallery/99114047/Population-Density
Главный фестиваль от сообщества ODS.ai для всех, кто связан с data science, machine learning и AI -
Data Fest 2020 состоится 19-20 сентября, с 11-00 до 19-00 по московскому времени.
В этом году Data Fest 2020 пройдет онлайн, а значит подключиться смогут еще больше участников со всего мира.
В программе - больше 35 секций о бизнесе, индустрии, инженерии, науке и сообществе + нетворкинг в Spatial.Chat, где можно пообщаться со спикерами и единомышленниками.
Ключевые спикеры (и это далеко не все!):
Алексей Натёкин,
Валерий Бабушкин, Михаил Рожков, Асхат Уразбаев,
Павел Плесков, Dr. Eghbal Rahimikia, Ser-Huang Poon.
Участие бесплатное, регистрация и подробности по ссылке
The Pudding, ребята, которые создают крутые визуальные эссе, поделились тем, как у них устроен процесс работы над data stories. Если коротко, то для того, чтобы появилась дата история, надо ответить на такие вопросы:
⁃ Есть ли у вас уникальный вопрос, и можно ли на него ответить с помощью данных?
⁃ Существуют ли данные (для ответа на вопрос)?
⁃ Этично ли собирать или использовать эти данные?
⁃ Интересны ли результаты анализа?
⁃ Тот ли вы человек, который расскажет эту историю? (про привлечение эксперта из области вопроса, если есть необходимость)
⁃ Составьте план своей истории; это все еще интересно?
⁃ Сделайте историю; это все еще интересно? (про рефлексию над окончательным вариантом, все ли ок)
На каждом этапе/вопросе, идея может отложиться до лучших времен, измениться или продолжить свое движение к публикации.
Pudding был бы не “пудинг”, если бы и в такой статье не было хорошей визуализации: по мере чтения, движение процесса элегантно сопровождается по общей схеме (слева).
https://pudding.cool/process/pivot-continue-down/
via @revealthedata