Канал про эксперименты, статистику и анализ данных Черемисинов Виталий - @vitche (сотрудничество) Мирмахмадов Искандер - @iskndr_m (гл автор) A/B платформа Sigma – https://expf.ru/sigma Консалтинг – https://expf.ru Курс по A/B - https://expf.ru/ab_course
Statistical Challenges in Online Controlled Experiments: A Review of A/B Testing Methodology
Nicholas Larsen, Jonathan Stallrich, Srijan Sengupta , Alex Deng, Ron Kohavi, Nathaniel T. Stevens
Свежий пейпер, который вышел вчера. Вообще, если видите Alex Deng и Ron Kohavi в авторах, то это 100% маст рид.
К сути: в пейпере дано ревью на методики, которые сейчас у всех на устах в индустрии. Если пробежаться по разделам, то можно увидеть следующие топики:
- Sensitivity and Small Treatment Effects
- Transforming Y , Method of Control Variates, and Stratified
Sampling
- Triggered Analysis
- Heterogeneous Treatment Effects
- Long-Term Effects
- Optional Stopping
- Interference
https://arxiv.org/pdf/2212.11366.pdf
p.s. про обещанные хайлайты к предыдущей статье помню, обещание сдержу
А у нас снова открыта вакансия middle-аналитика в EXPF!
Вакансия https://hh.ru/vacancy/82857282
Откликнуться i@expf.ru или в личку @iskndr_m.
Предпочтительно на почту или тг
p.s. скоро появятся вакансии на тим-лида и джунов!
Comparing quantiles at scale in online A/B-testing
Короткая и дельная статья про то как сделать бутстрап квантилей с помощью python от Spotify (с советами с использованием sql)
https://engineering.atspotify.com/2022/03/comparing-quantiles-at-scale-in-online-a-b-testing/
Воркшоп "Лезем в данные самостоятельно"
Наши друзья из Авито (Даня, привет) не так давно провели воркшоп на Epic Growth по тому как анализировать эксперименты
Для тех кто хочет попрактиковаться, видео будет весьма полезным.
https://www.youtube.com/watch?v=QZx2oZwmgeI
Немного истории про эксперименты
Решил разбавить формат постов с пейперами чем-то отвлеченным, но близким к нашей тематике. Давайте попробую рассказать про первый опыт проведения рандомизированых экспериментов в истории.
В 1885 году Пирс (Charles Sanders Peirce) и Джастроу (Joseph Jastrow) провели серию экспериментов, чтобы определить, как влияние ожиданий может искажать результаты научных исследований. Они использовали слепой подход и рандомизацию для минимизации потенциальных смещений и предубеждений.
Эти эксперименты стали основой для развития слепых и рандомизированных методов в научных исследованиях. Тем не менее, их исследования не были широко известны и признаны на тот момент, и только позже, в середине 20-го века, их методы стали более популярными и распространенными, особенно благодаря работам Гарри Голда и Остина Брэдфорд Хилла (про них напишу отдельно, если формат вам зайдет)
Чарльз Сандерс Пирс и Джозеф Джастроу были американскими психологами и философами, работавшими в области психологии и логики.
В их эксперименте они использовали серию карт, которые могли быть подняты на разные высоты. Задача испытуемых заключалась в том, чтобы определить, насколько высоко была поднята карта, опираясь на свои собственные ощущения и восприятие. Экспериментатор заранее знал, какая карта была поднята на определенную высоту, но испытуемые этого не знали.
Пирс и Джастроу использовали слепой подход, чтобы убедиться, что испытуемые не могли знать или догадываться, какая карта была поднята. Таким образом, они исключили возможность того, что предварительные знания или ожидания испытуемых могут повлиять на результаты эксперимента. Кроме того, они использовали рандомизацию для случайного выбора карт, чтобы убедиться, что результаты не были смещены из-за каких-либо систематических ошибок или неправильного выбора карт.
Эксперименты Пирса и Джастроу дали понимание о том, как важно использовать слепые и рандомизированные методы в научных исследованиях для получения более точных и объективных результатов. Однако, как я уже упоминал ранее, их вклад в развитие слепых рандомизированных экспериментов был признан и широко распространен только позднее, в середине 20-го века, особенно в медицине
Ставьте реакции на пост, пойму стоит ли продолжать писать такие посты 🙂
У Sravni.ru вышла статья об их пути от in-house A/B-платформы к внешнему решению.
В статье описано как они валидировали внутренний и внешний инструменты, на что делали акцент при выборе и что, собственно, узнали по итогам пройденного пути
Небольшой спойлер: внешним инструментом выступала наша система менеджмента экспериментов и фича флагов EXPF Sigma
Читать на хабре:
https://habr.com/ru/company/sravni/blog/723662/
Шесть причин, почему ваши A/B-тесты не работают
Озон написали статью с перечислением нескольких концептов, которые необходимо знать перед анализом экспериментов. Для тех кто еще не знаком с понятиями FWER, MDE и дельта-метод будет полезно.
От себя добавлю, что формула у MW-теста в статье несовсем верная. В статье указано, что гипотеза у MW-теста проверяет наличие сдвига на дельту всего распределения. Корректной гипотезой является сравнение каждого наблюдения x_i в первой выборке с каждым наблюдением y_i в другой выборке:
H_0: P(x_i < y_j) = 0.5
H_1: P(x_i < y_j) ≠ 0.5
https://habr.com/ru/company/ozontech/blog/712306/
И код есть!)
https://anonymous.4open.science/r/b25ed0d0-5759-4a13-a65a-a02c80cbcb8a/simulation4_1.R
Записался и подушнил в подкасте «Форточку открой»
Слушать в
Apple Podcasts
Яндекс Музыка
Мы все еще в поисках аналитика для расширения команды!
Вакансия https://hh.ru/vacancy/71184627
Откликнуться i@expf.ru или в личку @iskndr_m.
Лучше на почту или тг, так будет быстрее. На hh отвечаем не оперативно
Eat Your PEAs, Drink Your TEA. A Day in the Life of Reddit Experimentation
https://www.reddit.com/r/RedditEng/comments/xch2vb/eat_your_peas_drink_your_tea_a_day_in_the_life_of/
Мой близкий друг Саша Сахнов - человек который на мой взгляд лучше всех разбирается в а/б тестах
Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)
Также интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео
P-values and surprising results
Ron Kohavi
Бывают ситуации, когда заходит речь про интепретацию результатов, многие обращая внимания на p-value неправильно истолковывают его значение. Во многом это связано с тем, как некоторые коммерческие A/B-платформы объясняют своим пользователям, что 1-pvalue – это «уверенность» в победе treatment’а.
В этом пейпере наглядно объясняется к каким результатам может привести неправильная интерпретация p-value
https://onedrive.live.com/view.aspx?resid=8612090E610871E4!415400&ithint=file,docx&authkey=!ACert2pUTlADS44
Анализ рекомендаций до/без А/Б-тестов
Доклад от Ильдара Сафило (МТС) про тестирование рекомендательных систем
https://www.youtube.com/watch?v=MMAGtkb7ZHk
Experimentation at FARFETCH
Как устроена экспериментальная культура, платформа и что используют в FARFETCH
https://www.farfetchtechblog.com/fotos/editor2/Greg/Experimentation_at_FARFETCH.pdf
Какая метрика является самой важной для экспериментальных платформ?
Ронни Кохави вместе с Лукасом Вермеером написали статью, которая, по моему мнению, наилучшим образом описывает то, над чем работает A/B-команда.
Они описали плюсы и ограничения этой метрики, а также ее драйвер метрики (на что можно повлиять, чтобы ее увеличить) и гардрейл метрики (метрика растет потому что мы видим ее рост, а не потому что мы задели что-то рядом)
Чутка позже опишу на русском языке основные хайлайты
Статья
https://drive.google.com/file/d/1SBrtG0KIVUWvgBysCUEk-JAm7m3m5LRZ/view
Ускорение экспериментов с помощью VWE
Наш аналитик Егор Семин выступил на февральском митапе ’23 от Авито с докладом о Variance-Weighted Estimator.
Егор рассказал про то как работать с сокращением дисперсии, метод VWE от Facebook, а также примеры использования
Смотреть
Конференция по продуктовой аналитике Aha!’23 пройдет 30 мая в Москве
Практическая конференция по продвинутой продуктовой аналитике и marketplace effiency состоится 30 мая на площадке Центра делового предпринимательства.
Среди спикеров конференции представители крупных компаний: Avito, Яндекс, Тинькофф, Мегафон, МТС, OZON и др. Целевая аудитория — продуктовые аналитики и менеджеры, директора по маркетингу, ML-специалисты.
Ключевые темы конференции: продуктовые эксперименты, a/b-тестирование, модели монетизации, surge pricing, supply & demand balance, ranking and personalization, network effects, экономика и оптимизация.
С подробной программой конференции можно ознакомиться по ссылке
В конференции примут участие более 500 специалистов в области ML-разработки, data science, продуктовой аналитики и управления бизнесом. Доступна прямая трансляция и, разумеется, доступ ко всем видеозаписям
По промокоду LASTCALL можно получить скидку 10% на любой билет
Подробности: matemarketing.ru/aha
Monte Carlo Simulations: Separating Signal from Noise in Sampled Success Metrics
МС симуляции являются наиболее полезным инструментом в исследованиях, особенно в контексте A/B-тестов. Я уже и не вспомню исследовательские проекты, где мы бы не прибегали к ним. Новая метрика? МС. Как лучше оптимизировать ее? МС. И так далее. Коротко о том, что это:
Симуляцию Монте-Карло можно использовать для создания набора случайных входных данных, основанных на предположениях реального мира. Это делается путем подачи этих входных данных через функцию, которая аппроксимирует реальную ситуацию, представляющую интерес. Выходными данными могут быть выражены в вероятностях возможных результатов при разных сценариях.
Иначе говоря, мы делаем 1000 симуляционных A/B и смотрим как ведет себя метрика, усредняя результат. Вариативность контекстов, в которых воссоздается поведение метрики ограниченно только вашими целями. Мы уже ранее писали у себя в блоге про МС, где продемонстрировали прогнозирование времени на эксперимент.
Сегодня хочу с вами поделиться неплохой статьей от Shopify, где приведены примеры с кодом применения МС
https://shopify.engineering/monte-carlo-simulations-sampled-success-metrics
Choosing Sequential Testing Framework — Comparisons and Discussions
Spotify исследовали инструменты последовательного тестирования (GST; AVI: MSPRT, GAVI; множественные коррекции и тп).
Выводы неоднозначные, как это обычно бывает в такого рода исследованиях («если у вас так, то…, а если нет, то…»). Тем не менее, очень интересный пейпер, который позволит вам лучше подготовиться к выбору инструмента у себя в работе
https://engineering.atspotify.com/2023/03/choosing-sequential-testing-framework-comparisons-and-discussions/
Ищем middle-аналитика в команду EXPF!
Вакансия https://hh.ru/vacancy/78091483
Откликнуться i@expf.ru или в личку @iskndr_m.
Предпочтительно на почту или тг
Deep Dive Into Variance Reduction
Новая статья от Microsoft про CUPED
Читать здесь
Как использовать суррогатные метрики, чтобы не ждать долго?
Попался под руки пейпер от 2019 года от LinkdeIn, где они рассказывают подход по поиску суррогатных (прокси) метрик для более быстрого проведения экспериментов, если целевая метрика – north star. Как заверяют авторы, зная что прокрасилась суррогатная метрика, значит прокрасится и north star (например, north star – ltv, суррогатная – retention).
В статье куча интересных формул для расчета ошибки, дисперсии, статистики и т.п., чтобы отвалидировать суррогат. Если коротко, то TLDR такой:
1. Определите свою north star. Метрики определяют успех/неудача эксперимента (можно считать, что это OEC)
2. Разработайте суррогатную метрику, предсказав north star. Фичи предсказанной north star должны быть уловимыми в течение всего эксперимента.
3. Используйте суррогатную метрику в эксперименте. Обратите внимание, что при расчете статистической значимости мы должны скорректировать дисперсию, чтобы учесть ошибку прогноза в модели. Формулы там даны
Читать здесь
Holdout / Holdback experiments
Вы наверняка слышали про практику удерживания «глобального контроля» для сравнения с пользователями, которые участвуют в экспериментах.
Глобальный контроль (его еще называют «вечным») – группа пользователей, занимающая небольшую долю траффика (обычно от 1% до 8%), с котором сравнивается остальная часть экспериментальных пользователей.
Это позволяет затем сравнивать метрики между пользователями, которые получают эксп. опыт, и теми пользователями, которые удерживаются (holding out) от каких-либо изменений. В результате мы можем определить кумулятивное долгосрочное влияние изменений.
В биг техе распространена практика использование holdout’ов поквартально. Держим holdout квартал -> смотрим совокупный импакт от нашей работы и далее распространяем результаты на квартальные OKR/KPI
Почитать как это делают:
- Understanding the collective impact of experiments
- Universal Holdout Groups at Disney Streaming
- Spotify’s New Experimentation Platform (Part 2)
Мы ищем аналитика к себе в команду на консалтинговое направление
У EXPF сейчас два направления развития: платформа для A/B-тестов и консалтинг по A/B + продуктовая аналитика
Вам предстоит работать в команде аналитиков, которые развивают и оказывают аналитическую поддержку нашим клиентам.
Придется много работать с A/B, а также с традиционными задачами продуктовой/дата аналитики: адхоки, дашборды, реализация etl’ей в airflow и т.п.
Нужны знания python, sql, мат. стата и рабочий опыт от полугода для джунов и от года-полутора для миддлов
Подробности вакансии тут:
https://hh.ru/vacancy/71184627
Можно писать на почту i@expf.ru или мне в личку @iskndr_m
Почему разные калькуляторы по расчету размера выборки дают разные результаты?
Как объясняет Ronny Kohavi, основные отличия заключаются в 1) односторонняя vs. двухсторонняя проверка и 2) AVPV всегда требует больше наблюдений
Я бы сюда добавил еще 3) особенности софта (питон, R и программы для работы со статитистикой могут дать разные результаты) 4) ratio выборок, которое где-то учитывается/где то нет. Но если мы говорим про абсолютно одинаковые входные значения, то причины обусловлены ограничениями и косячностью при написании формулы (например, те, что полностью написаны на js) и то, что было упомянуто в 3) пункте
Подробное объяснение дал Ronny Kohavi:
https://docs.google.com/document/d/1dmXZwZ5yzfKe4Yg8tFr1Aot-LON8IZCs/edit
How Airbnb Safeguards Changes in Production
Статья от Airbnb про их процесс выкатки A/B-тестов:
Introduction
По мере того, как Airbnb выросла до компании с более чем 1200 разработчиками, количество платформ и каналов для внесения изменений в наш продукт — и количество ежедневных изменений, которые мы вносим в прод, — также значительно выросло. Перед лицом этого роста нам постоянно необходимо масштабировать возможности обнаруживать ошибки до того, как они попадут в рабочую среду. Однако ошибки неизбежно ускользают от предварительной проверки, поэтому мы также вкладываем значительные ресурсы в механизмы для быстрого обнаружения ошибок, когда они все же попадают в прод. В этом статье мы рассмотрим причины и фундамент системы защиты изменений в рабочей среде, которую мы называем безопасным развертыванием (Safe Deploys). В двух следующих постах будет подробно рассказано о технической архитектуре, о том, как мы применяли ее к традиционным A/B-тестам и развертыванию кода соответственно
https://medium.com/airbnb-engineering/how-airbnb-safeguards-changes-in-production-9fc9024f3446
Meet Dash-AB — The Statistics Engine of Experimentation at DoorDash
Как устроена экспериментальная платформа в DoorDash
https://doordash.engineering/2022/05/24/meet-dash-ab-the-statistics-engine-of-experimentation-at-doordash/
Кого читать и за чьими обновлениями следить?
Небольшой список ученых, инженеров и дс-ов, кто вносит существенный вклад в развитие экспериментальной отрасли
Ronny Kohavi
Google Scholar https://scholar.google.com/citations?user=O3RYHGwAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/ronnyk/
Aleksander Fabijan, Microsoft
Google Scholar https://scholar.google.com/citations?user=gXOUJLQAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/afabijan/
Pavel Dmitriev, Outreach.io (ex-Microsoft)
Google Scholar https://scholar.google.com/citations?user=Fj2OE3QAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/paveldmitriev/
Alex Deng, Airbnb, ex-Microsoft
Google Scholar https://scholar.google.com/citations?user=lRHv-7kAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/alex-shaojie-deng-b572347/
Lukas Vermeer, Vista (ex-Booking)
Google Scholar https://scholar.google.com/citations?user=t02wAMMAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/lukasvermeer/
Jiannan Lu, Apple
Google Scholar https://scholar.google.com/citations?user=wrKPStwAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/jiannan-lu-70721436/
Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестов
Опыт внедрения switchback’а наших друзей из Delivery Club
https://habr.com/ru/company/deliveryclub/blog/670762/