exp_fest | Unsorted

Telegram-канал exp_fest - EXPF – математическая статистика и эксперименты

7107

Канал про эксперименты, статистику и анализ данных Черемисинов Виталий - @vitche (сотрудничество) Мирмахмадов Искандер - @iskndr_m (гл автор) A/B платформа Sigma – https://expf.ru/sigma Консалтинг – https://expf.ru Курс по A/B - https://expf.ru/ab_course

Subscribe to a channel

EXPF – математическая статистика и эксперименты

Statistical Challenges in Online Controlled Experiments: A Review of A/B Testing Methodology
Nicholas Larsen, Jonathan Stallrich, Srijan Sengupta , Alex Deng, Ron Kohavi, Nathaniel T. Stevens

Свежий пейпер, который вышел вчера. Вообще, если видите Alex Deng и Ron Kohavi в авторах, то это 100% маст рид.

К сути: в пейпере дано ревью на методики, которые сейчас у всех на устах в индустрии. Если пробежаться по разделам, то можно увидеть следующие топики:

- Sensitivity and Small Treatment Effects
- Transforming Y , Method of Control Variates, and Stratified
Sampling
- Triggered Analysis
- Heterogeneous Treatment Effects
- Long-Term Effects
- Optional Stopping
- Interference



https://arxiv.org/pdf/2212.11366.pdf

p.s. про обещанные хайлайты к предыдущей статье помню, обещание сдержу

Читать полностью…

EXPF – математическая статистика и эксперименты

А у нас снова открыта вакансия middle-аналитика в EXPF!
Вакансия https://hh.ru/vacancy/82857282

Откликнуться i@expf.ru или в личку @iskndr_m.
Предпочтительно на почту или тг

p.s. скоро появятся вакансии на тим-лида и джунов!

Читать полностью…

EXPF – математическая статистика и эксперименты

Comparing quantiles at scale in online A/B-testing

Короткая и дельная статья про то как сделать бутстрап квантилей с помощью python от Spotify (с советами с использованием sql)

https://engineering.atspotify.com/2022/03/comparing-quantiles-at-scale-in-online-a-b-testing/

Читать полностью…

EXPF – математическая статистика и эксперименты

Воркшоп "Лезем в данные самостоятельно"

Наши друзья из Авито (Даня, привет) не так давно провели воркшоп на Epic Growth по тому как анализировать эксперименты

Для тех кто хочет попрактиковаться, видео будет весьма полезным.

https://www.youtube.com/watch?v=QZx2oZwmgeI

Читать полностью…

EXPF – математическая статистика и эксперименты

Немного истории про эксперименты

Решил разбавить формат постов с пейперами чем-то отвлеченным, но близким к нашей тематике. Давайте попробую рассказать про первый опыт проведения рандомизированых экспериментов в истории.

В 1885 году Пирс (Charles Sanders Peirce) и Джастроу (Joseph Jastrow) провели серию экспериментов, чтобы определить, как влияние ожиданий может искажать результаты научных исследований. Они использовали слепой подход и рандомизацию для минимизации потенциальных смещений и предубеждений.

Эти эксперименты стали основой для развития слепых и рандомизированных методов в научных исследованиях. Тем не менее, их исследования не были широко известны и признаны на тот момент, и только позже, в середине 20-го века, их методы стали более популярными и распространенными, особенно благодаря работам Гарри Голда и Остина Брэдфорд Хилла (про них напишу отдельно, если формат вам зайдет)

Чарльз Сандерс Пирс и Джозеф Джастроу были американскими психологами и философами, работавшими в области психологии и логики.

В их эксперименте они использовали серию карт, которые могли быть подняты на разные высоты. Задача испытуемых заключалась в том, чтобы определить, насколько высоко была поднята карта, опираясь на свои собственные ощущения и восприятие. Экспериментатор заранее знал, какая карта была поднята на определенную высоту, но испытуемые этого не знали.

Пирс и Джастроу использовали слепой подход, чтобы убедиться, что испытуемые не могли знать или догадываться, какая карта была поднята. Таким образом, они исключили возможность того, что предварительные знания или ожидания испытуемых могут повлиять на результаты эксперимента. Кроме того, они использовали рандомизацию для случайного выбора карт, чтобы убедиться, что результаты не были смещены из-за каких-либо систематических ошибок или неправильного выбора карт.

Эксперименты Пирса и Джастроу дали понимание о том, как важно использовать слепые и рандомизированные методы в научных исследованиях для получения более точных и объективных результатов. Однако, как я уже упоминал ранее, их вклад в развитие слепых рандомизированных экспериментов был признан и широко распространен только позднее, в середине 20-го века, особенно в медицине

Ставьте реакции на пост, пойму стоит ли продолжать писать такие посты 🙂

Читать полностью…

EXPF – математическая статистика и эксперименты

У Sravni.ru вышла статья об их пути от in-house A/B-платформы к внешнему решению.

В статье описано как они валидировали внутренний и внешний инструменты, на что делали акцент при выборе и что, собственно, узнали по итогам пройденного пути

Небольшой спойлер: внешним инструментом выступала наша система менеджмента экспериментов и фича флагов EXPF Sigma

Читать на хабре:
https://habr.com/ru/company/sravni/blog/723662/

Читать полностью…

EXPF – математическая статистика и эксперименты

Шесть причин, почему ваши A/B-тесты не работают
Озон написали статью с перечислением нескольких концептов, которые необходимо знать перед анализом экспериментов. Для тех кто еще не знаком с понятиями FWER, MDE и дельта-метод будет полезно.

От себя добавлю, что формула у MW-теста в статье несовсем верная. В статье указано, что гипотеза у MW-теста проверяет наличие сдвига на дельту всего распределения. Корректной гипотезой является сравнение каждого наблюдения x_i в первой выборке с каждым наблюдением y_i в другой выборке:

H_0: P(x_i < y_j) = 0.5
H_1: P(x_i < y_j) ≠ 0.5

https://habr.com/ru/company/ozontech/blog/712306/

Читать полностью…

EXPF – математическая статистика и эксперименты

И код есть!)
https://anonymous.4open.science/r/b25ed0d0-5759-4a13-a65a-a02c80cbcb8a/simulation4_1.R

Читать полностью…

EXPF – математическая статистика и эксперименты

Записался и подушнил в подкасте «Форточку открой»

Слушать в
Apple Podcasts
Яндекс Музыка

Читать полностью…

EXPF – математическая статистика и эксперименты

Мы все еще в поисках аналитика для расширения команды!
Вакансия https://hh.ru/vacancy/71184627

Откликнуться i@expf.ru или в личку @iskndr_m.
Лучше на почту или тг, так будет быстрее. На hh отвечаем не оперативно

Читать полностью…

EXPF – математическая статистика и эксперименты

Eat Your PEAs, Drink Your TEA. A Day in the Life of Reddit Experimentation

https://www.reddit.com/r/RedditEng/comments/xch2vb/eat_your_peas_drink_your_tea_a_day_in_the_life_of/

Читать полностью…

EXPF – математическая статистика и эксперименты

Мой близкий друг Саша Сахнов - человек который на мой взгляд лучше всех разбирается в а/б тестах

Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)

Также интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео

Читать полностью…

EXPF – математическая статистика и эксперименты

P-values and surprising results
Ron Kohavi

Бывают ситуации, когда заходит речь про интепретацию результатов, многие обращая внимания на p-value неправильно истолковывают его значение. Во многом это связано с тем, как некоторые коммерческие A/B-платформы объясняют своим пользователям, что 1-pvalue – это «уверенность» в победе treatment’а.
В этом пейпере наглядно объясняется к каким результатам может привести неправильная интерпретация p-value

https://onedrive.live.com/view.aspx?resid=8612090E610871E4!415400&amp;ithint=file,docx&amp;authkey=!ACert2pUTlADS44

Читать полностью…

EXPF – математическая статистика и эксперименты

Анализ рекомендаций до/без А/Б-тестов

Доклад от Ильдара Сафило (МТС) про тестирование рекомендательных систем

https://www.youtube.com/watch?v=MMAGtkb7ZHk

Читать полностью…

EXPF – математическая статистика и эксперименты

Experimentation at FARFETCH
Как устроена экспериментальная культура, платформа и что используют в FARFETCH

https://www.farfetchtechblog.com/fotos/editor2/Greg/Experimentation_at_FARFETCH.pdf

Читать полностью…

EXPF – математическая статистика и эксперименты

Какая метрика является самой важной для экспериментальных платформ?

Ронни Кохави вместе с Лукасом Вермеером написали статью, которая, по моему мнению, наилучшим образом описывает то, над чем работает A/B-команда.

Они описали плюсы и ограничения этой метрики, а также ее драйвер метрики (на что можно повлиять, чтобы ее увеличить) и гардрейл метрики (метрика растет потому что мы видим ее рост, а не потому что мы задели что-то рядом)

Чутка позже опишу на русском языке основные хайлайты

Статья
https://drive.google.com/file/d/1SBrtG0KIVUWvgBysCUEk-JAm7m3m5LRZ/view

Читать полностью…

EXPF – математическая статистика и эксперименты

Ускорение экспериментов с помощью VWE
Наш аналитик Егор Семин выступил на февральском митапе ’23 от Авито с докладом о Variance-Weighted Estimator.

Егор рассказал про то как работать с сокращением дисперсии, метод VWE от Facebook, а также примеры использования

Смотреть

Читать полностью…

EXPF – математическая статистика и эксперименты

Конференция по продуктовой аналитике Aha!’23 пройдет 30 мая в Москве

Практическая конференция по продвинутой продуктовой аналитике и marketplace effiency состоится 30 мая на площадке Центра делового предпринимательства.

Среди спикеров конференции представители крупных компаний: Avito, Яндекс, Тинькофф, Мегафон, МТС, OZON и др. Целевая аудитория — продуктовые аналитики и менеджеры, директора по маркетингу, ML-специалисты.

Ключевые темы конференции: продуктовые эксперименты, a/b-тестирование, модели монетизации, surge pricing, supply & demand balance, ranking and personalization, network effects, экономика и оптимизация.

С подробной программой конференции можно ознакомиться по ссылке

В конференции примут участие более 500 специалистов в области ML-разработки, data science, продуктовой аналитики и управления бизнесом. Доступна прямая трансляция и, разумеется, доступ ко всем видеозаписям

По промокоду LASTCALL можно получить скидку 10% на любой билет

Подробности:  matemarketing.ru/aha

Читать полностью…

EXPF – математическая статистика и эксперименты

Monte Carlo Simulations: Separating Signal from Noise in Sampled Success Metrics

МС симуляции являются наиболее полезным инструментом в исследованиях, особенно в контексте A/B-тестов. Я уже и не вспомню исследовательские проекты, где мы бы не прибегали к ним. Новая метрика? МС. Как лучше оптимизировать ее? МС. И так далее. Коротко о том, что это:

Симуляцию Монте-Карло можно использовать для создания набора случайных входных данных, основанных на предположениях реального мира. Это делается путем подачи этих входных данных через функцию, которая аппроксимирует реальную ситуацию, представляющую интерес. Выходными данными могут быть выражены в вероятностях возможных результатов при разных сценариях.

Иначе говоря, мы делаем 1000 симуляционных A/B и смотрим как ведет себя метрика, усредняя результат. Вариативность контекстов, в которых воссоздается поведение метрики ограниченно только вашими целями. Мы уже ранее писали у себя в блоге про МС, где продемонстрировали прогнозирование времени на эксперимент.

Сегодня хочу с вами поделиться неплохой статьей от Shopify, где приведены примеры с кодом применения МС

https://shopify.engineering/monte-carlo-simulations-sampled-success-metrics

Читать полностью…

EXPF – математическая статистика и эксперименты

Choosing Sequential Testing Framework — Comparisons and Discussions

Spotify исследовали инструменты последовательного тестирования (GST; AVI: MSPRT, GAVI; множественные коррекции и тп).
Выводы неоднозначные, как это обычно бывает в такого рода исследованиях («если у вас так, то…, а если нет, то…»). Тем не менее, очень интересный пейпер, который позволит вам лучше подготовиться к выбору инструмента у себя в работе

https://engineering.atspotify.com/2023/03/choosing-sequential-testing-framework-comparisons-and-discussions/

Читать полностью…

EXPF – математическая статистика и эксперименты

Ищем middle-аналитика в команду EXPF!
Вакансия https://hh.ru/vacancy/78091483

Откликнуться i@expf.ru или в личку @iskndr_m.
Предпочтительно на почту или тг

Читать полностью…

EXPF – математическая статистика и эксперименты

Deep Dive Into Variance Reduction

Новая статья от Microsoft про CUPED

Читать здесь

Читать полностью…

EXPF – математическая статистика и эксперименты

Как использовать суррогатные метрики, чтобы не ждать долго?

Попался под руки пейпер от 2019 года от LinkdeIn, где они рассказывают подход по поиску суррогатных (прокси) метрик для более быстрого проведения экспериментов, если целевая метрика – north star. Как заверяют авторы, зная что прокрасилась суррогатная метрика, значит прокрасится и north star (например, north star – ltv, суррогатная – retention).

В статье куча интересных формул для расчета ошибки, дисперсии, статистики и т.п., чтобы отвалидировать суррогат. Если коротко, то TLDR такой:

1. Определите свою north star. Метрики определяют успех/неудача эксперимента (можно считать, что это OEC)

2. Разработайте суррогатную метрику, предсказав north star. Фичи предсказанной north star должны быть уловимыми в течение всего эксперимента.

3. Используйте суррогатную метрику в эксперименте. Обратите внимание, что при расчете статистической значимости мы должны скорректировать дисперсию, чтобы учесть ошибку прогноза в модели. Формулы там даны

Читать здесь

Читать полностью…

EXPF – математическая статистика и эксперименты

Holdout / Holdback experiments

Вы наверняка слышали про практику удерживания «глобального контроля» для сравнения с пользователями, которые участвуют в экспериментах.

Глобальный контроль (его еще называют «вечным») – группа пользователей, занимающая небольшую долю траффика (обычно от 1% до 8%), с котором сравнивается остальная часть экспериментальных пользователей.

Это позволяет затем сравнивать метрики между пользователями, которые получают эксп. опыт, и теми пользователями, которые удерживаются (holding out) от каких-либо изменений. В результате мы можем определить кумулятивное долгосрочное влияние изменений.

В биг техе распространена практика использование holdout’ов поквартально. Держим holdout квартал -> смотрим совокупный импакт от нашей работы и далее распространяем результаты на квартальные OKR/KPI

Почитать как это делают:
- Understanding the collective impact of experiments
- Universal Holdout Groups at Disney Streaming
- Spotify’s New Experimentation Platform (Part 2)

Читать полностью…

EXPF – математическая статистика и эксперименты

Мы ищем аналитика к себе в команду на консалтинговое направление

У EXPF сейчас два направления развития: платформа для A/B-тестов и консалтинг по A/B + продуктовая аналитика

Вам предстоит работать в команде аналитиков, которые развивают и оказывают аналитическую поддержку нашим клиентам.

Придется много работать с A/B, а также с традиционными задачами продуктовой/дата аналитики: адхоки, дашборды, реализация etl’ей в airflow и т.п.

Нужны знания python, sql, мат. стата и рабочий опыт от полугода для джунов и от года-полутора для миддлов

Подробности вакансии тут:
https://hh.ru/vacancy/71184627

Можно писать на почту i@expf.ru или мне в личку @iskndr_m

Читать полностью…

EXPF – математическая статистика и эксперименты

Почему разные калькуляторы по расчету размера выборки дают разные результаты?

Как объясняет Ronny Kohavi, основные отличия заключаются в 1) односторонняя vs. двухсторонняя проверка и 2) AVPV всегда требует больше наблюдений

Я бы сюда добавил еще 3) особенности софта (питон, R и программы для работы со статитистикой могут дать разные результаты) 4) ratio выборок, которое где-то учитывается/где то нет. Но если мы говорим про абсолютно одинаковые входные значения, то причины обусловлены ограничениями и косячностью при написании формулы (например, те, что полностью написаны на js) и то, что было упомянуто в 3) пункте

Подробное объяснение дал Ronny Kohavi:
https://docs.google.com/document/d/1dmXZwZ5yzfKe4Yg8tFr1Aot-LON8IZCs/edit

Читать полностью…

EXPF – математическая статистика и эксперименты

How Airbnb Safeguards Changes in Production
Статья от Airbnb про их процесс выкатки A/B-тестов:

Introduction
По мере того, как Airbnb выросла до компании с более чем 1200 разработчиками, количество платформ и каналов для внесения изменений в наш продукт — и количество ежедневных изменений, которые мы вносим в прод, — также значительно выросло. Перед лицом этого роста нам постоянно необходимо масштабировать возможности обнаруживать ошибки до того, как они попадут в рабочую среду. Однако ошибки неизбежно ускользают от предварительной проверки, поэтому мы также вкладываем значительные ресурсы в механизмы для быстрого обнаружения ошибок, когда они все же попадают в прод. В этом статье мы рассмотрим причины и фундамент системы защиты изменений в рабочей среде, которую мы называем безопасным развертыванием (Safe Deploys). В двух следующих постах будет подробно рассказано о технической архитектуре, о том, как мы применяли ее к традиционным A/B-тестам и развертыванию кода соответственно

https://medium.com/airbnb-engineering/how-airbnb-safeguards-changes-in-production-9fc9024f3446

Читать полностью…

EXPF – математическая статистика и эксперименты

Meet Dash-AB — The Statistics Engine of Experimentation at DoorDash

Как устроена экспериментальная платформа в DoorDash

https://doordash.engineering/2022/05/24/meet-dash-ab-the-statistics-engine-of-experimentation-at-doordash/

Читать полностью…

EXPF – математическая статистика и эксперименты

Кого читать и за чьими обновлениями следить?
Небольшой список ученых, инженеров и дс-ов, кто вносит существенный вклад в развитие экспериментальной отрасли

Ronny Kohavi
Google Scholar https://scholar.google.com/citations?user=O3RYHGwAAAAJ&amp;hl=en
LinkedIn https://www.linkedin.com/in/ronnyk/

Aleksander Fabijan, Microsoft
Google Scholar https://scholar.google.com/citations?user=gXOUJLQAAAAJ&amp;hl=en
LinkedIn https://www.linkedin.com/in/afabijan/

Pavel Dmitriev, Outreach.io (ex-Microsoft)
Google Scholar https://scholar.google.com/citations?user=Fj2OE3QAAAAJ&amp;hl=en
LinkedIn https://www.linkedin.com/in/paveldmitriev/

Alex Deng, Airbnb, ex-Microsoft
Google Scholar https://scholar.google.com/citations?user=lRHv-7kAAAAJ&amp;hl=en
LinkedIn https://www.linkedin.com/in/alex-shaojie-deng-b572347/

Lukas Vermeer, Vista (ex-Booking)
Google Scholar https://scholar.google.com/citations?user=t02wAMMAAAAJ&amp;hl=en
LinkedIn https://www.linkedin.com/in/lukasvermeer/

Jiannan Lu, Apple
Google Scholar https://scholar.google.com/citations?user=wrKPStwAAAAJ&amp;hl=en
LinkedIn https://www.linkedin.com/in/jiannan-lu-70721436/

Читать полностью…

EXPF – математическая статистика и эксперименты

Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестов

Опыт внедрения switchback’а наших друзей из Delivery Club

https://habr.com/ru/company/deliveryclub/blog/670762/

Читать полностью…
Subscribe to a channel