exp_fest | Unsorted

Telegram-канал exp_fest - EXPF – математическая статистика и эксперименты

7107

Канал про эксперименты, статистику и анализ данных Черемисинов Виталий - @vitche (сотрудничество) Мирмахмадов Искандер - @iskndr_m (гл автор) A/B платформа Sigma – https://expf.ru/sigma Консалтинг – https://expf.ru Курс по A/B - https://expf.ru/ab_course

Subscribe to a channel

EXPF – математическая статистика и эксперименты

Запись вчерашней трансляции

Читать полностью…

EXPF – математическая статистика и эксперименты

Привет!

Давно мы ничего не писали в этом канале, но повод, с которым возобновляем вещание, — более чем важный.

Мы находимся в процессе завершения сделки с Авито. После того, как это произойдет, инструмент EXPF Sigma и инструмент Авито Trisigma станет объединённой платформой для продуктовой аналитики и A/B-тестов.

Вместе мы сможем охватить больше разных команд, которым нужны такие продукты. И, конечно, усилим экспертизу друг друга.

Наша команда в полном составе продолжит развивать проект на стороне Авито.

— Для клиентов EXPF ничего не изменится — вы сохраните доступ к инструментам и сможете пользоваться платформой на прежних условиях.

— Для читателей нашего канала всё тоже останется прежним — мы продолжим рассказывать вам про продуктовую аналитику, A/B-тестирования и другое важное «с полей» вместе с коллегами из Авито!

Больше подробностей — в официальном релизе.

Читать полностью…

EXPF – математическая статистика и эксперименты

На российском рынке A/B-тестирования мы часто наблюдаем создание горизонтальных команд, которые берут на себя полную ответственность за процесс экспериментов в компании — от формирования культуры экспериментов до внедрения автоматизации на платформе.

Хотя пока не существует строго определенного состава таких команд, вырисовываются определенные тенденции. В подобных командах должны присутствовать data science-инженеры, разработчики и методологи.

В ближайшее время мы опубликуем более подробный пост на эту тему, а пока предлагаем вам пройти опрос наших партнеров из NEWHR. Это исследование охватывает регулярную аналитическую практику и частично рынок A/B-тестирования

Читать полностью…

EXPF – математическая статистика и эксперименты

Для тех кому все равно остается непонятно и задаются вопросом "почему бы нам просто не взять exposure пользоватей и посчитать эффект" – рекомендую посмотреть запись доклада от Авито (рассказывает аналитик Артем Дронов) с митапа со Сбермаркетом

Начиная с 29:06
https://www.youtube.com/watch?v=YoTTuiVDeMo&ab_channel=%D0%9A%D1%83%D0%BF%D0%B5%D1%80

Читать полностью…

EXPF – математическая статистика и эксперименты

p.s.

оказывается Spotify написали обзорную заметку этой статьи у себя в dev-блоге. Если хочется понять все pros и cons их предложенного метода и понять суть дизайна, можно быстренько прочитать тут:

https://engineering.atspotify.com/2024/05/fixed-power-designs-its-not-if-you-peek-its-what-you-peek-at/

Читать полностью…

EXPF – математическая статистика и эксперименты

Самый важный SQL-запрос в моей карьере.

Сегодняшний пост про анализ аб-тестов. Будет полезен всем аналитикам и bi-девелоперам.

Создатель in-house платформы для A/B-тестирования в Авито Данила Леньков делится лайфаком: как свести задачу расчета Minimum Detectable Effect к простому SQL-запросу.

Читайте и делитесь в комметриях своими лайфхаками про анализ #аб!

Читать полностью…

EXPF – математическая статистика и эксперименты

Давно EXPF не проводил митапов и это пора исправлять!

25 апреля с 18:00 до 20:00 по Мск онлайн митап EXPF в партнерстве с прекрасными DataGo!

Традиционно, будем говорить про метрики, эксперименты и автоматизацию.

Программа:

▫️18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, Head of Experimentation Platfrom OKKO

▫️18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет

▫️19:00 – 19:30 Поиск Эффективных Прокси-Метрик,
Александр Кузнецов, ведущий аналитик EXPF

▫️19:30 — 20:00 Сбор качественных данных для проведения А/Б тестов
Константин Елисеев, Product manager DataGo!

Зарегистрироваться на мерприятие можно по ссылке:
https://expf.ru/expf_datago

Читать полностью…

EXPF – математическая статистика и эксперименты

митАп vs митBп

У нас A/B-платформа, а у вас?

28 марта в 18:00 по Москве мы соберемся на онлайн-митап, чтобы поговорить про А/В-платформы, тесты и процессы, с этим связанные.

Вас ждут доклады и панельная дискуссия:

🟡Система автоматического расчёта А/В тестов. Рамиль Чермантеев, руководитель команды аналитиков-инженеров платформы экспериментов СберМаркета, расскажет, что автоматический расчет из себя представляет и с какими трудностями мы столкнулись при его развитии.

🔴Как привести эффекты от A/B-экспериментов к масштабу всей компании? Артем Дронов, аналитик АВ-платформы, Авито, поделится методологией приведения и оценки результатов экспериментов к масштабу всей компании.

🔵Система офлайн-экспериментов. Полина Ревина, и.о. руководителя A/B-платформы в СберМаркете, расскажет о свитчбэк-тестах и тестах в магазинах, сплитование для которых делается офлайн.

🟡Open Talks: Как развивать и масштабировать платформы и процесс проведения экспериментов. Модератор дискуссии со спикерами – Искандер Мирмахмадов, co-founder EXPF.

Регистрируйтесь, чтобы получить ссылку на трансляцию 📬

Читать полностью…

EXPF – математическая статистика и эксперименты

Мы открыли вакансию middle-аналитика в EXPF
Вакансия https://hh.ru/vacancy/82857282

Откликнуться i@expf.ru или в личку @iskndr_m.
Предпочтительно на почту или тг

https://hh.ru/vacancy/94622691

Читать полностью…

EXPF – математическая статистика и эксперименты

Как мы в EXPF пришли к своему продукту, как выбирать платформу и просто поговорим про эксперименты.

7 марта в 15:00 (по Мск) вместе с Александром Игнатенко обсудим развитие платформ экспериментов

https://marketinganalysis.timepad.ru/event/2805105/

Читать полностью…

EXPF – математическая статистика и эксперименты

Наиболее цитируемые статьи по экспериментам

Мы в EXPF ведем свою базу знаний по всему, что связано с экспериментированием. Она включает в себя в внешние источники, такие как публичные gihub репозитории и интересные статьи. Очевидно, нам это необходимо для более эффективной реализации проектов, а также для понимания рынка экспериментирования.

Иногда мы заглядываем в открытые сборники с пейперами. Ниже дана ссылка на сборник от Ронни Кохави со списком наиболее цитируемых статей от авторитетных авторов.

Эта коллекция регулярно обновляется, поэтому рекомендую также добавить к себе в закладки:

https://docs.google.com/spreadsheets/d/1PAWG7NWVEwAwwfrd9b-V5o5q4nB6i67N2ITrzyrIdP0/edit#gid=224694437

Читать полностью…

EXPF – математическая статистика и эксперименты

Lessons learned from running 127,000 experiments

Оптимайзли привели интересную статистику, собранную из 127 тыс экспериментов. Хайлайты приводить не буду, в отчете хорошая и понятная верстка, можно самому изучить

https://www.optimizely.com/the-evolution-of-experimentation/

Читать полностью…

EXPF – математическая статистика и эксперименты

Как Walmart встроил CUPED в свой экспериментальный пайплайн

CUPED уже не считается каким-то рокет-саенсом и его можно встретить не только в inhouse платформах, но и на рынке SaaS (EPPO, Statsig в пример). Мы уже и сами планируем встраивать CUPED в стат. движок нашей A/B-платформы (EXPF Sigma), который собираемся выпускать совсем скоро.

Возвращаясь к Walmart, всегда интересно почитать разный опыт, особенно большого enterprise.

https://medium.com/walmartglobaltech/how-walmart-leverages-cuped-and-reduces-experimentation-lifecycle-eae2446c2ee4

Читать полностью…

EXPF – математическая статистика и эксперименты

A/B-тестирование с «толстыми хвостами»

Нам часто приходится сталкиваться с метриками, в которых встречаются «толстые хвосты». Все мы знаем, что от них можно избавиться, обрезав величину по Q квантили и добиться большей робастности. Этот подход можно назвать «быстрым, но грязным», т.к. мы тем самым а) снижаем размер выборки, а значит мощность, б) теряем доп. контекст о результатах ценных пользователей

Попался в руки пейпер, где Microsoft предлагают свое видение работы с «толстыми хвостами»:

Авторы предлагают комплексный подход к анализу A/B тестирования, учитывая распределения с толстыми хвостами. Они используют двухуровневую иерархическую модель для описания распределения данных. Вот ключевые моменты их подхода:

Двухуровневая Иерархическая Модель:
Оценка δ_i (дельта контроль-тест) каждой гипотезы (в пейпере это чаще называют идее) в A/B тесте распределена нормально с известной дисперсией, учитывая истинное качество δ_i этой идеи. Эта предпосылка основана на больших размерах выборки в каждом эксперименте, что делает ошибки приблизительно нормально распределенными.

Определение и оценка Распределения:
Они идентифицируют распределение априорных вероятностей качества идей непараметрически как распределение g. Распределение g описывает априорное распределение неизвестного качества гипотез. Это распределение представляет собой вероятность того, что данное изменение будет иметь определенный уровень воздействия или эффективности. Предполагается, что любое распределение вероятностей характеризуется своей функцией, позволяя им определить g из данных различных A/B тестов.

Empirical Bayes:
Авторы используют Empirical Bayes оценщики, где априорное распределение оценивается на основе данных. Они строят оценщики для функций g, которые важны в проблеме A/B тестирования.

https://eduardomazevedo.github.io/papers/azevedo-et-al-ab.pdf

Читать полностью…

EXPF – математическая статистика и эксперименты

Октябрьский митап EXPF в Ереване совместно с Make it Real

Место проведения: пространство FoodPark by Downtown недалеко от центра города. Будет зал на 200 мест, ресторан, бар и даже детская комната!

20 октября в 19:00. В программе нетворкинг, лекции, кейсы и open talks с экспертами из EXPF, Яндекс, Тинькофф:

📊 Дизайн метрик вместе с Виталием Черемисиновым из EXPF

📊 Как графики могут раскрывать скрытые закономерности, с Артемом Давтяном из Тинькофф

🏆 Как с помощью аналитики улучшалась опция “Поехать с попутчиком” в Яндекс.Такси

🎙 Public Talk — говорим про аналитику со всеми спикерами сразу

Кому точно будет интересно: аналитикам, CMO, CPO, маркетологам, продакт менеджерам.

➡️ 20 октября 19:00, пятница
➡️ FoodPark by DownTown, Адмирала Исакова, 11
➡️ бесплатно, обязательна регистрация

Также мы сделаем онлайн-трансляцию — регистрация на нее здесь.

Читать полностью…

EXPF – математическая статистика и эксперименты

«EXPF теперь в команде Авито — а что это значит? И как теперь всё будет работать?»

Уверены, что у многих из вас появились подобные вопросы после последней новости в нашем канале. Чтобы ответить на них и обсудить планы в целом решили провести Q&A-эфир в эту среду.

🔵 Регистрироваться не нужно: свободно подключайтесь 16 июля к стриму прямо здесь в Телеграм в 18:30. Мы — Искандер Мирмахмадов и Виталий Черемисинов — будем ждать вас.

Кстати, вопросы заранее можно оставить в комментариях под этим постом👇

До встречи на эфире в эту среду 16 июля в 18:30 (по Мск)!

Читать полностью…

EXPF – математическая статистика и эксперименты

🚀 Новое исследование рынка аналитиков! — если вы аналитик, пройдите опросник и первыми получите результаты, а также эксклюзивные доп. материалы с инсайтами исследования.

Что за исследование?
◽️Это очередное исследование рынка аналитиков. Мы начали их делать в 2018 году, последнее было в 2023 и планируем запускать их ежегодно.
◽️Нам очень интересно следить за ситуацией на рынке аналитиков, потому что эта сфера супер-сильно меняется и развивается. Хотим держать руку на пульсе и делиться информацией с вами!

Рынок каких аналитиков мы исследуем?
➤ Дата-аналитиков
➤ Продуктовых аналитиков
➤ BI-аналитиков
➤ Маркетинговых аналитиков
➤ Веб-аналитиков

Что исследуем?
👉 Зарплаты и их динамика. Мы спросим вас про вилки, а потом поделимся результатами и корреляциями.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удалёнка/офис), какие планы на трудоустройтво.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.

Как принять участие в исследовании?
⏩ Заполните 20-мин опросник⏪

Как можно помочь?
🙏 Пошарьте наш опрос среди своих знакомых аналитиков! Чем больше будет ответов, тем более репрезентативным будет результат!

Когда будут результаты?
— Сбор данных мы делаем в течении всего октября
— Потом нам нужно пара месяцев на анализ и формирование информативного лендинга (пример 2023)
— Итоговый результат исследования планируем выпустить в начале 2025 года.
— Понимаем, что 2025 год ещё далеко, а данных хочется уже сейчас, поэтому:
— Мы планируем делиться со всеми участниками исследования промежуточными результатами, а также пришлём приглашение на закрытый стрим, где поделимся всеми инсайтами и ответим на вопросы.

Читать полностью…

EXPF – математическая статистика и эксперименты

Новой поток интенсива по А/Б-тестированиям

Зарегистрироваться можно тут:

https://expf.ru/ab_course

Читать полностью…

EXPF – математическая статистика и эксперименты

Diluted Treatment Effect

Попался намедни пейпер от Microsoft про diluted treatment effect, давайте посмотрим что предлагают авторы.

Diluted Treatment Effect — это снижение наблюдаемого эффекта в A/B-тестах, когда фича срабатывает только у части пользователей или сессий. Чтобы оценить влияние на всю аудиторию, используют формулу Diluted Effect'а.

Пример:
Новая функция улучшает конверсию на 10%, но срабатывает только у 30% пользователей. Общий эффект для всей аудитории будет «разбавлен»:


delta_overall = delta_tr * (N_tr / N)


Где:
- delta_overall — общий эффект для всей популяции;
- delta_tr — эффект для активированных пользователей;
- N_tr — количество пользователей, у которых функция сработала;
- N — общее количество пользователей.

Пример расчёта: если функция улучшает конверсию на 10% и срабатывает у 30% пользователей:

delta_overall = 0.10 * 0.30 = 0.03 (3%)


Для ratio метрик, таких как CTR, разбавление рассчитывается так:


delta_overall = delta_tr * (N_tr / N) * TR


Где
- TR — средний коэффициент активации функции среди всех сессий.

Альтернативный подход — снижение дисперсии:


delta_star = delta(X) - theta * delta(Y)


Где theta выбирается так, чтобы минимизировать дисперсию оценки.

В общем и целом, diluted effect считать полезно, когда проводится triggered analysis — анализ только тех пользователей, где фича была активирована. Чтобы адекватно оценить влияние функции на всю популяцию, необходимо применить специальные коррекции выше.

https://alexdeng.github.io/public/files/wsdm2015-dilution.pdf

Читать полностью…

EXPF – математическая статистика и эксперименты

Precision-based designs for sequential randomized experiments

Для тех кто привык следовать Fixed Horizon или mSPRT дизайну появилась альтернатива от Spotify. В пейпере рассматриваются два типа дизайна и их достоинства перед Sequential Test / FH:
- FWCID (fixed-width confidence interval design)
- FPD (fixed power design)

В отличие от подхода Wald'а, который принято чаще остальных использовать в качестве инструмента для последовательного тестирования, который отвечает на вопрос "есть ли эффект?", мы хотели бы ответить на вопрос "какова величина эффекта?".

Помимо этого, авторы ссылаются на другие недостатки классического подхода: меньшая мощность, чем у fixed-sample дизайна, а также ожидание конечного рассчитанного времени.

Подкреплено это все симуляциями MC на julia + python

Подробнее изучить на архиве:
https://arxiv.org/pdf/2405.03487

Читать полностью…

EXPF – математическая статистика и эксперименты

Choosing a Proxy Metric from Past Experiments

Пейпер от Гугла на тему поиска прокси для экспериментов к таргет метрике

Из интересного:
- Авторы вводят свое понимание термина proxy quality. Они ссылаются на то, что в литературе это обычно не подсвечивается, но ничего нового по сути в определении нет. Нужно чтобы была высокая чувствительность и сонаправленность изменений у прокси с таргетом

- Они не выделяют какую-то одну прокси, а предлагают использовать composite proxy metric, которая по сути является набором нескольких ATE, что логично, в целом. Все это сопутствуется оптимизацией шума для получения более высокой чувствительности и направленности

- Ну и показывают результаты на 307 отобранных АБ, где иллюстрируют эффективность подобранной прокси (по их формуле, им удалось достигнуть 0.666 proxy score)

Что мне кажется является упущением в расчете Proxy Score (Detection-Mistake) / Number of experiments where the north star is significant – строгое определение detection и mistake. У Detection знаки прокси и таргета одинаковые, у Mistake разные. Нередко бывает ситуация, если одна метрика падает, то другая, наоборот, будет расти (банально до нельзя – снизил расходы, вышел в плюс в прибыли). Но это так, возможно мелочи.

https://arxiv.org/pdf/2309.07893

Читать полностью…

EXPF – математическая статистика и эксперименты

Друзья,

По решению организаторов, митап был перенесен на 4 апреля в 18.00 по Москве

Просим прощения за доставленные неудобства

https://sbermarket.timepad.ru/event/2813000/

Читать полностью…

EXPF – математическая статистика и эксперименты

Time-series long-term forecasting for A/B tests
DAVIS JAUNZEMS

Целая книга по форкастингу в АБ. В книге описаны примеры на основе данных из King.com. Для сводки – это gamedev компания, разработчик серии игр Candy Crush, основной офис расположен в Швеции, вид оттуда, кстати, классный.

Что предлагает автор:

Для улучшения точности прогнозирования предлагается метод кластеризации временных рядов. Метод использует сходство между временными рядами через Dynamic Time Warping и обучает отдельные модели прогнозирования кластеров. Кластеры выбираются с высокой точностью с использованием классификатора random forest, и уверенность в long-term времянном ряде получается с помощью исторических тестов и Marcov Chain.

Предложенный метод показывает лучшие результаты по сравнению с существующими моделями и может быть использован для получения долгосрочных прогнозов для A/B-тестов.


Я сам еще не успел ознакомиться с методикой, глаз только зацепился за разделе 5, где автор указывает финальный пайплайн.

Читать тут:
https://www.diva-portal.org/smash/get/diva2:1088619/FULLTEXT01.pdf

Читать полностью…

EXPF – математическая статистика и эксперименты

P-value Misinterpretations – Annotated References

Основная тема документа - критика и переоценка использования p-value в научных исследованиях, особенно в контексте стат. значимости и доказательства наличия эффектов.

В нем обсуждаются ограничения и потенциальные проблемы, связанные исключительно с опорой на p-value при совершении вердикта, и предлагаются альтернативные пороги стат. значимости для решения проблемы высокого уровня FPR.

Кроме того, подчеркивается важность учета предшествующих шансов и контекста при интерпретации p-value. Документ затрагивает последствия этих обсуждений в таких областях, как психология, биомедицинские исследования и A/B-тестирование

Этот список источник собрал R. Kohavi, не нуждающийся в представлении. По его мнению, пейперы являются наиболее качественными в вопросе интерпретации и использовании p-value. Enjoy.

https://docs.google.com/document/d/11wuWeRn-BZKqI14yodnoGlv6TuVefzML/edit

Читать полностью…

EXPF – математическая статистика и эксперименты

Развитие культуры экспериментирования в компании

Совсем недавно мы проводили исследование для одного из клиентов, где необходимо было разработать action-план на будущие кварталы. Один из множества аспектов экспериментирования был культурный аспект.

Для исследования мы нашли десятки источников и я готов поделиться тремя достойными, которые включают в себя ценности, принципы и инструменты, позволяющие драйвить экспериментирование в компании:

The Evolution of Continuous Experimentation in Software Product Development – видение Microsoft затрагивает 3 трэка эволюции экспериментов, в которых 6 категорий: a) Techinical focus of product dev. Activities; b) Experimentation platform complexity; c) Experimentation pervasiveness; d) Engineering team-self-sufficiency; e) Experimentation team org.; f) OEC. Док представляет удобную концептуальную схему эволюции, можно брать на вооружение для понимания "где мы сейчас"

Organising for scaled experimentation – мало кому известная в России компания Vista, в которой сейчас работает Lukas Vermeer (ex. Booking Chief Exp Officer), описывает в этом доке организационную структуру команды экспериментов. Частично идейность перекликается с тем, что описано в Microsoft. А именно внедрение Experimentation Ambassadors в компанию с частичной централизацией в Center of Excellence.

Democratizing online controlled experiments at
Booking.com
– в авторах этого пейпера также числится Lukas Vermeer. Материал описывает ценности, обеспечивающие экспериментирование в Booking'е. На мой взгляд к нескольким ценностям отсюда можно придти, только когда все детские проблемы уже решены. Но как полезный источник взглядов выглядит неплохо

Читать полностью…

EXPF – математическая статистика и эксперименты

Increase A/B Testing Power by Combining Experiments & Weighted Z-test

В ситуациях когда несколько раз перезапускается один и тот же эксперимент в разные временные периоды, можно использовать мета-анализ для получения более высокой мощности.

Для этого ebay приводит Weighted Z-test, где вес опредялется как w_i = 1 / SE_i (i – эксперимент).

В статье можно подробнее изучить на примерах как это работает

https://innovation.ebayinc.com/tech/engineering/increase-a-b-testing-power-by-combining-experiments/

Читать полностью…

EXPF – математическая статистика и эксперименты

Свершилось невозможное. Google отказался от байесианства в пользу частотки

Это не совсем общая стратегическая позиция, но в Firebase это уже на продакшене. Не прошло и 100 лет (но 10 прошло), мы увидели у них p-value

https://firebase.google.com/docs/ab-testing/ab-concepts?hl=en&authuser=0&_gl=1*1d9asms*_ga*NjcwMDg4NzIyLjE2MTIzNDIwMzY.*_ga_CW55HF8NVT*MTcwMjY1NTg5MC4xMTEuMS4xNzAyNjU2MDQ2LjYwLjAuMA..#interpreting_test_results

Читать полностью…

EXPF – математическая статистика и эксперименты

Data-Driven Switchback Designs: Theoretical Tradeoffs and Empirical Calibration

Новый пейпер про свитчбэк. В этом пейпере подсвечены проблемы связанные с тем, как:
- эксперимент может иметь отложенный эффект
- у событий может быть неравномерная плотность событий
- у событий может быть зависимость друг от друга
- эксперименты могут проводиться параллельно

Некоторые эти проблемы решаются с помощью применения мета-анализа на историческом пуле экспериментов. В пейпере показаны результаты исследования применения этого инструмента и не только:

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4626245

Читать полностью…

EXPF – математическая статистика и эксперименты

How to Accurately Test Significance with Difference in Difference Models

DID давно и заслуженно стал инструментом в джентльменском наборе аналитика, который работает с A/B-тестами. В статье Spotify можно ознакомиться с тем, как и когда они применяют DID у себя. Вот короткое описание проблемы в абстракте:

«… в некоторых случаях проведение A/B тестов невозможно. Например, когда вмешательство представляет собой внешний шок, который мы не можем контролировать, такой как пандемия COVID. Или когда экспериментальный контроль неприемлем, например, во время ежегодной доставки Spotify Wrapped…»

В статье рассматривается 3 подхода к расчету стат. значимости в A/B при применении DID:
- Усреднение
- Кластеризация
- Перестановки

Как пишут авторы: «…тестирование с помощью перестановок сочетает мощность и fpr для данных с небольшим количеством временных рядов, подход с кластеризированными SE лучше подходит для больших данных, а усреднение в целом защищает от fpr, но сильно снижает мощность»

Ссылка на статью

Читать полностью…

EXPF – математическая статистика и эксперименты

EXPF A/B-интенсив октябрь 2023

Новый поток интенсива EXPF.
Интенсив пройдет с 3 по 26 октября

https://expf.ru/ab_course

Читать полностью…
Subscribe to a channel