Примерно полгода назад я начала учить японский с помощью дуолинго, аниме и wanikani. В мае я знала только слова аригато, семпай, неко и кавай. Сейчас, в декабре, могу спросить дорогу, попросить булочку с сыром и шоколадом и немного прочесть этикетку на бутылке зелёного чая. Но только рожать эти фразы я буду очень долго, а сказать что-то вроде "Мы заселились в номер вчера, а сегодня нам не заменили полотенца" и вовсе пока не смогу.
И это порой ужасно фрустрирует. Потому что на английском, например, я легко смогу поддержать беседу у стойки регистрации в отеле, и очень злит ощущать себя такой безъязыкой в японском. Но с другой стороны, я напоминаю себе, что английский я учила и совершенствовала 14 лет, а японский - чуть более полгода. Так что стоит сравнивать уровень японского не с моим английским, а с уровнем второго полугодия Жени-второклашки. И кажется, тут я могу кое-чем похвастать:)
Когда долго занимаешься чем-то трудным бывает сложно оценить прогресс. Сегодня дуолинго очень кстати подкинуло статистику за год, и я сама удивилась, как далеко успела продвинуться за это время.
Это помогает набраться терпения и осознать, что малые шаги тоже считаются.
Интересно, сталкиваются ли с подобными сомнениями мои коллеги, изучающие в эмиграции сербский или иврит?
Understanding Synthetic Control Methods
На недавнем внутреннем митапе услышала про методы подведения результатов без АБ-тестов. Раньше про это слышала только краем уха, и вот решила изучить тему глубже. Шарить внутренние ресурсы не могу, но села изучать те статьи, на которые ссылался спикер. Прочла, и вам советую.
В общем, как хорошее начало - статья на medium Understanding Synthetic Control Methods.
Идея следующая
Мы по каким-то причинам не можем провести эксперимент, поделив людей одного города. Частая причина - сетевые эффекты. Это когда тестовая выборка влияет на контрольную. В зарубежных источниках это обычно называется spillover effect. Например, в Uber тестировали фичу, когда водителю при показе оффера поездки говорили, будет оплачена эта поездка картой или наличными. Водителям больше нравились заказы за кэш, поэтому они чаще отклоняли бы заказы с оплатой картой, и соответственно, такие заказы чаще принимали бы водители из контрольной группы, которые не видели этой информации. Таким образом, в тесте было бы больше заказов за кэш, а в контроле - по карте, и метрики были бы смещены.
В таком случае можно запустить эксперимент только целиком на выбранный город, но что взять в качестве контроля? Здесь мы используем синтетический контроль. Берём города, не попавшие в тест, и с помощью их комбинации “строим” такой город, в котором динамика целевой метрики повторяла бы динамику в тестовом городе до старта эксперимента.
Например, мы проводим эксперимент в Казани и хотим смотреть на количество успешных заказов в такси. Мы обучаем модель на других городах, так что у нас получается, что за месяц до старта эксперимента количество заказов N в Казани в каждый день описывается как 0,5 * N в Уфе + 0,3 * N в Саратове + 0,2 * N в Тюмени, это и будет синтетический контроль. При этом веса должны быть неотрицательными и суммироваться в 1 (да, мы строим регрессию).
После запуска эксперимента смотрим, как сильно будет отличаться количество заказов в Казани и этом синтетическом городе (MSE), это и будет оценкой эффекта от внедрения.
Интересно, что мы можем даже посчитать статистическую значимость такого метода с помощью перестановочного теста (permutation test). Для этого нужно построить такой же синтетический контроль для нескольких городов, не вошедших в тест, и посмотреть на их MSE после старта эксперимента. Затем считаем статистику = MSE во время экспа / MSE до экспа. И доля городов, где эта статистика принимает более экстремальные значения, чем в городе эксперимента, и будет нашим p-value.
В статье это описано более наглядно, с графиками, выкладками формул, примерами и кодом, так что лучше прочтите сами) Посмотрите, может быть, этот подход пригодится в ваших исследованиях?