cryptovalerii | Cryptocurrency

Telegram-канал cryptovalerii - Время Валеры

24993

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads

Subscribe to a channel

Время Валеры

В очередной раз понял, что давно живу в будущем
Наткнулся на статью - A New Study Says AI Is Eating Its Own Tail
Да и фантасты писали об этом давно

Если кратко - для обучения моделей нужны оригинальные данные, но обученные модели загрязняют интернет сгенерированным "мусором"

Впрочем о том что это случится, сильные пацаны говорили еще давным давно, и не раз, модели коллапсируют

Читать полностью…

Время Валеры

В декабре прошлого года заказал новое мега кольцо. Сегодня его наконец-то отправили.

Живу как будто при коммунизме

Читать полностью…

Время Валеры

Где-то год назад я писал, что Симулятор ML в активной разработке. Сейчас Симулятор ML всё ещё в активной разработке и всегда там будет, потому что сделать его до конца невозможно. Но кое-что все-таки можно - отсюда и отчет

– Почти 70 задач по запросам студетов и по нашему хотению. Симулятор запустили, когда их было меньше 30, теперь же их хватает чтобы иметь вменяемое разделение по четырём уровням и семи темам: динамическое ценообразование, рекомендательные системы, деплой, прогнозирование, тестирование, матчинг и все остальное, что еще недостаточно большое для выделения в отдельную тему

– Каждый месяц прибавляется в среднем по три задачи, а сам Симулятор работает как подписка.

– Появился чат-бот Ева, виджет ChatGPT для круглосуточной помощи, и обновилась система грейдера, которая теперь наглядно показывает ошибки.

– Направление пет-проектов. Один из пет-проектов вы скорее всего уже видели в комментариях – бот Spam Killer, который защищает чат этого канала (бывало что и от меня) и чат karpovꓸcourses от порно, крипты и пропаганды. За второе конечно обидно

– Комьюнити из 300 человек, которые активно участвуют в вебинарах, кодинг-сессиях, самостоятельно объединяются в команды для разработки проектов и участия в соревнованиях. (пока не найдется Onodera наших дней)

Читать полностью…

Время Валеры

За что уважаю статьи от Саши Сахнова? За то что они полезные и понятные: https://habr.com/ru/companies/X5Tech/articles/763656/ Легко и просто написано, каким же является оптимальный размер группы А и групп Б, когда групп Б > 1 во время А/Б тестов

Хотят тут я бы посмотрел, а что если бустрапить группу А_синт, равную размером группе Б из всего изначального А?

Читать полностью…

Время Валеры

Однажды, когда я работал инженером по прикладным разработкам в компании Foss, я поехал на элеватор в Мордовию.
По пути из Саранска на Элеватор таксист рассказывал про своего знаменитого земляка - Жерара Депардье

В лаборатории этого Элеватора был установлен ряд приборов, требующие осмотра. Путь был непрост, так как лифта не было, инструменты были тяжелые, а лаборатория находилась на 11 этаже с очень большими пролетами на каждой лестничной клетке.

Когда Эверест был покорен и я наконец-то зашел в лабораторию, передо мной оказали две очень грустные девчонки, которые смотрели на мышь. Мышь исполняла нижний брейк на бумажке с клеем. То есть просто лист бумаги А4, на который сначала щедро нанесли клей, а затем и мышь. Я тоже начал смотреть, не каждый день видишь нижний брейк в исполнении грызуна.

Вдоволь насмотревшись я сказал девчонкам то, что до этого срабатывало в 100 случаях из 100. Может быть попьем чаю? Ни один лаборант или заведующий лабораторией на моей памяти никогда не отказывались от чая.

Девочки перестали смотреть на мышь и стали пристально смотреть на меня. Стало жутко. Захотелось проверить не наступил ли я на бумажку с клеем

Туалет на первом этаже, ответили они
#CoolStory

Читать полностью…

Время Валеры

На неделе выдалось четыре свободных часа и понятное дело я решил потратить их на прототипирование платформы АБ тестов

Ничего необычного: встроил туда бутстрап и стат тесты, CUPED, симуляции А/А и А/Б + проверка как долго по времени держится репрезентативность групп относительно друг друга и соотвественно как долго можно держать эксперимент.

Безусловно все делается в многопоточность + немного оптимизации, что позволило ускориться в два раза по сравнению с первой версией (умноженное сверху на количество ядер). Описал типы переменных и выходов для всех функций и классов, подключил управление через конфиг и запилил логирование, конечно же окружил все разными эксепшенами, чтобы понимать что ломается. Также обложил все юнит-тестами и наконец-то нашел где использовать Data Class в питоне, это не считая некоторых встроенных проверок в сами модули, заодно кстати и по модулям все раскидал. Полирнул все через sort, yapf и black, попутно угождая прихотям pylint

Получил редкое наслаждение от процесса и подумал в очередной раз, что chatGPT (Я пользовался им и он конечно здорово ускоряет процесс. Co-pilot дальше чем автозаполнение для док стрингов и типов, и то которе нужно править, пока не зашел) расширяет пропасть между опытными и начинающим, потому что будь на моем месте человек неопытный, он бы все принимал за чистую монету и chatGPT его бы жестко надурил и не раз. Даже не потому что он злой или тупой, а потому что оперирует естественным языком, потому свойственна неопределенность. Кроме того, сэкономил он мне время так, где мозги были не особо нужны, а нужна была рутина, занимающая кучу времени.

Читать полностью…

Время Валеры

Читаю комментарии ревьюеров к книге, что ни комментарий - то улыбаюсь

Читать полностью…

Время Валеры

Если меня попросят описать самый часто встречаемый дата лик при работе с моделями машинного обучения, то бесспорным номером один будет прогноз прошлого через будущее.

Возникает он, очевидно, когда есть какая то стрела времени, что как несложно догадаться - довольно частый случай.

Две основных причины возникновения таких ликов :

1. рассчет статистик через временное окно, затрагивающее будущее
2. Разбиение выборки(train/test) по user ID без учёта временной компоненты

Почему это происходит? Видимо людям тяжело, когда появляется дополнительная размерность в виде времени

Что делать? Универсальный ответ - обучение и проверка модели должны полностью воспроизводить сценарий реального применения. Например, если нужен прогноз на октябрь и делается он в сентябре, не получится посчитать скользящее среднее захватывая Октябрь, этих данных просто ещё нет, значит и при обучении так делать не надо.

Если хочется прогнозировать отток в октябре, мы не можем обучить модель на тех кто ушел в отток в октябре, потому что их ещё нет. Поэтому если мы обучим и проверим модель на сентябрьских данных, это тоже будет некорректно, ведь в реальности проверяя октябрь, мы не имели октября для обучения, поэтому и проверяя сентябрь, мы не можем иметь его в датасете для обучения

Такого типа проблему я видел везде, от Биг Теха, до маленьких стартапов

Читать полностью…

Время Валеры

Вышло небольшое видео про ML System Design

Читать полностью…

Время Валеры

Один из способов оптимизации налогов в UK - это вложение денег в venture capital trusts. Кратко - вкидываешь туда до 200к в год, пять лет подряд. Начиная с первого года и бесконечно долго получаешь 30% (60к) - как tax relief, еще там конечно есть дивиденды (tax free) - но они почти полностью съедаются на комиссии фонда, рост вроде тоже есть, в среднем 5%(тоже tax free) - но основная суть конечно в tax relief.

Как это работает? Правительство стимулирует вкладываться в развитие местного бизнеса, применяя для этого налоговые льготы. VCT - это своего рода ETF на компании попадающие под такие условия (такий компаний к слову много). В целом, можно самому вкладывать в отдельные компании, схема это называется enterprise investment schemes (EIS). Если ты вкладываешься в такую контору, то получаешь в этом же году 40% от суммы как tax relief, если компания разоряется - еще 30% (то есть минимум 70 процентов заберешь), если не разоряется - через какое то время можешь продать эти акции tax free, дивиденды по такой схеме кажется тоже tax free

Кажется довольно интересный способ мотивации инвестировать в локальный бизнес. Причем бизнесом этим может быть хоть кофейня. Я например в свое время вложился в производителя газировки (до сих пор ее пью) и чая (тоже его пью)

Читать полностью…

Время Валеры

Пришла пора рассказать где я теперь работаю
Компания называется BP, ранее известная как British Petroleum

Это крупная компания с центральным офисом в Лондоне

Занимаются много чем: нефть, газ, топливо, магазины, биолаборатории (разрабатывают бактерии, поглощающие пластик), авиация, лубриканты (Castrol), ветряная и солнечная энергия, электрозаправки, биотопливо, водородное топливо, трейдинг, логистика, venturing (в свое время инвестировали в небезызвестный Palantir) и многое другое

Я вышел работать в должности старшего главного начальника, взгромоздив на свои плечи роль лидера команды DataWorx Customer & Product and Trading & Shipping.

Это довольно большая команда, численностью около 600 человек, в которую входят дата инженеры, дата аналитики, дата саентисты и млщики (то есть как обычно). Как следует из описания выше, это покрывает примерно 3/5 всей компании.

Очевидно мы нанимаем, например сейчас у меня есть 4 вакантных роли директоров/принципалов (как менеджеры так и IC), которые репортят напрямую мне. Плюс, понятное дело, есть немало ролей стаффов и синьоров. Направлений - гигантская куча, только крупных кусков - порядка 30, где крупный кусок, это бизнес с оборотом около 5-10 млрд долларов

Поэтому, если я вас знаю и работал с вами, но еще не пришел к вам - не стесняйтесь писать мне. Даже если не знаю, но вы считаете что пройдете на стафа/принципала - тоже пишите. Кроме того, соседи тоже активно нанимают и SWE и продактов. Основные локации - UK/US/India/Australia - еще есть Kuala Lumpur. Кстати, если вы активно хотели переехать в Австралию (Мельбурн), UK или KL - это хороший шанс (резюме можно отправить сюда - valerii.babushkin@bp.com - либо оставить заявку здесь)

Немного видео
Ролик 1
Ролик 2
Ролик 3
Ролик 4

Читать полностью…

Время Валеры

Разбирал недавно код нескольких дата пайплайнов, в попытке понять почему же на них тратится так много денег
Ответ был найден быстро, проблему вызывала следующая строчка

df.coalesce(1).write.parquet

Соотвественно, машина арендовалась полностью, а использовалось только одно ядро/поток/воркер из как минимум 16 ( а то и 32 или 64 - зависит от типа инстанса). Вместо того чтобы выдать 16 файлов, выдавался один, но в 16 раз медленее. Для небольших файлов это проблема несущественная, для всего остального - серьезный косяк.

Так, многопоточность, в очередной раз спасла мир

Возможно я что-то упускаю и гнать все через 1 воркер это best practice?

Читать полностью…

Время Валеры

У меня в друзьях в фейсбуке есть сказочник из Узбекистана.
Причем не такой сказочник как Дмитрий Гайдук.

То он устроится в Open AI работать над Узбекским языком и через два месяца уволится (понятное дело ни в каком chat GPT он не работал)
То создаст Сервис для обхода блокировок от ChatGPT, а когда узнает, что другие люди могут смотреть кем и когда зарегистрирован сайт, тут же удалит пост

Регулярная его рубрика - дискриминация при найме на работу где он пишет дичь, про то, что в Узбекистане не нанимают на работу Узбеков
При этом чел переодически писал посты в сингулярис/одс (и мне в личку), где просил помочь ему решить какие то базовые домашки на дом, которые дают при собеседовании

Но самое интересное, что куча людей в ФБ верит в эту сказку и активно участвует в обсуждениях приключений Дон Кихота наших дней
Наблюдая это в живую, понимаю откуда у Блиновской имущества на 64 млрд рублей

Читать полностью…

Время Валеры

Однажды я работал директором по моделированию и анализу данных в одной из крупнейших корпораций РФ - X5 Retail Group. Одновременно с этим я работал вице-президентом по машинному обучению в одной из крупнейших корпораций мира - Alibaba.

Преисполнившись чувством собственной важности, я решил что пора купить себе очки и направился в салон оптики. В салоне меня поджидал продавец. Он с энтузиазмом начал показывать и нахваливать свой товар, переходя от одной полки к другой. В какой-то момент он остановился, окинул меня взглядом и сказал: ну эти лизны дорогие, около чирика (10 тысяч рублей), поэтому выбирай из тех что уже тебе показал.

Так я и сделал лазерную коррецию зрения

Читать полностью…

Время Валеры

Прочитал заметку небезызвестного Ron Kohavi (автора книги по а/б тестам) , When Not to Trust a Published A/B Test – an Example - где он ругает контору Optimizely

Сетап следующий

The test
was run by Optimizely, an A/B Testing Vendor, on their own site.  The site uses “Get Started” as a Call to Action (CTA) on its pages in the upper-right, as shown below in Figure 1.  Additional details are on GuessTheTest - Which CTA copy won
The Treatment replaced that copy with “Watch a demo” on the Orchestrate product page, as shown below in Figure 2.
The test ran for 44 days with a 50%/50% design.  22,208 visitors saw the Control and 22,129 visitors saw the Treatment.  
The Overall Evaluation Criterion (OEC) was clicks on the button.
The results showed that Control had 0.91% click-through rate and the Treatment had 1.59% click-through rate, a 75% lift

Сначала рассказывает про хорошее:
1. Ровно одно изменение на весь тест
2. Группы разбиты 50/50%
3. Sample Ratio Mismatch отсутствует
4. Тест длится долго, больше недели, это хорошо (он правда ворчит что 44 дня - это получается неполный недельный цикл и лучше либо 42 либо 49, тут соглашусь)

Плохое:
1. Мощность теста нужно просчитывать заранее. Обычно хороший аплифт это 5 или 10%. Для 5% в упомянутом тесте нужно 688к наблюдений, а было только 22к - соотвественно эксперимент заранее имеет недостаток в мощности, например эффект в 5, будет пойман только в 7.3% случаев. Если посчитать пост хок, то тест нормально ловит аплифт в 74.7% - и тут кроется ловушка, описанная здесь в разделе 5 - A/B Testing Intuition Busters - Post-hoc Power Calculations are Noisy and Misleading. Кратко - если уж вы поймали стат значимый результат, то он в среднем будет завышен от реального, когда ваш эксперимент имеет недостаточную мощность, а для того изменения, которые вы поймали, мощность у вас конечно будет по расчетам нормальная.

Легко проверить - возьмем и просимулируем 10 000 экспериментов с мощностью в 7.3% и аплифтом в 5%, видим следующее:
i. Стат значимый результат в 13.7% случаев (5% от ложноположительных + 7.3% когда увидели - вот вам уже и число близкое к тому что мы получили)
ii. Минимальный аплифт (когда наблюдается положительная разница) - 14.3%, средний (в абсолютах) - 22.9%, максимальный - 55.5% (но ведь мы знаем что истинный аплифт 5%!, то есть если мы что-то и поймаем, мы в среднем завысим эффект в 4.6 раз)
Разбор того-же самого в посте на LI

2. Судя по описанию теста, такое изменение тестировали на разных страницах и взяли ту, где стало круто - наше любимое множественное сравнение! Никаких поправок на него конечно не делалось

3. Optimizely еще не раскатали тест на всех - это красный флаг, значит что-то их самих не устраивает

4. Самое клевое - Кнопка на ряде мобил и девайсов не показывалась
The button does not seem to show up on smaller viewpoints
If the user doesn’t see the copy, any treatment effect is likely to be diluted, as the treatment effect for those users is zero. It isn’t clear from the description whether this was a PC-only test or if triggering was employed to limit to users who actually saw the button.
То есть возникает вопрос как еще трактовать то результаты, насколько они репрезентативны и для какой группы

Итог - хороший разбор от Рона

Считаю ошибкой со стороны Optimizely заявлять о таких результатах сразу. По хорошему, после того что они увидели нужно было делать раскатку на всех, а через некоторое время катить обратный эксперимент и оценивать еще раз
#ArticleReview

Читать полностью…

Время Валеры

В очередной раз понял, что давно живу в будущем
Наткнулся на видео - The Rise of the "New-Age" Machine Learning Engineer

Подумал что интересно - вдругой какой новый звери зверь, тем более слово правильное, MLE послушаю
Оказалось что New-Age ML Eng умеет писать код и деплоить + разбирается какую из предобученных LLM использовать. Примерно как выпускник Hard ML. А MLE это просто новое название DS, который перекидывет ноутбуки

В целом, конечно, уровень конента и дискусси опечалил
Если я усну и проснусь через сто лет и меня спросят, что сейчас происходит в ML, я отвечу: не умеют писать код и не понимают что делают

Читать полностью…

Время Валеры

Мне очень нравятся заметки от Рони Кохави, потому что они совпадают с моим мнением.

Сейчас прочитал новую - дисс на когортный анализ

Сложно с ним не согласиться, меня всегда удивляло то, с какой настойчивостью аналитики в компаниюх делают когортный анализ для тонких выводов. Ладно еще понять, ничего ли не сломалось или как в целом (и то если сильно) менялось поведение пользователей

Но делать на этой основе какие то выводы о таких вещах как например retention (метрика с большим лагом) через когортный анализ (анализ с большим лагом и в разные периоды) - это просто трата времени на красивые графики ради графиков

TL; DR: Cohort analysis supposedly “allows you to see patterns clearly against the lifecycle of a customer” (Croll and Yoskovitz 2013). In Reforge’s Growth Series (Fishman 2023), it is touted as a great way to measure retention over time. The theory seems to make sense, and the colorful graphs, such as the one in Figure 1, are beautiful. However, without any measure of statistical significance, and with such fine-grained segmentation of the population into small cells, it is likely to be showing colorful noise. Furthermore, the analysis of lagging metrics like retention is unlikely to provide many actionable insights.

Читать полностью…

Время Валеры

Однажды я работал в Х5 большим начальником и так вышло, что мы организовали квиз от Х5, собрав команды случайным образом.

Наша структура была уже довольно крупной, больше полутысячи человек, поэтому в лицо никто всех не знал.

За столом мне довелось сидеть с одной девушкой, которая в какой то момент не выдержала напора моего интеллекта и спросила. Ты что, самый умный? В ответ я лишь удивлённо улыбнулся и пристально посмотрел на нее, чтобы запомнить, ведь ответа на этот вопрос я в тот момент не знал.

Затем поочередно стали вызывать больших начальников, чтобы наградить отличившихся в квизе.

Когда пришла моя очередь и назвали мое имя и должность, на лице девушки отразилась гримаса удивления переходящего в ужас.

Вот бы также делали в магазинах оптики, подумал я.
#CoolStory

Читать полностью…

Время Валеры

Однажды, когда я работал инженером по прикладным разработкам в компании Foss, я поехал на элеватор в Мордовию.

Там мне не удалось попить чаю, но зато удалось починить ряд приборов. Чинил я их в компании инженера и кандидата наук, который рассказывал как он ненавидит ЕГЭшников. Я решил не говорить ему что тоже сдавал ЕГЭ (правда только по русскому языку) и что мне нравится сама идея. Не захотелось прерывать его байки про криворуких ЕГЭшников, да и меня он к счастью не раскусил. Или тоже решил не говорить.

В итоге, когда я вскрывал прибор для выделения жиров - он с радостью рассказал как прибор пару раз у них взрывался и они меняли почти все внутренности. Жиры в воде не растворяются, а в эфире растворяются, потому их вымывают через смесь эфиров. Если не ставить хорошую вентиляцию, испарения эфира накапливаются и становятся взрывоопасными. Так как все ресурсы, понятное дело, ушли на клей и бумагу для мышей, на вентиляцию ничего не осталось, отсюда и взрывы. Я решил, что во время тестового прогона, спуститься в туалет на первый этаж с одиннадцатого, не такая уж и плохая идея

Вскрыв прибор, я обнаружил причину неполадок. Одна из трубок была цинично сожрана мышью. Инженер подтвердил, что это действительно любимая трубка мышей(или одной опытной мыши?), трубка из такого материала там была одна, по ней как раз сливался Эфир. Либо материал этой трубки был особенно притягателен, либо после клея мышам хотелось Эфира. Опираясь на людское поведение, я бы поставил на второе. Забавно, что обычно сначала тестируют на мышах и только затем на людях, здесь вышло наооборот

Сразу после замены трубку и проверки прибора, инженер, с некоторым блеском в глазах, спросил, есть ли у меня еще такие трубки?
Я серьезно задумался, включил прибор и пошел на первый этаж.
#CoolStory

Читать полностью…

Время Валеры

Еще каких-то 7 лет назад я ходил на лекции Александра Петрова в Питере, а сегодня мы оба живем в одном Королевстве.

Его статья "gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling," co-authored with Craig Macdonald, получила награду the Best Paper award at ACM RecSys 2023

И пожалуй более крутого признания в его области нет

Читать полностью…

Время Валеры

Вышла девятая глава книги. Нельзя не упомянуть помощь Богдана, который активно принимал участие в написании этой главы и чья помощь неоценима. Кроме того по мотивам он недавно накатал статью на Хабр.

Читать полностью…

Время Валеры

Почти 4 года назад я помогал одной арабской конторе в проекте с predictive maintenance нефтяных установок. Основным контактом был чел, который в принципе толи ничего не понимал в мл, толи очень мало, зато был PhD в области AI.

В последнее время он начал спамить в Linkedin что как непросто, но в тоже время круто быть контрибьютором в open source и назвал себя в профиле Keras-core contributor, я удивился и подумал ничего себе чел сделал прогресс, дай-ка посмотрю что делает. И посмотрел.

Есть в принципе и не совсем плохие, где он увеличивает test coverage (хотя если уже детально рассматривать все варианты, то неплохо бы и сообщать какой именно кейс выпал). Как минимум один раз он пофиксил что-то действительно некорректное

Вывод: Хотите лычку core контрибьютора в Open Source - это можно сделать довольно просто

Читать полностью…

Время Валеры

Должен заметить, что с момента моего прихода акции БиПи выросли на 10 процентов.

Это можно конечно связать с ростом цен на нефть, но зачем, когда есть более очевидное объяснение

Читать полностью…

Время Валеры

Заметил что с каждым годом становится все труднее заставлять себя не работать, причем, как мне кажется, механизм этой зависимости в чем-то схож с зависимостью от социальных сетей/контента

Возможно, что различные активности, в которые я постоянно вписываюсь, от 10 тренировок по джиу джитсу в неделю и качалки до написания книги, это лишь способ организма спастись от окончательного падения в бездну зависимости

Читать полностью…

Время Валеры

Минутка рекламы

My colleagues and I are hosting a free virtual event exploring causal AI applications - please join me and the team alongside the inspirational Turing Award winner Judea Pearl, Robert Ness (Microsoft), Totte Harinen (AirBnB) and more. Please join us on September 12:

Читать полностью…

Время Валеры

Наткнулся на сообщение СЕО конторы где я работал, из которого узнал, что компания проинвестировала в молодых и перспективных стартаперов. Команда на фото

Читать полностью…

Время Валеры

Сегодня узнал что стал по настоящему знаменитым. Ряд людей написали, что их пытаются соскамить, прикрываясь моим именем. Правда брошюра с предложением настолько нелепа и к тому же описывает меня на состояние 3 года назад, что возникает невольно мысль. Уж не сказочник ли из предыдущего поста постарался?

Читать полностью…

Время Валеры

Архивное видео 2018 года: Запись трансляции Data&Sсience: отвечают знатоки Во время которого Артур Кузин aka Noise отвечает про шум

Читать полностью…

Время Валеры

Несколько разочаровался в oura ring. После того как у меня появилась чудо простыня, которая не только меняет свою температуру, чтобы улучшить качество сна, но в дополнение имеет кучу датчиков и отслеживает различные показатели, начал сравнивать их с кольцом. Конечно, я не знаю своего истинного пульса и фаз сна, но точну знаю, поспал я днем или нет - простыня такое ловит без проблем, кольцо через раз. Или в целом, насколько хорошо я восстановился. Не так, чтобы oura несла совсем бред, но иногда она конечно сходит с ума. Самые ярки моменты - это если вырезать какие-то куски сна, то общий скор в Oura может стать сильно лучше. Из разряда, проспал 8 часов - говорит все, тебе капец, пульс поздно упал, вырезаешь первые два часа - все, ништяк, молодец. Очевидно что это еще проблема в алгоритмах обработки сигналов. Отсюда вопрос к студии, что еще попробовать и чтобы переносное. Возможно Whoop?

Читать полностью…

Время Валеры

Прочитал заметку небезызвестного Ron Kohavi (автора книги по а/б тестам) , When Not to Trust a Published A/B Test – an Example - где он ругает контору Optimizely

Сетап следующий

The test
was run by Optimizely, an A/B Testing Vendor, on their own site.  The site uses “Get Started” as a Call to Action (CTA) on its pages in the upper-right, as shown below in Figure 1.  Additional details are on GuessTheTest - Which CTA copy won
The Treatment replaced that copy with “Watch a demo” on the Orchestrate product page, as shown below in Figure 2.
The test ran for 44 days with a 50%/50% design.  22,208 visitors saw the Control and 22,129 visitors saw the Treatment.  
The Overall Evaluation Criterion (OEC) was clicks on the button.
The results showed that Control had 0.91% click-through rate and the Treatment had 1.59% click-through rate, a 75% lift

Сначала рассказывает про хорошее:
1. Ровно одно изменение на весь тест
2. Группы разбиты 50/50%
3. Sample Ratio Mismatch отсутствует
4. Тест длится долго, больше недели, это хорошо (он правда ворчит что 44 дня - это получается неполный недельный цикл и лучше либо 42 либо 49, тут соглашусь)

Плохое:
1. Мощность теста нужно просчитывать заранее. Обычно хороший аплифт это 5 или 10%. Для 5% в упомянутом тесте нужно 688к наблюдений, а было только 22к - соотвественно эксперимент заранее имеет недостаток в мощности, эффект в 5%, например, будет пойман только в 7.3% случаев. Если посчитать пост хок, то тест нормально ловит аплифт в 74.7% - и тут кроется ловушка, описанная здесь в разделе 5 - A/B Testing Intuition Busters - Post-hoc Power Calculations are Noisy and Misleading. Кратко - если уж вы поймали стат значимый результат, то он в среднем будет завышен от реального, когда ваш эксперимент имеет недостаточную мощность, а для того изменения, которые вы поймали, мощность у вас конечно будет по расчетам нормальная.

Можете проверить сами, возьмем и просимулируем 10 000 экспериментов с мощностью в 7.3% и аплифтом в 5%, видим следующее:
i. Стат значимый результат в 13.7% случаев (5% от ложноположительных + 7.3% когда увидели - вот вам уже и число близкое к тому что мы получили)
ii. Минимальный аплифт (когда наблюдается положительная разница) - 14.3%, средний (в абсолютах) - 22.9%, максимальный - 55.5% (но ведь мы знаем что истинный аплифт 5%!, то есть если мы что-то и поймаем, мы в среднем завысим эффект в 4.6 раз)
Разбор того-же самого в посте на LI

2. Судя по описанию теста, такое изменение тестировали на разных страницах и взяли ту, где стало круто - наше любимое множественное сравнение! Никаких поправок на него не делалось

3. Optimizely еще не раскатали тест на всех - это красный флаг, значит что-то их самих не устраивает

4. Самое клевое - Кнопка на ряде мобил и девайсов не показывалась
The button does not seem to show up on smaller viewpoints
If the user doesn’t see the copy, any treatment effect is likely to be diluted, as the treatment effect for those users is zero. It isn’t clear from the description whether this was a PC-only test or if triggering was employed to limit to users who actually saw the button.
То есть возникает вопрос как еще трактовать то результаты, насколько они репрезентативны и для какой группы

Итог - хороший разбор от Рона

Считаю ошибкой со стороны Optimizely заявлять о таких результатах сразу. По хорошему, после того что они увидели нужно было делать раскатку на всех, а через некоторое время катить обратный эксперимент и оценивать еще раз

Читать полностью…
Subscribe to a channel