Перечитывал свой архив по статистике и наткнулся на настоящую жемчужину: APTS: Statistical Inference
Сложно охарактеризовать жанр, что-то среднее между манускриптом по философии и учебником по статистике.
Вот выдержка оттуда. Интересующимся - рекомендую
For example, if asked for a set estimate of θ, a Bayesian statistician might produce a 95% High Density Region, and a classical statistician a 95% confidence set, but they might be effectively the same set. But it is not the inference that is the primary concern of the auditor: it is the justification for the inference, among the uncountable other inferences that might have been made but weren’t. The auditor checks the ‘why’, before passing the ‘what’ on to the client.
So the auditor will ask: why do you choose algorithm Ev? The classical statisticianwill reply, “Because it is a 95% confidence procedure for θ, and, among the uncountable number of such procedures, this is a good choice [for some reasons that are then given].”
The Bayesian statistician will reply “Because it is a 95% High Posterior Density region for θ for prior distribution π(θ), and among the uncountable number of prior distributions, π(θ) is a good choice [for some reasons that are then given].” Let’s assume that the reasons are compelling, in both cases. The auditor has a follow-up question for the classicist but not for the Bayesian: “Why are you not concerned about violating the Likelihood Principle?” A well-informed auditor will know the theory of the previous sections, and the consequences of violating the SLP that are given in Section 2.8. For example, violating the SLP is either illogical or obtuse - neither of these properties are desirable in an applied statistician.
This is not an easy question to answer. The classicist may reply “Because it is important to me that I control my error rate over the course of my career”, which is incompatible with the SLP. In other words, the statistician ensures that, by always using a 95% confidence procedure, the true value of θ will be inside at least 95% of her confidence sets, over her career. Of course, this answer means that the statistician puts her career error rate before the needs of her current client. I can just about imagine a client demanding “I want a statistician who is right at least 95% of the time.” Personally, though, I would advise a client against this, and favour instead a statistician who is concerned not with her career error rate, but rather with the client’s particular problem.
Мои друзья из МТС проводят сегодня соревнование на площадке ODS - MTC ML Cup
Это турнир по определению пола/возраста владельца cookie от МТС Digital.
Призовой фонд MTC ML Cup – 650 000 рублей:
Регистрация уже открыта, простая анкета для участников и все подробности – на сайте. Старт сегодня
Вышла запись подкаста со мной. На мой взгляд поговорили отлично, хотя возможно цензура не пропустила многое, но на заголовок поставили кажется не самое интересное
Читать полностью…Не в первый раз заметил, что меня пытаются поправить, когда я пишу римскую цифру четыре как IIII. Однако, стоит отметить, что с давних времен четыре пишется как IIII, а IV это все либеральные нововведения. Дарю вам ссылку на печально известный VIIII Легион, который судя по всему сгинул где-то в Британии и о котором сняли кучу фильмов. Он же послужил прототипов для Потерянного Примарха 9 легиона из Warhammer 40000
Читать полностью…Недавно купил себе новую кровать и что особенно важно, первый раз в жизни - новый матрас
Выбор Матраса - вещь непростая и зависит от кучи факторов: собственного веса, общего веса, положения во время сна (на спине, на боку, на животе), особенностей терморегуляции и тп. Кроме того - пойти в магазин и полежать на матрасе не поможет, по хорошему, чтобы понять матрас, на нем нужно поспать месяц и потом оценить. Здесь все как у людей
В итоге матрас и кровать я выбрал еще в августе, но купил в ноябре, на черную пятницу, сэкономив примерно 1500 фунтов. По итогам месяца могу сказать что покупка себя полностью оправдала. Показатели восстановления и качества сна, согласно Oura Ring (приложу в комментариях) - самые лучшие что у меня были за все три года и улучшения начались ровно в момент замены матраса (сравнил так же год к году). Так что судя по всему, trial period в год мне не пригодится - возвращаться матрас не планирую, а вот вечная гарантия - вполне себе
На очереди, если дойдут руки, попробовать накладку на матрас, которая регулирует температуру и может как охлаждать(водяное охлаждение) так и нагревать, отслеживать фазу сна и менять температуру так, чтобы подводить человека к максимальному лёгкому и полезному просыпанию, а если надо разбудить - включить вибрацию! При этом есть еще и зонирование, если одному партнеру хочется потеплее, а другому похолоднее
Прочитал очередную статью от пацанов из Тик-Тока: Deep Retrieval: Learning A Retrievable Structure forLarge-Scale Recommendations
Идея следующая -> для рекомендательных систем важно уметь быстро получать относительно релевантных кандидатов, которые затем идут на reranking
Обычно делают inner-product model (например metric learning), а затем запускают поверх ANN (approximate nearest neighbour). В статье же хотят показать как можно делать retrieval напрямую через интеракции товар-пользователь, без предположений о Евклидности пространства и близости сущностей в нем (что на мой взгляд не так чтобы и проблема, учитывая что в metric learning мы специально обучаем именно такую репрезентацию).
Обучают модель в D слоев, каждый слой это MLP + softmax поверх K Нод (лейбл - кластер товара по которому был клик/покупка), выдает вероятность принадлежности к одному из К кластеров (обсудим их дальше). На вход D1 подается эмбединг пользователя, на выходе получаем распределение вероятностей K1. На вход в D2 подается конкатенация эмбединга пользователя и K1, получаем распределение вероятностей K2. На вход в D3 подается конкатенация эмбединга пользователя, K1 и K2, получаем распределение вероятностей K3 и тп.
Следовательно пользователь имеет потенциально K^D разных путей. Например если у нас 30 кластеров, 3 слоя, модель может выдать для пользователя Х следующий путь 1-10-15, означающий кластер 1 среди первых 30, кластер 10 среди следующих 30 и кластер 15 среди следующих 30. Так как мы имеем распределение - можем пойти глубже и взять например топ-3 с каждого слоя, получая таким образом n^D (27 в нашем случае) различных путей вместо изначального 1-го. Так как мы учим на связки интеракций пользователь-товар, то мы можем получить пути как для пользователя, так и для товара.
Возникает вопрос, как же товар может принадлежать к разным кластерам?
For example, an item related to kebab could belong to a “food” cluster. An item related to flowers could belong to a “gift” cluster. However, an item related to chocolate or cakes could belong to both clusters in order to be recommended to users interested in either food or gifts.
Это кстати указывается как одно из преимуществ над tree-based deep models, которые так не умеют
Резонный вопрос, а как определить начальные кластеры? Хорошо, у нас есть эмбединги пользователей, интеракции пользователей с товарами, но откуда взять лейблы для K? Раскидаем случайно и включим EM машину. Первая итерация, раскидали - обучили модель, затем переобучаем мапинг товара в кластер, чтобы он максимизировал выдачу модели
Как это применяется во время Инференса?
1. Подаем эмбединг пользователя -> получаем N путей ( жадный алгоритм выдает 1 путь)
2. Собираем все товары, находящиеся в этих путях
3. Прогоняем их через промежуточный реранкер
Есть несколько дополнительных моментов
I. Несмотря на то, что DR (Deep Retrieval) выдает сабсет товаров, их все еще много, поэтому попутно с ним учится еще реранкер, чтобы затем выдавать топ (это все еще не финальный реранкер!)
II. Мапинг в кластера - дискретный, поэтому градиентными методами его не обновить (отсюда и EM)
III. Добавляют штраф за попадание еще одного айтема ( прохождение того же пути) в путь, иначе есть риск что все айтемы упадут в один путь, использовали штраф в виде c^4/4 где c - количество айтемов попаших в путь
IIII. Обновляли модель от входящего потока данных - это повлияло на некоторые вещи, например M шаг в EM. Также использовали экспоненциальное затухание с коэффициентом 0.999
Метрики
Конечно по всем показывают что они лучше, что в офлайне, что в онлайне но, почему то везде низкий recall. Например Recall@200 около 13% - что вызывает вопросы, Sota Recall@200 - 28%
Результаты АБ теста показали как point estimate - что странно, на офлайн показывали ДИ
В целом попробовать можно. Хотелось бы увидеть более подробный abblation study и тесты
Удивляет сравнение на датасете movie lens и amazon books, а затем один А/Б тест в Тиктоке без доверительных интервалов (в офлайне были!) и отсутствие понимания с чем сравнивали
#ArticleReview
Выступал недавно перед ребятам
Даже не знал что будут выкладывать
Можно посмотреть здесь
Понравился комментарий
Интесно что здесь практически нечего не сказано конкретно про МЛ, но это лучшее выступление Бабушкина что мне попадалось. Поменяло мое отношение сильно. Спасибо.
Прочитал довольно большую статью на medium о том что prophet работает почти всегда хуже Arima и часто даже хуже, чем просто экспоненциально сглаживание в задаче предсказания временных рядов
Особо откомментировать нечего - одна за другой приведены истории брюзжания и даже есть предложения как это пофиксить, кроме момента что кажется там где данных становится побольше - prophet работает весьма неплохо
Из интересного:
1. I guess nobody gets to be a famous Prophet by making mundane safe predictions, but at minimum, one should be aware of some Prophet mechanics. For instance, the last 20% of data points are not used to estimate the trend component. Did you know that? Did you expect that? I didn’t. Let it sink in.
2. A paper considering Prophet by Jung, Kim, Kwak and Park comes with the title A Worrying Analysis of Probabilistic Time-series Models for Sales Forecasting (pdf). As the spoiler suggests, things aren’t looking rosy. The authors list Facebook’s Prophet as the worst performing of all algorithms tested. Oh boy.
Ah, you object, but under what metric? Maybe the scoring rule used was unfair and not well suited to sales of Facebook portals? That may be, but according to those authors Prophet was the worst uniformly across all metrics — last in every race. Those criteria included RMSE and MAPE as you would expect, but also mean normalized quantile loss where (one might have hoped) the Bayesian approach could yield better distributional prediction than alternatives. The author’s explanation is, I think, worth reproducing in full.
3. Yes you can imagine my disappointment when, out-of-the-box, Prophet was beaten soundly by a “take the last value” forecast but probably that was a tad unlucky (even if it did send me scurrying to google, to see if anyone else had a similar experience).
Хотя мой опыт использования prophet в целом скорее схож - если хорошо настроить (S)ARIMA - то она будет как минимум не хуже, стало интересно узнать как было у других, пишите в коментах, с интересом прочитаю
Пролистывал канал kaggle crackers в чатике ODS в слаке
Наткнулся на сообщение Вадима, которому недавно исполнилось 17 лет, где он описывает свои достижения. Оно произвело на меня впечателние и я решил его привести ниже
К сожалению, для меня, а также для всех украинцев, этот год был самый тяжелый за всю жизнь, но это не означает, что нужно сложить руки и ничего не делать.
В общем, у меня не такие крутые достижения нежели у других людей, которые писали выше, но почему бы и не написать?
Первое достижение этого года стало - Kaggle Discussion Grandmaster. Это конечно достаточно бесполезное достижение, но тем не менее, это достаточно хорошо развивает социальные сети и позволяет получать дополнительные плюшки о которых речь пойдет дальше. После пары месяцев болтовни я вошел в топ 10 в мировом рейтинге.
Думаю все знакомы с библиотекой Weights & Biases, так вот, благодаря, то что я где-то на форуме kaggle (уже был Discussion Grandmaster) предложил как лучше использовать возможности Weights & Biases они мне написали и предложили стать их Амбассадором, что очень сильно удивило (и да, условия у них были просто космические). Параллельно с тем, что мы обсуждали контракт они решили отправить мерч (футболку) с их логотипом. В итоге со мной не захотели подписывать контракт из-за того, что я несоверешенолетний (мне 17), потому что это запрещено юридически. Быть ребенком - иногда очень не выгодно.
Во время летних каникул, я набирался опыта участием на Kaggle соревнованиях, в итоге 2е бронзовые медали и 2е серебренные медали (в одной вылетели из золотой медали). К огромному сожалению, в последнем соревновании не получилось усердно принимать участие, так как в Украине был blackout, и у нас не было электричества и воды на протяжение нескольких дней. Однако, мы с командой выиграли мерч от Kaggle (футболка)
Также стал Kaggle Notebooks Master. Сейчас в арсенале имеются 2 золотые медали (в одном ноутбуке >450 лайков) и 14 серебряных.
В заключение, хочу сказать, что этот год, для меня прошел очень странно, было мало радостных моментов (обучения почти не было, гребанные бомбежки и т.п), хотя достижения достаточно неплохие. Цель на следующий год: стать Kaggle Competitions Master.
Всем удачи! Мирного неба над головой!
Если вы хотите связаться с Вадимом и предложить ему работу/поддержку, а кажется что мотивации и навыков у него с лихвой - вот его профиль на LinkedIn и почта vadimirtlach@gmail.com
В понедельник вечером общался с еще одним преподавателем-логопедом (английский язык), по имени Кейт Мидлтон. Она мне понравилась и я решил с ней заниматься по серьезному.
На мой вопрос: Какое количество занятий в неделю ты считаешь оптимальным? она ответила, что большинство людей с ней занимаются один раз в неделю.
Пришлось повторить вопрос, какое количество занятий в неделю ты считаешь оптимальным.
Со второй попытки пошло лучше - ва-три раза, но это может быть тяжело, выдержу ли я?
Это вызвало у меня некое удивление, так как урок с кейт был четвертым уроком за день из двенадцати на неделю. Логопед, школа актерского мастерства и постановки акцента, логопед-преподаватель и, наконец Кейт. Пришлось ее успокоить что два занятия в неделю я как-нибудь да выдержу
Таким образом на текущий момент у меня есть: логопед, преподаватель английского, два преподователя-логопеда и два человека с курсов актерского мастерства, которые работают со мной над акцентом. Думаю что к январю уменьшу количество преподавателей до двух-трех, а количество часов до шести-десяти.
Буду надеяться что к следующей осени результаты будт на лицо и на ухо, да и время на канал, с учетом графика в январе, будет оставаться
Ходил в американское посольство, за визой.
Встреча была назначена в 10-30, поэтому я пришел к десяти
Из-за этого 70 минут пришлось стоять в очереди на контроль, благо в конце ноябре в Лондоне достаточно тепло для этого.
Проверяют документы, сумки и всё прочее, примерно как в аэропорту, люди с автоматами и в бронежилетах.
Запустили в здание посольства.
Дальше уже не стоишь, но сидишь в очереди, удобно.
В этой очереди просидел ещё час.
Вызвали к окошку, посмотрели документы, отсканировали id, отправили в другую очередь, ждать интервью.
Там уже совсем хорошо, удобные кресла.
Сижу - жду, в трёх метрах от меня проходит интервью. Молодой чел, судя по внешности и акценту из Индии, рассказывает историю своей жизни.
Где учился, кто за него платит, кто родители, зачем едет в США, кто его там ждёт, зачем ждёт и так примерно 15 минут.
В конце ему отказывают и он ещё минуты три расстраивается. Возможно отказали из за того, что он никогда в жизни не работал. Офицер за стойкой ему сочувствует, но в конце отправляет его куда подальше, ведь пришла моя очередь.
Зачем едешь, кем работаешь, как давно. Три вопроса, тридцать секунд и мне одобрена виза.
Вот что значит, уважают биткойн
Еду я, понятное дело, на конференцию по новым компьютерным технологиям и защите компьютерных программ.
#CoolStory
Кто-то забирает, а кто-то дает. Король и его правительство выделили мне субсидию в 500 фунтов на оплату счетов за электричество. Что при моих затратах на 4-х комнатную квартиру, хватит примерно на 7 месяцев.
Впрочем, за прошлую зиму я не включал отопление. На текущий момент, в середине ноябре, мысли скорее о включении кондиционера на ночь, чем отопления. Так что возможно все повторится вновь
В этом твиттер треде Dan Luu рассказывает про мудрых руководителей Майкрософта, которые доносили всегда ровно одно сообщение до своих сотрудников. Даже если им была нужна скорость и надежность, они сначала давили на скорость, затем спустя некоторое время давили на надежность. Если просить сразу и то и то, ничего не будет сделано. Отсутствие надежности будут объяснять необходимостью делать быстро, а медленную разработку - необходимостью надежности.
Meanwhile, the only message VPs communicated was the need for high velocity. When I asked why there was no communication about the thing considered the highest risk to the business, the answer was if they sent out a mixed message that included reliability, nothing would get done.
Затем он делает вывод, с которым я согласен полностью и который в очередной раз подтвердился на прошлой неделе - большинство комментаторов в интернете не способны понять конструкцию включающую И. Если в конструкции присутствует XOR (исключающее ИЛИ) - дело 100% гиблое
As noted previously, most internet commenters can't follow constructions as simple as an AND, and I don't want to be in the business of trying to convey what I'd like to convey to people who won't bother to understand an AND since I'd rather convey nuance
На прошлой неделе я выложил очень простое объявление:
We are hiring Data Engineers, Data Scientists and Machine Learning Engineers in the UK, EU, US, and Argentina. Please write to me.
Unfortunately, we do not provide any visa support at the moment.
You can work remotely, but the we can employ people only from country where we have an entity
За 12 часов написало примерно человек 300. Подавляющее большинство из них, безусловно, никакого права на работу не имеет.
- Право на работу есть?
- Нет, но ведь написано Remote
- Работать можно Remote, но ведь куда-то тебя надо нанять. Нанимать мы можем только там, где у нас есть Юр Лицо, список я приложил
- Понял, спасибо.
Кто то после этого еще писал, но у меня есть шенген, или что то подобное
Еще одна категория людей спрашивала есть ли visa support - и если мы наймем человека, это ведь достаточно чтобы получить визу?
Существенная часть людей писала по тем вакансиям, которых не было в посте, например - Data Analyst
Или
- Hi XXX, is it correct to assume that you have a right to work in US/UK/EU?
- No I need visa sponsorship.
С другой стороны, это отличное тестовое задание, не смог прочитать и понять пять строчек - не прошел.
А если смог написать сообщение из разряда: Я Петян, имею право на работу в месте из списка, вот мое резюме - то ты уже прошел первый этап, который отсеял 99% кандидатов
Меня часто спрашивают про секреты продуктивности, а ответить мне нечего, кроме стандартно-унылого, садись и делай, не отвлекаясь
Симон пошел дальше, нанял пять человек, чтобы они сидели сзади него за 20 баксов в час и не давали отвлекаться
Что из этого вышло, можно прочитать здесь
Забавно что рост в +20% считается автором ничтожным
Most people approach productivity from the bottom up. They notice something about a process that feels inefficient, so they set out to fix that specific problem. They use a website blocker and a habit tracker, but none of these tools address the root problem. Personally, I even went as far as making my own tools, but they yielded at most 20% more productive time. I craved more, and I was willing to go as far as it takes. I wanted to solve productivity top down—with a system that would enforce non stop productivity with zero effort on my part.
Мой друг Игорь написал подробную статью про ChatGPT - которая скорее является полноценным обзором, который зайдет как новичкам, так и спецам. Советую прочитать
Еще у него есть Телеграм Канал, но это уже на ваш страх и риск
Вышла очередная статья от моих друзей, Саши Сахнова и Коли Назарова
Ряд цитат:
Совсем не ошибаться нельзя. Чтобы получить на 100% достоверные результаты, нужно бесконечно много данных. На практике получить столько данных затруднительно. Если совсем не ошибаться нельзя, то хотелось бы ошибаться не слишком часто и контролировать вероятности ошибок.
Предположим, мы решили, что допустимые вероятности ошибок первого и второго рода равны 0.1 и 0.2 соответственно. Будем называть статистический критерий корректным, если его вероятности ошибок первого и второго рода равны допустимым вероятностям ошибок первого и второго рода соответственно.
Как сделать критерий, в котором вероятности ошибок будут равны допустимым вероятностям ошибок?
Вероятность ошибки первого рода по определению равна уровню значимости критерия. Если уровень значимости положить равным допустимой вероятности ошибки первого рода, то вероятность ошибки первого рода должна стать равной допустимой вероятности ошибки первого рода.
Подоспело видео с недавнего выступления о метриках
Валерий Бабушкин - Метрики: от офлайна до иерархии (видео, презентация)
Каждый раз когда я говорю, какая прекрасная погода в Лондоне, местные и приезжие с Индии/Пакистана/Непала и тп очень удивляются. Они не знают, что в то время как в Москве и Подмосковье -20/-30, местные пацаны играют в футбол в +13
Читать полностью…В новый год пришла пора раскрыть главный секрет ведения телеграм канала. Подписчиков становится больше в те дни, когда я не пишу в канал и меньше в те дни, когда пишу.
Читать полностью…Вчера был на встрече рускоговорящего клуба global talent в Лондоне.
Я привык думать о себе, как о недавно переехавшем. Однако мой третий год в Лондоне оказался просто таки мега ветеранским.
Подавляющее большинство переехало в последнее время, около 6 месяцев и лишь один человек из 20, с кем я поговорил, переехал 5 лет назад, все остальные - менее года
Как будто бы что-то случилось
Новый эпизод! Валерий Бабушкин,
вице-президент по Data Science в Blockchain.com, в прошлом успевший поработать в Meta, X5 RG, Alibaba и Яндексе.
В выпуске Валерий расскажет о приватности мессенджера WhatsApp, а также о работе в http://Blockchain.com
На этот раз поведенческое интервью прошёл Артур Кузин, Kaggle Grandmaster, Head of Deep Learning в компании Eqvilent. В прошлом – Head of Computer Vision Platform в SberDevices.
Смотреть
Валерий Бабушкин - Метрики: от офлайна до иерархии
17 декабря - митап ODS Reliable ML по AB-тестированию и Causal Inference
В 15:15 на нашем митапе выступит Валерий Бабушкин, VP, Data Science @ Blockchain.com.
Валера расскажет про онлайн, офлайн и прокси метрики, а также про иерархию метрик в АБ-тестах.
Регистрация на мероприятие тут.
Полное расписание мероприятия тут.
Вышла запись подкаста запуск завтра (альтернатива на apple)
В этом эпизоде мы снова говорим о данных и о том, что с ними можно сделать. Раньше машина не всегда могла отличить коня от человека, а теперь мы доверяем ей в определении оптимальной цены в магазинах, поимке кибер-преступников и даже этических вопросах. Как индустрия прошла этот путь — разбираемся с Валерием Бабушкиным, экспертом по Data Science в компании BlockChain.
Обрабатывал комментарии ревьюеров по книге.
Они попросили предоставить ссылки на дополнительные материалы по поводу consistency metrics и lipschitzness.
Я решил проверить на что способен прогресс и обратился к chatGPT.
Provide some literature references about consistency metrics and lipschitzness.
"Consistency Metrics: A New Approach to Evaluating and Comparing Machine Learning Algorithms" by Zhi-Hua Zhou and Ji-Rong Wen (2013)
"Consistency of Nearest Neighbor Classifiers" by S. V. N. Vishwanathan, N. S. Nagaraj, and C. S. R. Murthy (2006)
"Consistency of Random Forests" by Luis Enrique Trejo and Luis Alejandro Correa (2013)
"On the Lipschitz Continuity of Neural Networks" by Q. Zhang, L. Zhang, and H. Zhang (2019)
"Estimating the Lipschitz Constant for Feedforward Neural Networks" by S. G. Tucker and J. D. Maitra (2017)
Все статьи оказались фейковыми. То есть их не существует в принципе, при этом указанные авторы вроде как настоящие люди, по крайне мере те несколько, что я проверил.
После дополнения запроса просьбой предоставить ссылки на статьи, они были предоставлены и действительно вели на статьи, только на совершенно рандомные и не имеющие никакого отношения к делу.
Кажется что до смерти Гугла ещё далековато.
Потребовались уволить 11 тысяч человек в Мете, чтобы комп, который они отказались забирать год назад, когда я увольнялся, перестал работать.
Читать полностью…Вышла запись пробного behavioral интервью, проведенного между мной и техническим директором Карпов Курсес.
Читать полностью…