28778
Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads
Архивное видео 2018 года: Запись трансляции Data&Sсience: отвечают знатоки Во время которого Артур Кузин aka Noise отвечает про шум
Читать полностью…
Несколько разочаровался в oura ring. После того как у меня появилась чудо простыня, которая не только меняет свою температуру, чтобы улучшить качество сна, но в дополнение имеет кучу датчиков и отслеживает различные показатели, начал сравнивать их с кольцом. Конечно, я не знаю своего истинного пульса и фаз сна, но точну знаю, поспал я днем или нет - простыня такое ловит без проблем, кольцо через раз. Или в целом, насколько хорошо я восстановился. Не так, чтобы oura несла совсем бред, но иногда она конечно сходит с ума. Самые ярки моменты - это если вырезать какие-то куски сна, то общий скор в Oura может стать сильно лучше. Из разряда, проспал 8 часов - говорит все, тебе капец, пульс поздно упал, вырезаешь первые два часа - все, ништяк, молодец. Очевидно что это еще проблема в алгоритмах обработки сигналов. Отсюда вопрос к студии, что еще попробовать и чтобы переносное. Возможно Whoop?
Читать полностью…
Прочитал заметку небезызвестного Ron Kohavi (автора книги по а/б тестам) , When Not to Trust a Published A/B Test – an Example - где он ругает контору Optimizely
Сетап следующий
The test was run by Optimizely, an A/B Testing Vendor, on their own site. The site uses “Get Started” as a Call to Action (CTA) on its pages in the upper-right, as shown below in Figure 1. Additional details are on GuessTheTest - Which CTA copy won?
The Treatment replaced that copy with “Watch a demo” on the Orchestrate product page, as shown below in Figure 2.
The test ran for 44 days with a 50%/50% design. 22,208 visitors saw the Control and 22,129 visitors saw the Treatment.
The Overall Evaluation Criterion (OEC) was clicks on the button.
The results showed that Control had 0.91% click-through rate and the Treatment had 1.59% click-through rate, a 75% lift
Сначала рассказывает про хорошее:
1. Ровно одно изменение на весь тест
2. Группы разбиты 50/50%
3. Sample Ratio Mismatch отсутствует
4. Тест длится долго, больше недели, это хорошо (он правда ворчит что 44 дня - это получается неполный недельный цикл и лучше либо 42 либо 49, тут соглашусь)
Плохое:
1. Мощность теста нужно просчитывать заранее. Обычно хороший аплифт это 5 или 10%. Для 5% в упомянутом тесте нужно 688к наблюдений, а было только 22к - соотвественно эксперимент заранее имеет недостаток в мощности, эффект в 5%, например, будет пойман только в 7.3% случаев. Если посчитать пост хок, то тест нормально ловит аплифт в 74.7% - и тут кроется ловушка, описанная здесь в разделе 5 - A/B Testing Intuition Busters - Post-hoc Power Calculations are Noisy and Misleading. Кратко - если уж вы поймали стат значимый результат, то он в среднем будет завышен от реального, когда ваш эксперимент имеет недостаточную мощность, а для того изменения, которые вы поймали, мощность у вас конечно будет по расчетам нормальная.
Можете проверить сами, возьмем и просимулируем 10 000 экспериментов с мощностью в 7.3% и аплифтом в 5%, видим следующее:
i. Стат значимый результат в 13.7% случаев (5% от ложноположительных + 7.3% когда увидели - вот вам уже и число близкое к тому что мы получили)
ii. Минимальный аплифт (когда наблюдается положительная разница) - 14.3%, средний (в абсолютах) - 22.9%, максимальный - 55.5% (но ведь мы знаем что истинный аплифт 5%!, то есть если мы что-то и поймаем, мы в среднем завысим эффект в 4.6 раз)
Разбор того-же самого в посте на LI
2. Судя по описанию теста, такое изменение тестировали на разных страницах и взяли ту, где стало круто - наше любимое множественное сравнение! Никаких поправок на него не делалось
3. Optimizely еще не раскатали тест на всех - это красный флаг, значит что-то их самих не устраивает
4. Самое клевое - Кнопка на ряде мобил и девайсов не показывалась
The button does not seem to show up on smaller viewpoints
If the user doesn’t see the copy, any treatment effect is likely to be diluted, as the treatment effect for those users is zero. It isn’t clear from the description whether this was a PC-only test or if triggering was employed to limit to users who actually saw the button.
То есть возникает вопрос как еще трактовать то результаты, насколько они репрезентативны и для какой группы
Итог - хороший разбор от Рона
Считаю ошибкой со стороны Optimizely заявлять о таких результатах сразу. По хорошему, после того что они увидели нужно было делать раскатку на всех, а через некоторое время катить обратный эксперимент и оценивать еще раз
Вышло записанное некоторое время назад интервью
Обсуждаем:
1.Артура Человека и мои душевные терзания по этому поводу
2. Игоря и стартапы, Прекрасную Мета Россию будущего
3. Сильных пацанов
4. Кто важнее - старший или главный начальник
5. Этику AI
6.Краткий период в жизни, в который можно нормально поработать - и многое другое
21 июля 18:00 по мск “Валерий Бабушкин, Арсений Кравченко: Интервью с авторами Machine Learning System Design”
Читать полностью…
Подоспело видео из которого вы узнаете:
Кто сильнее: Терминатор или Робокоп? МГУ или Hard ML? А также самую страшную тайну Aliexpress
Небольшая поправка, стрим проведем на час позже, в 18 по Лондону
Читать полностью…
Небольшой Анонс. 14 июля в 19:30 (GMT+3) Валерий проведёт System Design интервью в прямом эфире! На повестке — дизайн системы сети заправок и ритейл-магазинов при ней. Ждём вас на трансляции :)
Читать полностью…
Понравилась картинка из рассылки pragmatic engineer
Во многом фреймворк перемежается с тем что я рассказывал здесь. Да и сам автор скорее пользуется им, однако такая вещь как автономность/независимость тоже очень влияет, особенно на первых 3-4 уровнях
Начинаем стрим https://www.youtube.com/watch?v=6YBMU6475KQ
Читать полностью…
Мой друг открыл в Сербии компанию, которая помогает легализоваться и спокойно жить без визаранов и прочих неудобств.
ООО, ИП, ВНЖ, счета в банке - всё и сразу
Подробности на сайте, в инстаграммее или в телеге у @relocom_serbia
P.S. Я ждал примерно две недели, прежде чем опубликовать и подумал что события прошедших выходных - явный знак
Выиграл награду в рамках AI Summit London, спасибо всем причастным
Valerii Babushkin, VP for data science at Blockchain.com took home the Solution Provider of the Year award, which recognizes individuals who have demonstrated passion, skills, and world-class expertise in developing an AI technology or solution.
Вспоминаются строчки Высоцкого:
Мне руку поднял рефери,
Которой я не бил.
Ну что сказать, молодец премьер министр новый, кажется так и создается правильный инвест климат и AI и Web3 и Финансы. Даже предсказанная рецессия отменяется: The International Monetary Fund no longer expects Britain's economy to fall into a recession this year, it said on Tuesday, praising the steps taken by Britain's government to stabilise the economy and fight inflation.23 May 2023
Кратко - самый большой фонд в мире на AI Safety - договорились с тремя лидирующими компаниями получать ранний приоритетный доступ к моделям
A16Z - открывает первый (по моему) офис за рубежом
Ну и и в дополнение ЮК увеличило отрыв еще больше по стартапам в Европе
Что за день 7 июня
Deepmind утверждает что с помощью RL нашли алгоритмы для ускорения сортировки. New algorithms will transform the foundations of computing
AlphaDev uncovered new sorting algorithms that led to improvements in the LLVM libc++ sorting library that were up to 70% faster for shorter sequences and about 1.7% faster for sequences exceeding 250,000 elements.
AlphaDev not only found faster algorithms, but also uncovered novel approaches. Its sorting algorithms contain new sequences of instructions that save a single instruction each time they’re applied. This can have a huge impact as these algorithms are used trillions of times a day.
Еще затронули скорость хэш функций
We applied AlphaDev to one of the most commonly used algorithms for hashing in data structures to try and discover a faster algorithm. And when we applied it to the 9-16 bytes range of the hashing function, the algorithm that AlphaDev discovered was 30% faster.
Теперь осталось понять, так ли это, ребята авторитетные, но и понимать бы с чем что сравнивали и в каких условиях
Немного разочаровался сегодня в алгоритмах oura Ring
У меня относительно низкий пульс, ночью во время сна он обычно 50-45. Сегодня нижняя точка составила 40.
Так как эта точка в 40 была достигнута к концу сна, кольцо сообщило что мне капец, ведь мой пульс долго приходил в норму ( с 50 в начале до 40 в конце), мой readiness score - 74 и лучше сегодня не двигаться. Но если убрать последние три часа сна - readiness score резко растет до 82 и кольцо пишет - все ништяк молодец! (Ведь нижняя точка теперь другая )
Вот такая техническая шизофрения из мира анализа данных
Однажды я работал директором по моделированию и анализу данных в одной из крупнейших корпораций РФ - X5 Retail Group. Одновременно с этим я работал вице-президентом по машинному обучению в одной из крупнейших корпораций мира - Alibaba.
Преисполнившись чувством собственной важности, я решил что пора купить себе очки и направился в салон оптики. В салоне меня поджидал продавец. Он с энтузиазмом начал показывать и нахваливать свой товар, переходя от одной полки к другой. В какой-то момент он остановился, окинул меня взглядом и сказал: ну эти лизны дорогие, около чирика (10 тысяч рублей), поэтому выбирай из тех что уже тебе показал.
Так я и сделал лазерную коррецию зрения
Прочитал заметку небезызвестного Ron Kohavi (автора книги по а/б тестам) , When Not to Trust a Published A/B Test – an Example - где он ругает контору Optimizely
Сетап следующий
The test was run by Optimizely, an A/B Testing Vendor, on their own site. The site uses “Get Started” as a Call to Action (CTA) on its pages in the upper-right, as shown below in Figure 1. Additional details are on GuessTheTest - Which CTA copy won?
The Treatment replaced that copy with “Watch a demo” on the Orchestrate product page, as shown below in Figure 2.
The test ran for 44 days with a 50%/50% design. 22,208 visitors saw the Control and 22,129 visitors saw the Treatment.
The Overall Evaluation Criterion (OEC) was clicks on the button.
The results showed that Control had 0.91% click-through rate and the Treatment had 1.59% click-through rate, a 75% lift
Сначала рассказывает про хорошее:
1. Ровно одно изменение на весь тест
2. Группы разбиты 50/50%
3. Sample Ratio Mismatch отсутствует
4. Тест длится долго, больше недели, это хорошо (он правда ворчит что 44 дня - это получается неполный недельный цикл и лучше либо 42 либо 49, тут соглашусь)
Плохое:
1. Мощность теста нужно просчитывать заранее. Обычно хороший аплифт это 5 или 10%. Для 5% в упомянутом тесте нужно 688к наблюдений, а было только 22к - соотвественно эксперимент заранее имеет недостаток в мощности, например эффект в 5, будет пойман только в 7.3% случаев. Если посчитать пост хок, то тест нормально ловит аплифт в 74.7% - и тут кроется ловушка, описанная здесь в разделе 5 - A/B Testing Intuition Busters - Post-hoc Power Calculations are Noisy and Misleading. Кратко - если уж вы поймали стат значимый результат, то он в среднем будет завышен от реального, когда ваш эксперимент имеет недостаточную мощность, а для того изменения, которые вы поймали, мощность у вас конечно будет по расчетам нормальная.
Легко проверить - возьмем и просимулируем 10 000 экспериментов с мощностью в 7.3% и аплифтом в 5%, видим следующее:
i. Стат значимый результат в 13.7% случаев (5% от ложноположительных + 7.3% когда увидели - вот вам уже и число близкое к тому что мы получили)
ii. Минимальный аплифт (когда наблюдается положительная разница) - 14.3%, средний (в абсолютах) - 22.9%, максимальный - 55.5% (но ведь мы знаем что истинный аплифт 5%!, то есть если мы что-то и поймаем, мы в среднем завысим эффект в 4.6 раз)
Разбор того-же самого в посте на LI
2. Судя по описанию теста, такое изменение тестировали на разных страницах и взяли ту, где стало круто - наше любимое множественное сравнение! Никаких поправок на него конечно не делалось
3. Optimizely еще не раскатали тест на всех - это красный флаг, значит что-то их самих не устраивает
4. Самое клевое - Кнопка на ряде мобил и девайсов не показывалась
The button does not seem to show up on smaller viewpoints
If the user doesn’t see the copy, any treatment effect is likely to be diluted, as the treatment effect for those users is zero. It isn’t clear from the description whether this was a PC-only test or if triggering was employed to limit to users who actually saw the button.
То есть возникает вопрос как еще трактовать то результаты, насколько они репрезентативны и для какой группы
Итог - хороший разбор от Рона
Считаю ошибкой со стороны Optimizely заявлять о таких результатах сразу. По хорошему, после того что они увидели нужно было делать раскатку на всех, а через некоторое время катить обратный эксперимент и оценивать еще раз
#ArticleReview
Вышла запись нашего с Арсением интервью по поводу книги
Читать полностью…
Поехали
https://youtube.com/live/Ow88hoEnsq8?feature=share
Прочитал статью DISCOVERING LATENT KNOWLEDGE IN LANGUAGEMODELS WITHOUT SUPERVISION
Авторы статьи сделали ряд неожиданных предположений и предложений:
1. Вероятности ответов Да и Нет на один и тот же вопрос (имеющий только один правильный ответ из этих двух вариантов) - должны суммировать в единицу
2. Создаем набор из пар вопросов и ответов, где вопрос повторяется два раза, ответ же Да в одном случае и нет в другом
3. Забираем из модели активации которые генерируются при каждом из вариантов
4. Делаем такой лосс чтобы эти активации выдавали вероятности (после накладывания некоторой матрицы параметров) и суммировались в единицу для каждой пары (и еще учитываем уверенность, чтобы избежать модели дегенерата, которая будет всегда говорить - не все так однозначно, всей правды мы не узнаем и выдавать вероятность в 0.5 на любой вопрос и ответ Да/Нет)
5. Ну и все - обучили сеть из которой можно вытаскивать ответы да/нет, правда очевидно что может сработать не сразу и нужно будет умножать ответ на - 1 (вдруг она да в ноль будет скидывать, а нет в единицу).
Говорят что решили и это ( Technically, we also need to determine whether p˜(qi) > 0.5 corresponds to “Yes” or “No,” as this isn’t specified by LCCS. For simplicity in our evaluations we take the maximum accuracy over the two possible ways of labeling the predictions of a given test set. However, in Appendix A we describe how one can identify the two clusters without any supervision in principle by leveraging conjunctions.) но в апендикс я понятное дело не лез.
Пишут что всех порвали (среди zero shot подходов) и даже дают код
В целом годное чтиво
В четверг 13 июля в 19 часов по мск вместе с @JustStas поговорим про построение модели Marketing Mix с помощью библиотеки Robyn.
Расскажем, как она работает и чем применение на практике отличается от теории.
Серия постов про Robyn тут.
Нашел профессию будущего
Machine Unlearning Engineer
3 июля поговорим в режиме онлайн почему ML System Design сломан
Читать полностью…
Ещё одного из списка Форбс 30 до 30 арестовали на днях
Очень сильная фича
Твит со списком всех бедодаг
Когда я читал что Франция очень переживает свое технологическое отстаивание в гонке стартапов и AI я думал, что же они сделают?
Неужели станут чаще привлекать иностранцев и наконец то перестанут делать вид что не говорят по английски?
Все оказалось хуже
Трем местным, умным пацанам (работали до недавнего в Гугле/Фб), у которых нет продукта, а стартапу 4 недели и ещё только начинают нанимать уже дали 105 млн евро
Пацаны умные, поэтому под это дело уже продали половину своего стартапа, ведь половина от нуля через 5 лет это ноль, а миллионы евро сейчас - это хорошо
В твиттере обсуждают вайб веб 3.0
P.S. прочитал что они собираются делать на их сайте и стало ещё грустнее, говорят что в 2024 обучим нашу генеративную текстовую модель и будем думать как сделать AI полезным
Может быть это чей то троллинг и СЕО по имени Артур Человек (Mensch), а так же француз Тимоти Лакросс дают надежду на то что фаундеры сгенерированы
Пришло время рассказать про мега простынку, которую купил в середине апреля
Однозначно лучшая покупка года, последний раз я так радовался три года назад - покупке термоса на Амазоне, который мне отлично зашёл, но термос и стоит в 125 раз меньше
Эффект простыни я почувствовал в первый же день, после вечерних занятий по джиу джитсу. Обычно после того как меня вечером изобьет тренер, я плохо засыпаю и неважно восстаналвиваюсь - простыня остановила этот беспредел, теперь я восстаналвиваюсь нормально и как результат, вместо 4-5 персональных занятия по БЖЖ в неделю, их стало 6-9
В целом тяжело передать кайф от постоянно прохладной простыни под тобой, которая к тому же может выдасть твои показатели восстановления и сна и подстраивает в режиме автопилота температуру под тебя, чтобы максимизировать эффект.
Отдельно мне понравилась функция теплового будильника, простыня за 15 минут до момента просыпания нагревается до 40 градусов, чем будит меня.
Прочитал неплохую статью про новую систему левелов в Shopify - Inside Shopify's Leveling Split: Exclusive
Если кратко - и что видно на картинке превью, добавили еще одну ось - Mastery
Например ты можешь быть Staff Engineer и быть крутым на этом уровне и дальше перед тобой стоит выбор, идти на уровень выше, но тогда ты там уже не крутой, а просто обычный типан или расти и становиться гуру, но на своем уровне.
Идея интересная и разумная, потому что действительно, есть ряд людей, которых вроде как и повысить можно, а вроде как и не нужно. Ведь тогда вместо пользы в виде своей глубокой экспертизы на текущем уровне, они вынуждены будут становиться клеем для абстракции более высокого уровня, а нужны и те и те. Поэтому хочется им денег накинуть, а как это сделать без промо, не всегда понятно - поэтому и повышают бедолаг. Теперь можно повышать по деньгам, но не по уровню, за мастерство.
Тонко - интересно будет посмотреть - основную сложность вижу в еще одной калибровке, теперь по мастерству - а калибровка это всегда большой оверхэд
Из интересного - в компании появляются волшебники (впрочем в какой большой компании их нет?)
The concept of “wizards” is interesting. Mastery scores do not stop at 50; individuals can be assigned a mastery score that exceeds 50. Getting a score above this level makes someone a “wizard,” and needs exceptional justification. The general expectation is that wizards will be incredibly rare.
Остальное по мелочи - подрезали менеджеров (кто же против?) и рассказывают про компенсацию ( у шопифай интересная тема - что можно самому выбирать сколько стоков и сколько кэша получать - менять пропорцию в рамках своего компа)
В целом - интересно
3-5 лет назад внутренне сокрушался, от того что Форбс не пришел ко мне и не поставил во главу списка 30 до 30
Сегодня прочитал статью от Guardian - что это мол сильная фича, сигнализирующая о вероятном приближении казенного дома
Много думал