Завтра (13 декабря), в 18 по Лондону проведем стрим с @seeallochnaya и инженером из DeepMind, который участвовал в создании Gemini. Обсудим как обычно LLM, будущее и прошлое
Вопросы можно оставлять здесь
Один чел на Linkedin, написал что переодически переживает из за потенциально пересекающихся и влияющих друг на друга А/Б тестов
Это конечно ерунда, потому что:
A/B tests are not done blindly, it is very hard to imagine an improvement of 8% that you won't anticipate as a possible outcome of interactions of two new features
The only way I can imagine this is if someone runs thousands of random things without any idea behind them and want to check the results
При этом чел сам ссылается на статью от Microsoft - A/B Interactions: A Call to Relax
Где ровно то-же самое и говорят, пацаны - расслабьтесь, мы за вас уже посмотрели, такая штука практически никогда не возникает
Поэтому не бойтесь пропустить интеракцию всей своей жизни, почитайте лучше заметку Адама C3PO - про сто тысяч аб тестов
В полет отправился первый в мире трансантлантический самолет, полностью заправленный sustainable aviation fuel. So-called sustainable aviation fuels (SAF) can be made from a variety of sources, including crops, household waste and cooking oils. The first transatlantic flight by a large passenger plane powered only by alternative fuels has taken off.
Топливо, очевидно, сделано и предоставлено компанией BP
Прочитал статью LANGUAGE MODELS REPRESENT SPACE AND TIME от пацанов из MIT.
В свое время, концепция создания эмбедингов для слов через word2vec меня поразила, самым ошеломительным было наличие связей между понятиями: страна - столица, глаголы в разных временах и все эти приколы, типа король - мужчина + женщина = королева
Поэтому текущая статья не удивила, ведь это является логичным продолжением того, что наблюдалось еще в word2vec
Что сделали? Собрали 6 датасетов с именами/названиями (людей, мест, событий и тп), с локациями и временными точками
Три пространственных датасета: Мир, США, Нью-Йорк
Три временных датасета: Имена и сфера деятельности известных людей за последние 3000 лет. Имя создателей, название произведения и дата создания для песен, книг и фильмов - 1950 - 2020. Заголовки газеты New-York Times
Берут разные Llama-2 от 7 до 70 млрд параметров, прогоняют каждую сущность через модель и сохраняют активации последнего Хидден стейта на последнем токене и так для каждого слоя . Для каждого слоя получают матрицу активаций размером n(количество сэмплов) x d (размерность модели)
Затем обучают простую линейную модельку, которая на входе получает активации (1 слой - 1 датасет) и таргет (либо время, либо две координаты). Собственно, если на отложенной выборке модель успешно предиктит время и координаты, получается эта информация линейно закодирована в активациях (из этого не следует что изначальная модель использует эти репрезентации, с другой стороны, вряд-ли это вышло случайно). Тоже не открытие, весь deep learning это по факту representational learning и оперирует в конце обычно такими представлениями, чтобы линейная модель справлялась
Эксперименты показали, что с увеличением размера модель, растет качество восстановления и времени и пространственных координат через линейный декодер. Кроме того - качество растет с увеличения слоя (доходя до середины и затем выходя на плато)
Кроме того, это подтверждает linear representation hypothesis, то есть, что фичи внутри слоев нейронных сетей представлены линейно.
Проверили просто, обучили нелинейную модель как декодер - значимого улучшения не обнаружили
Еще решили проверить, что будет если к сэмплу добавлять разные промпты. Как и многое в жизни, лучше не стало, но от некоторых стало заметно хуже. Получается не зря говорят не слушать советов!
Потом проверили стабильность модели - впрочем тут можно прочитать самим, как изверги вытаскивали блоки информации и смотрели как модель может их восстановить. Относительно получалось неплохо, но абсолютно - так себе
Если попробовать ужать размеренность через PCA - качество падает заметно
В конце описывают что смогли найти нейроны, ответственные за время и пространство
В целом, интересно, но не удивительно
Написал я этот пост, чтобы не созваниваться с Игорем (/channel/seeallochnaya) и обсуждать статью вживую
#ArticleReview
Победа либертарианца на выборах президента Аргентины может оказаться событием не менее масштабным, чем эпопея вокруг Open AI. Что дальше, Анархо Капиталисты у власти в Бразилии?
Читать полностью…Как показали события этого дня, иногда, прежде чем работать над AI alignment, стоит удостовериться что между CEO и бордой есть просто alignment
Читать полностью…Неплохая статья от чела, который еще 10 лет назад в блоге нефтликса писал про три типа рекомншадек: Оффлайн, риал-тайм и что-то посередке
Приводит архетипы построения рекомендашек с ссылками(три) и четвертый, покрывающий все предыдущие. Blueprints for recommender system architectures: 10th anniversary edition
1. Eugene Yan’s 2 x 2 blueprint
На мой взгляд базовая шутка - retrieval через эмбединги и ANN -> выбор топ K кандидатов и обогащение их доп признаками -> ранжирование -> результат
2. Nvidia’s 4 stage blueprint
Выглядит скорее как расширенная часть предыдущего
Retrieval (аналогичный предыдущему) -> filtering (через фильтры Блума, то есть очевидно что то совсем поломанное таким правится, но видимо лень чинить эмбединги) -> обогащение данных и Скоринг -> еще один фильтр, поспроцессинг, уже использщуюзий бизнес логику - хотя на мой взгляд это классический пост процессинг, который может быть где угодно
3.Fennel.ai’s 8 stage blueprint
Тоже самое что предыдущие два, только еще показали что нужно сразу закидывать в систему данные сгененированные моделью (клик/не клик на определенные вещи и тп)
Как вы уже поняли все три архетипа это одно и то - же, что же представляет из себя четвертый?
Да тоже самое, но побольше
В целом полезно, чтобы понять что ничего нового не придумали или ознакомиться, если не знали как работают рекомендашки
Прочитал очередную статью на Хабре от Х5 - Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
Статья неплохая, раскрывает ряд интересных моментов
Например, что не обязательно держать долю рекламы на рынке относительно конкурентов, достаточно просто иметь определенное количество показов в абсолютах
Или что довольно быстро находится пик ROI, после которого его уменьшение не ведет к увеличению выручки
А так-же что многие коэффициенты могут оказаться не стат значимыми, если на них смотреть под разными углами
В целом неплохая статья/заметка на подумать и осмыслить
Karpov Courses ищут экспертов на наш с Евгением курс System Design
Курс про то, как подготовиться к system design интервью или закрыть свои пробелы в дизайне систем (кстати сейчас его активно дорабатываем, расширяем чтобы сделать еще более полезным для тех кто создает)
На пути обучения студентам необходимы помощь и поддержка от экспертов, которые помогут понять, где студент свернул в размышлениях не туда, или подсказать, что он упускает из виду, а также ответят на другие вопросы по курсу.
Если есть желание и интерес позаниматься этим — нужно просто написать по ссылке или напрямую HR: @bogdasha2208
В очередной раз понял, что давно живу в будущем
Наткнулся на видео - The Rise of the "New-Age" Machine Learning Engineer
Подумал что интересно - вдругой какой новый звери зверь, тем более слово правильное, MLE послушаю
Оказалось что New-Age ML Eng умеет писать код и деплоить + разбирается какую из предобученных LLM использовать. Примерно как выпускник Hard ML. А MLE это просто новое название DS, который перекидывет ноутбуки
В целом, конечно, уровень конента и дискусси опечалил
Если я усну и проснусь через сто лет и меня спросят, что сейчас происходит в ML, я отвечу: не умеют писать код и не понимают что делают
Мне очень нравятся заметки от Рони Кохави, потому что они совпадают с моим мнением.
Сейчас прочитал новую - дисс на когортный анализ
Сложно с ним не согласиться, меня всегда удивляло то, с какой настойчивостью аналитики в компаниюх делают когортный анализ для тонких выводов. Ладно еще понять, ничего ли не сломалось или как в целом (и то если сильно) менялось поведение пользователей
Но делать на этой основе какие то выводы о таких вещах как например retention (метрика с большим лагом) через когортный анализ (анализ с большим лагом и в разные периоды) - это просто трата времени на красивые графики ради графиков
TL; DR: Cohort analysis supposedly “allows you to see patterns clearly against the lifecycle of a customer” (Croll and Yoskovitz 2013). In Reforge’s Growth Series (Fishman 2023), it is touted as a great way to measure retention over time. The theory seems to make sense, and the colorful graphs, such as the one in Figure 1, are beautiful. However, without any measure of statistical significance, and with such fine-grained segmentation of the population into small cells, it is likely to be showing colorful noise. Furthermore, the analysis of lagging metrics like retention is unlikely to provide many actionable insights.
Однажды я работал в Х5 большим начальником и так вышло, что мы организовали квиз от Х5, собрав команды случайным образом.
Наша структура была уже довольно крупной, больше полутысячи человек, поэтому в лицо никто всех не знал.
За столом мне довелось сидеть с одной девушкой, которая в какой то момент не выдержала напора моего интеллекта и спросила. Ты что, самый умный? В ответ я лишь удивлённо улыбнулся и пристально посмотрел на нее, чтобы запомнить, ведь ответа на этот вопрос я в тот момент не знал.
Затем поочередно стали вызывать больших начальников, чтобы наградить отличившихся в квизе.
Когда пришла моя очередь и назвали мое имя и должность, на лице девушки отразилась гримаса удивления переходящего в ужас.
Вот бы также делали в магазинах оптики, подумал я.
#CoolStory
Однажды, когда я работал инженером по прикладным разработкам в компании Foss, я поехал на элеватор в Мордовию.
Там мне не удалось попить чаю, но зато удалось починить ряд приборов. Чинил я их в компании инженера и кандидата наук, который рассказывал как он ненавидит ЕГЭшников. Я решил не говорить ему что тоже сдавал ЕГЭ (правда только по русскому языку) и что мне нравится сама идея. Не захотелось прерывать его байки про криворуких ЕГЭшников, да и меня он к счастью не раскусил. Или тоже решил не говорить.
В итоге, когда я вскрывал прибор для выделения жиров - он с радостью рассказал как прибор пару раз у них взрывался и они меняли почти все внутренности. Жиры в воде не растворяются, а в эфире растворяются, потому их вымывают через смесь эфиров. Если не ставить хорошую вентиляцию, испарения эфира накапливаются и становятся взрывоопасными. Так как все ресурсы, понятное дело, ушли на клей и бумагу для мышей, на вентиляцию ничего не осталось, отсюда и взрывы. Я решил, что во время тестового прогона, спуститься в туалет на первый этаж с одиннадцатого, не такая уж и плохая идея
Вскрыв прибор, я обнаружил причину неполадок. Одна из трубок была цинично сожрана мышью. Инженер подтвердил, что это действительно любимая трубка мышей(или одной опытной мыши?), трубка из такого материала там была одна, по ней как раз сливался Эфир. Либо материал этой трубки был особенно притягателен, либо после клея мышам хотелось Эфира. Опираясь на людское поведение, я бы поставил на второе. Забавно, что обычно сначала тестируют на мышах и только затем на людях, здесь вышло наооборот
Сразу после замены трубку и проверки прибора, инженер, с некоторым блеском в глазах, спросил, есть ли у меня еще такие трубки?
Я серьезно задумался, включил прибор и пошел на первый этаж.
#CoolStory
Еще каких-то 7 лет назад я ходил на лекции Александра Петрова в Питере, а сегодня мы оба живем в одном Королевстве.
Его статья "gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling," co-authored with Craig Macdonald, получила награду the Best Paper award at ACM RecSys 2023
И пожалуй более крутого признания в его области нет
Приятно осознавать, глядя на эту картинку, что Х5 решил сконцентрироваться на найме сотрудников-качков.
Рад что мое дело живёт
До чего дошел прогресс.
Судя по всему, на ряде довольно престижных технических конференций организаторы придумывали и анонсировал фейковых докладчиков-женщин. Видимо чтобы адресовать запросы по diversity, кажется это оказалось самым простым решением.
В целом понятно, что проблему нужно решать вверху воронки. Если в технические специальности нанимают в основном людей с техническим образованием, а там соотношение 10-90 или 20-80, с чего бы оно менялось дальше в лучшую сторону ? Скорее изменится в худшую. Поэтому все попытки изменить низ воронки выглядят как мишура, если что и менять, то в начале.
Поначала радовался новому умному кольцу Circular - и апка интересная и лидерборд и какие-то награды и данные непрерывным потоком льются. Одно но. Сегодня обнаружил, что мой скор по сну заметно упал, начал смотреть почему. Оказалось, что вчера, оставив кольцо на тумбочке, оно решило что я спал. Получается не очень умное - ведь я не спал. Написал в поддержку, в ответ советуют носить кольцо не снимая и говорят что да, такое может быть.
Такие кольца нам не нужны. А жаль
Но ничего, там новое кольцо вышло - ultrahuman
Мне нравится собирать Лего, точнее так, я собираю много Лего и одновременно слушаю аудио книги, попеременно на английском и немецком, что является единственным способом поддерживать немецкий язык на каком-то приличном уровне.
Еще в России я скорешился с коллекционером Лего, который заполнял и заполняет им огромный дом в Подмосковье. Сдружились мы на той теме, что у меня нет огромного дома для Лего, а у него есть и мое Лего через некоторое время становилось его.
Когда он узнал что я уезжаю в ЮК, сказал - ну теперь тебя завалят подарками. Ведь при покупке Лего в официальном магазине - дарят кучу подарков (куда их девал Мир Кубиков - отдельный вопрос) И не обманул!
На фото то, что я получил в качестве подарков за последние 2 года (примерно 3/4, остальное раздарено или собрано)
Обратил внимание что рекрутеры на Linkedin оживились, ощущение что рынок постепенно восстанавливается, за 2 дня - 4 предложения пообщаться
Staff+ (IC6,7,8) Engineer @ Personio!
An applied science manager to build a team of world-class software engineers and scientists that will deliver on an Amazon-critical charter
[Agoda] Opportunities with our data-driven marketing team
Director of Data opportunity leading entire function for profitable & well funded SaaS Fintech proposition
Выглядит как хороший знак
Вышло новое видео, где я собеседую выпускника Hard ML и по совместительству Синьора/Лида в онлайн кинотеатре. Формат собеседования - он заранее выбирает проект и рассказывает про него, я задаю вопросы
Читать полностью…Наконец то долетел до Чикаго.
Сначала долго чистили самолёт, а затем потеряли третьего пилота, пришлось вызывать нового (потому что по закону меньше трёх нельзя, впрочем а союзе это всегда знали), что заняло суммарно четыре часа сверху.
Почему наконец то? Последнии десять лет, регулярно, раз в квартал, снится сон как я лечу в США и постоянно что-то происходит и я не могу прилететь
Зато посмотрел шедевр мирового кинематографа, фильм - Cocaine Bear, про 500 фунтового медведя, который нанюхался огромного количества кокаина и пошел во все тяжкие.
After ingesting a staggering amount of cocaine, a 500-pound apex predator goes on a rampage
Фильм кстати на удивление неплохой, если нравится абсурдный юмор
#coolstory
В очередной раз понял, что давно живу в будущем
Наткнулся на статью - A New Study Says AI Is Eating Its Own Tail
Да и фантасты писали об этом давно
Если кратко - для обучения моделей нужны оригинальные данные, но обученные модели загрязняют интернет сгенерированным "мусором"
Впрочем о том что это случится, сильные пацаны говорили еще давным давно, и не раз, модели коллапсируют
В декабре прошлого года заказал новое мега кольцо. Сегодня его наконец-то отправили.
Живу как будто при коммунизме
Где-то год назад я писал, что Симулятор ML в активной разработке. Сейчас Симулятор ML всё ещё в активной разработке и всегда там будет, потому что сделать его до конца невозможно. Но кое-что все-таки можно - отсюда и отчет
– Почти 70 задач по запросам студетов и по нашему хотению. Симулятор запустили, когда их было меньше 30, теперь же их хватает чтобы иметь вменяемое разделение по четырём уровням и семи темам: динамическое ценообразование, рекомендательные системы, деплой, прогнозирование, тестирование, матчинг и все остальное, что еще недостаточно большое для выделения в отдельную тему
– Каждый месяц прибавляется в среднем по три задачи, а сам Симулятор работает как подписка.
– Появился чат-бот Ева, виджет ChatGPT для круглосуточной помощи, и обновилась система грейдера, которая теперь наглядно показывает ошибки.
– Направление пет-проектов. Один из пет-проектов вы скорее всего уже видели в комментариях – бот Spam Killer, который защищает чат этого канала (бывало что и от меня) и чат karpovꓸcourses от порно, крипты и пропаганды. За второе конечно обидно
– Комьюнити из 300 человек, которые активно участвуют в вебинарах, кодинг-сессиях, самостоятельно объединяются в команды для разработки проектов и участия в соревнованиях. (пока не найдется Onodera наших дней)
За что уважаю статьи от Саши Сахнова? За то что они полезные и понятные: https://habr.com/ru/companies/X5Tech/articles/763656/ Легко и просто написано, каким же является оптимальный размер группы А и групп Б, когда групп Б > 1 во время А/Б тестов
Хотят тут я бы посмотрел, а что если бустрапить группу А_синт, равную размером группе Б из всего изначального А?
Однажды, когда я работал инженером по прикладным разработкам в компании Foss, я поехал на элеватор в Мордовию.
По пути из Саранска на Элеватор таксист рассказывал про своего знаменитого земляка - Жерара Депардье
В лаборатории этого Элеватора был установлен ряд приборов, требующие осмотра. Путь был непрост, так как лифта не было, инструменты были тяжелые, а лаборатория находилась на 11 этаже с очень большими пролетами на каждой лестничной клетке.
Когда Эверест был покорен и я наконец-то зашел в лабораторию, передо мной оказали две очень грустные девчонки, которые смотрели на мышь. Мышь исполняла нижний брейк на бумажке с клеем. То есть просто лист бумаги А4, на который сначала щедро нанесли клей, а затем и мышь. Я тоже начал смотреть, не каждый день видишь нижний брейк в исполнении грызуна.
Вдоволь насмотревшись я сказал девчонкам то, что до этого срабатывало в 100 случаях из 100. Может быть попьем чаю? Ни один лаборант или заведующий лабораторией на моей памяти никогда не отказывались от чая.
Девочки перестали смотреть на мышь и стали пристально смотреть на меня. Стало жутко. Захотелось проверить не наступил ли я на бумажку с клеем
Туалет на первом этаже, ответили они
#CoolStory
На неделе выдалось четыре свободных часа и понятное дело я решил потратить их на прототипирование платформы АБ тестов
Ничего необычного: встроил туда бутстрап и стат тесты, CUPED, симуляции А/А и А/Б + проверка как долго по времени держится репрезентативность групп относительно друг друга и соотвественно как долго можно держать эксперимент.
Безусловно все делается в многопоточность + немного оптимизации, что позволило ускориться в два раза по сравнению с первой версией (умноженное сверху на количество ядер). Описал типы переменных и выходов для всех функций и классов, подключил управление через конфиг и запилил логирование, конечно же окружил все разными эксепшенами, чтобы понимать что ломается. Также обложил все юнит-тестами и наконец-то нашел где использовать Data Class в питоне, это не считая некоторых встроенных проверок в сами модули, заодно кстати и по модулям все раскидал. Полирнул все через sort, yapf и black, попутно угождая прихотям pylint
Получил редкое наслаждение от процесса и подумал в очередной раз, что chatGPT (Я пользовался им и он конечно здорово ускоряет процесс. Co-pilot дальше чем автозаполнение для док стрингов и типов, и то которе нужно править, пока не зашел) расширяет пропасть между опытными и начинающим, потому что будь на моем месте человек неопытный, он бы все принимал за чистую монету и chatGPT его бы жестко надурил и не раз. Даже не потому что он злой или тупой, а потому что оперирует естественным языком, потому свойственна неопределенность. Кроме того, сэкономил он мне время так, где мозги были не особо нужны, а нужна была рутина, занимающая кучу времени.