cryptovalerii | Cryptocurrency

Telegram-канал cryptovalerii - Время Валеры

23002

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://www.linkedin.com/in/venheads

Subscribe to a channel

Время Валеры

Вышла небольшая статья-интервью по результатам общения

Читать полностью…

Время Валеры

Ходят слухи что у тик тока хорошие рекомендации контента.

Прочитал статью от пацанов из tik-tok Monolith: Real Time Recommendation System WithCollisionless Embedding Table. Как мы знаем, прочитать статью - задача посильная не каждому директору

Решают две проблемы: Первая - разреженность признаков, то есть огромное число комбинацией(интеракции пользователи/видео) и соотвественно относительная редкость появления каждой конкретной комбинации.Вторая - динамичность среды, быстрая смена интересов, трендов и паттернов

Первая проблема часто приводит к коллизиями, так как комбинации путем хитрых манипуляций представляется в виде эмбедингов, а эмбединги хранятся в таблице конечного размера, соответсвенно будут коллизии и не все комбинации получат уникальные эмбединги. Следовательно надо создать collisionless hash table, которая поддерживала бы удаление неактуальных фичей.

Для того чтобы избежать коллизий используется Сuckoo Hashmap - сложность O(1) для просмотров/удалений и средняя амортизация до O(1) на вставку. Для того чтобы снизить размер таблицы - исключают редко встречаемые сущности, кроме того очищают от устаревших сущностей (что такое часто и что такое старый - настраиваемые параметры)

Обучение модели идет в две стадии.
1. Batch - всего 1 проход!
2. Online - ловят на лету, обновляют модель, обновленную модель переодически пушат в лайв

Вот пожалуй и все. Из интересного следующие тонкости:

Online Joiner - признаки и конечный результат действий - несихнронны. Пользователь может купить товар через несколько дней после его показа. Если фичи держать в памяти и ждать результата, никакого железа не хватит, поэтому большую часть грузим на диск, что то держим в памяти, когда приходит результат - смотрим и в диск и в память, затем джойним.

Negative Sampling - очень большой дисбаланс классов приводит к тому что нет смысла брать все негативные семплы. Но если брать не все - пойдет смещение в модели, чтобы это избежать, используют поправку из Nonuniform Negative Sampling and Log Odds Correction with Rare Events Data (хотя можно и проще калибровать, так мне кажется)

Модель тяжелая, весит террабайты, перекидывать всю модель после пары онлайн обновлений - довольно непрактично. К счастью, как мы помним, очень много разреженных признаков, соответсвенно обновлять нужно в каждый отдельный момент времени лишь небольшие их количество, а не всю модель. Те признаки, которые разреженными не являются - часто обновлять не надо, там дрифт происходит медленно

Результаты

Хэши проверяли
офлайн, хэш без коллизий победил везде
Data sparsity caused by collisionless embedding table will
not lead to model overfitting
Обновление модели
раз в час лучше, чем раз в 5 часов и даже чуть лучше, чем раз в 30 минут (правда не стат значимо) и всегда лучше чем без обновления, на горизонте в 50 часов
Онлайн обновление побило Batch training на 14-18% AUC в аб тесте (странная метрика для аб)

Хорошая инженерная статья и видимо именно поэтому рекомендаци Тик Тока хороши, не поленились и сделали онлайн обновления

Обучали DeepFM - DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

P.S. лично для меня пару Фейсбук - Инстаграм побить тяжело. Но не по контенту, а по рекламе, сложно оценить сколько классных вещей я купил, увидев рекламу на этих площадках

Читать полностью…

Время Валеры

Исправился. Заменил any на only, может и статью прочитал?

Читать полностью…

Время Валеры

Я люблю читать и слушать различные вещи, связанные с историей.

Регулярно делаю это на ночь, потому что первые 30-60 минут все равно не могу заснуть

На русском языке мне больше всего понравились подкасты от Bushwacker

В какой-то момент я заметил, что слушаю их по десятому разу. Прослушал я не только его: Родину Слонов, Все Так на Эхо Москвы, Час Истории и т.д., поэтому решил посмотреть, может есть что-то интересное на английском языке.

Сказать что там оказалось гораздо больше материала, это ничего не сказать. Количество, детализированность и разнообразие - несравнимы.

После краткой разведки, выбор пал на Дэна Карлина и его Hardcore History Series. Вообще его подкаст платный, но всегда есть 5-7 бесплатных выпусков. Сейчас слушаю 13-часовой (3 эпизода) экскурс в персидскую империю, затем будет 25 часов (6 эпизодов) про Японию в 37-45 годах.

Затем попробую British History Podcast, 400 эпизодов по 30-60 минут. Начинают с того, что было 70 000 лет назад и уже подбираются ко временам нормандского завоевания. Про них пока ничего не знаю, а Дэна Карлина советую

Читать полностью…

Время Валеры

Интересные вещи происходят в крипто мире

FTX - 3-я по размеру крипто биржа в мире (объем около 20 млрд в день) призналась в отсутствии достаточного количества активов, чтобы покрыть свои обязательства и сейчас находится в процессе поглощения Binance (крупнейшей в мире крипто биржей и одним из первых инвесторов FTX), как же это случилось?

8 дней назад, 2 ноября, на Coindesk была опубликована информация про текущий баланс компании Alameda Research. Оказалось что между Хэдж Фондом, коим является Alameda и FTX есть очень прочная связь. Кроме того, корректность информации была подтверждена СЕО Alameda Кesearch.

В чем суть? Alameda Research основана тем же челом, что и FTX. Alameda была основана раньше и являлась крайнем успешным Хэдж Фондом, который заработал много денег на арбитраже Japanese Bitcoin premium. Затем они пивотнулись в Маркет Мейкеры, как только арбитраж пропал и заработали много денег на различных стратегиях, приобрели репутаци чуваков, которые делают отличную прибыль, но так себе работают с retail client.

Изначально FTX была создана как платформа for traders by traders, где Alameda стала первым Маркет Мейкером на FTX, предоставляя обменнику ликвидность. Их отношения на этом не закончились. Alameda также получила приоритет в своих ордерах, что по факту превращает тебя в идеальную машину по зарабатыванию денег, когда в твоем распоряжении одна из крупнейших бирж.

Это уже плохо, но дальше хуже. FTX стал для Alameda не только источником данных, но и банком. Сложно устоять, если у тебя есть мега выигрышные стратегии, но не хватает денег, а тут рядом крайне прибыльная биржа, которая тоже принадлежит тебе

Опубликованный баланс Alameda показал следующее: 5.8 млрд долларов из 14.6 лежали в токенах FTT, которые принадлежат FTX, практически все остальное лежало в токенах Solana. FTT токены давали следующие преимущества: уменьшение комиссией на торговлю, вывод денег без комиссий, вип доступ и всякие другие плюшки.

1/3 Дохода FTX использовались для покупки и сжигания токенов FTT, при этом ликвидность FTT была очень низкой. То есть, если бы Alameda понадобилось продать FTT на 5.8 млрд, они бы не смогли этого сделать, так у них токенов в 2-3 раза больше, чем их циркулирует суммарно в продаже. Интересно, что и с другими их активами творится тоже самое. Самое забавное, что основатель FTX и Alameda в одном из подкастов цинично описал такую скам стратегию как способо заработка.

Также это позволяет при аудите показать что у нас все хорошо, мы работаем порознь друг от друга, это вполне себе легальные отношения кредитор-заемщик. Единственное что может сломать эту схему, это если вдруг кто то начнет продавать огромное количество FTT и его цена пойдет вниз. Именно это и сделал владелец Binance, CZ.

6 ноября CZ заявил что продаст все FTT что у него есть, а это 500+ млн долларов.

Alameda публично предложили купить FTT over the counter по цене 22 доллара. Довольно странно так делать публично, учитывая что могли бы купить и дешевле. На что CZ отказался, что тоже довольно странно, учитывая что он в итоге продаст за меньшую цену. Очевидно это было сделано, чтобы понизить стоимость активов, что и случилось

Начались продажи, уровень в 22 доллара держался какое то время, но пал в 8 вечера по Нью Йорку, 7 ноября. Утром 8 ноября FTX остановила вывод всех средств с биржи. Alameda и сообщtство вокруг FTX пытались удержать доверие, вкидываю ликвидность в вывод денег, а энергию и силы в мемы.

Опасения что FTX и Alameda повязаны привели к кризису ликвидности и предложению о покупке FTX. Однако зачем было пытаться защищать отметку в 22 доллара? Alameda были должны не только FTX, которые бы простили им все что угодно, но кроме были Voyager и Blockfi. Теперь понятно почему летом они выкупали неудачливых крипто заемщиков, им было необходимо поддержать собственные структуры и у них было достаточно ликвидности чтобы это сделать

Теперь, с дыркой в миллиарды долларов FTX вынуждены были побежать к Binance за помощью и теперь у нас есть император крипты
Больше подробностей здесь

Читать полностью…

Время Валеры

Оказывается, недавно вышло вот такое видео, как раз после конференции на Кипре

Читать полностью…

Время Валеры

Как раз планировал сегодня выложить небольшой разбор статьи про рекомендации от Тик Тока, как наткнулся на пост от директора из Гугла. Зато теперь знаю что статьи он не читает

Читать полностью…
Subscribe to a channel