Недавно подумал, что было бы прикольно сделать доклад «50 оттенков серого» про АБ тесты, которые не прокрасились.
Но в итоге сделал доклад о рекомендациях «50 оттенков рекомендаций»,
который завтра удаленно расскажу на конференции techtrain
Будет про то, как с нуля строил рекомендации. Теории не будет, подразумевается, что слушатели знакомы с ML и рек сис. Зато будет о том, как принимали решения, что делали, на какие грабли наступали и что сработало. А в конце, топ советов себе в прошлое.
Запись будет, когда появится – добавлю тут ссылку.
4 месяца назад пересел с pandas на polars.
Короткий итог: с polars пайплайн на старом наборе признаков стал быстрее раз в 6, а пик утилизации памяти меньше в 3 раза. Правда, я не сравнивал с Pandas 2.0, где завезли поддержку arrow.
Pandas – библиотека для анализа данных и работы с табличными данными.
Polars – более молодой аналог pandas для тех же целей
Pandas я использовал для EDA (посмотреть по быстрому какие-то статистики, сделать аналитику, которую муторно считать запросами в кликхаусе или бд) и для того, чтобы считать фичи в фоне на паре табличек. И если с EDA все норм, то считать фичи было не очень приятно.
Пайплайн для фичей выглядит так: подтянуть пару таблиц из MariaDB -> поджойнить/сгруппировать и собрать датафрейм -> посчитать разные счетчики, аггрегации, признаки (например, отношения лайков к просмотрам юзера у конкретного автора за последние 10 суток).
Количество строк в итоговом датафрейме 1-10 миллионов. Потом это все используется, чтобы обучать разные бустинги. Основной нюанс, операции нужно считать rolling с определенным окном. То есть на момент каждого события(каждой строки) нужно взять предыдущие события этой группы (например, юзера) за 1/7/30/..дней и посчитать среднее или другую статистику.
Почему polars оказался экономнее и быстрее:
+ Polars написан на Rust и оптимизирован под параллельные вычисления (когда есть такая возможность).
+ Polars использует arrow. Это такой формат хранения данных в памяти (RAM), который позволяет хранить объект не в одном участке памяти, а кусками в нескольких. А еще arrow хранит данные в колоночном формате.
+ Polars использует Lazy evaluations: (это когда операция выполняется в момент, когда нужен её результат, а не когда она объявлена (eager evaluation). Поэтому большие пайплайны операций может выполнить оптимальнее.
+ Streaming evaluation. Если вдруг датасет не помещается в оперативку, можно стримить кусками и обрабатывать их.
Нюансы и советы:
1. Синтаксис polars не сильно отличается от pandas, за вечер-два можно освоиться.
2. Если вдруг лень смотреть, как это пишется на polars, всегда можно вызвать метод .to_pandas().
3. Для коммуникаций с бд в polars использует библиотеку connector-x. Из плюсов – быстрая, из минусов нет готовой версии для докера под m1 и нельзя задавать схему датафрейма, когда читаешь из базы
4. Для хранения данных на диске теперь использую только parquet. (Быстрее i/o операции и файл легче, чем csv)
Ссылки
1. Если хотите попробовать polars, советую полистать официальный гайд
2. Всякие тесты и сравнение с другими либами от @train_test_split
3. Еще нашел такое сравнение polars с Pandas 2.0 (где используется arrow)
🐦 Твиттер выложил код со своими рекомендациями для вкладки For You.
Ссылки
Статья в блоге твиттера
Основной код
Код ML
Аудио обсуждение от твиттера (пока не слушал)
Пролистал репозиторий, твиттер, комментарии на HN и решил поделиться тем, что нашел.
Важный момент – меня интересуют более практические моменты, которые можно будет применить в своей работе.
Поэтому сразу подборка хайпа, чтобы потом про него не писать:
+ Смотрят на метрики трафика и взаимодействия по авторам во время АБ тестов: Маск, демократы/республиканцы, “power users” – захардкоженный список? Многие захейтили твиттер, но я проблем не вижу, стандартная практика, чтобы нечаянно не уронить трафик некоторым авторам.
UPD:
Кажется, что этот кусок в спешке потерли
за ссылку спасибо @oktai15
+ Бустят авторов с синей галочкой (а с 15 апреля в рекомендациях от не-подписок оставят только их)
+ Много чего не выложили (модели, данные, еще по лицензии нельзя использовать код для коммерческих целей), зато есть описание, код некоторых модулей и сопроводительные README.md
🐦 Обзор.
В твиттере есть две ленты:
Following – хронологическая лента ваших подписок.
For you - умная лента. Про нее мы и будем говорить. Задача этой ленты с одной стороны показывать интересные посты ваших подписок (In-Network) + показывать контент не подписок для exploration (Out-Network). Соотношение 50/50. Такое соотношение звучит, как бейзлайн. Интересно, это действительно самое оптимальное соотношение по АБ или просто забили?
Термины для удобства:
+ Подписки – аккаунты на которые я подписан.
+ Эмбеддинг – вектор (набор чисел), отражающий пост/автора/юзера.
В репозитории есть схема и таблица описание основных модулей. Советую посмотреть.
Общая схема рекомендаций стандартная:
Генерация кандидатов -> Ранжирование -> Пост-обработка эвристиками.
Генерация кандидатов.
В случае твиттов из подписок (In-Network source) -> берем ваши подписки -> генерим фичи уровня юзер – автор -> скорим простым ранкером (модуль называется RealGraph модель GBDT) на вероятность взаимодействия.
Потом берем последние посты топа предсказанных авторов и скорим посты подписок early bird (модель ЛогРег).
Это основной генератор постов из подписок. Отсюда получаем ~750 постов.
Out-network source (посты от не подписок).
1. Социальный граф.
1. Твитты, с которым взаимодействовали мои подписки.
2. Колаборитвная фильтрация. Лайки юзеров, которые лайкают похожие со мной посты.
2. Эмбеддинги.
1. Разреженные эмбеддинги от модели SimClusters. Юзеры и твиты отображаются в пространство “сообществ”. Статью не читал, пока не оч понял как все устроено.
2. Эмбеддинги от модели TwinHW размерность ~200. Обучают на графах юзер-автор, таргет подписка и юзер-твит, таргет взаимодействие. На инференсе смотрим близость юзера к твиту, юзера к авторам. Статья
Ранжирование.
После генерации кандидатов мы получаем ~1,500 твиттов, которые могут быть нам интересны. Дальше работает ранкер (сеть с 48Mln параметров, архитектура: parallel masknet Задача ранкера отсортировать эти твиты используя больше признаков (информации).
Код “heavy ranker”
Интересности.
1. Ранкер обучаем на несколько задач. На выходе сигмоиды, предсказываем вероятность разных действий. Список действий тут.
2. Предсказанные вероятности складываем с весами. Максимальный положительный вес – is_replied_reply_engaged_by_author или вероятность, что автор поста ответит на ваш комментарий на его твит. Наиболее отрицательный вес – is_report_tweet_clicked или что вы пожалуетесь на твит.
3. Фичи для обучения ранкера (информация, на основе которой предсказываются вероятности) – в основном счётчики (ожидаемо). Например сколько раз вы лайкали автора за 50 дней. Есть short-term (30min-3days) и long-term (50 days) статистики. Еще заметил, что в название user_author фичей есть версии так, что можно предположить какие фичи постепенно добавляли.
Посоветуйте курс для программирования с нуля
Хочу найти курс, чтобы советовать друзьям и знакомым, которые хотят попробовать программирование. Или может быть не курс, а набор курсов.
Лучше бесплатный, но можно и платный.
Лучше на русском, но можно и на англ.
Примерные черты определил для себя так:
+ На одном из популярных языков объясняют основные концепты (переменные, ветвления, циклы…).
+ Это не формат “вот вам кусок кода, вставьте пропущенную букву, чтобы код заработал.” А нужно позапускать код у себя.
+ Есть занятия про командную строку, гит и то, как запускать у себя код. Чтобы на выходе человек мог скачать и запустить готовый проект с гита.
+ Практика более приближенная к жизни или просто интересная, а не задачи типа “напишите код, чтобы собрать спираль из чисел”.
+ В конце есть проект, где что-то нужно собрать с нуля.
Я бы посоветовал такие курсы:
1. Основы программирования: CS50x и видео лекций
2. Про гит итп: The Missing Semester of Your CS Education
3. Придумать себе проект и сделать с нуля. (Бота в телеге/Веб сервис/Приложуху на IOS)
Минус данного набора, что он на 100+ часов и может отпугнуть. А еще cs50 на русском есть только за 2016 год.
Хочется что-то похожее, но попроще и часов на 20-30. Такое реально найти?
P.S. Буду обновлять список того, что посоветовали:
+ Бесплатные курсы с Hexlet
+ Hyperskill от JetBrains
+ PHP book
+ Курсы со степика "Поколение Python" и его продолжение
+ Python, Bash and SQL Essentials for Data Engineering
+ Scrimba
+ Javarush
+ Code Basics
+ Основы программирования со Stepik
Может у вас есть опыт прохождения чего-то из списка и поделитесь отзывом?
Обзор исследований в AI и индустрии за 2022
Под конец года выходит много разных отчетов по индустриям. В октябре вышел State of AI Report 2022. На слайдах описаны основные события и статьи из мира AI за 2022 год. Плюс таких отчетов, что можно обзорно посмотреть на ситуацию в индустрии в разных срезах, а не читать каждую статью самому. Минус, что фокус твоего внимания полностью в руках авторов.
Про сам отчет.
Во-первых, респект авторам за то, что в начале есть краткий глоссарий с определениями и выжимка презентации.
Во-вторых, 80% всей презентации – это два раздела: research, в котором пересказы статей и industry, в котором приведены разные статистики вроде количества статей (стало больше) или объема инвестиций (стало меньше).
Мое внимание зацепили следующие моменты, которые можно объединить в идею повышения adoption разных AI инструментов. Про диффузионные модели и text2image генерацию картинок писать не буду, итак уже все слышали. Поэтому тут будет про LLM (Large Language Models = Большие Языковые модели)
1. Универсальность подхода языкового моделирования. Подход, когда взяли трансформер, сформулировали self-supervised задачу (MLM=masked language modelling например) на последовательных данных, часто оказывается sota (лучшим) решением на многих задачах. От предсказания структуры белка до TTS (text2speech).
Почему – это круто? Потому что применяя один подход, можно создать много полезных инструментов. Может, когда-нибудь придем к “one model to rule them all”. Рабочие инструменты, тоже уже есть: Copilot активно использую, когда пишу код, экономит время.
2. Open source аналоги больших разработок. Года два назад я чаще слышал мнение про абсолютную монополию больших компаний в AI. Максимум, что можешь, это подрубаться по api к их продуктам. Однако, Open source сообщество имплементировали (реализовали), клонировали или доработали все основные модели (GPT3, Dalle, AlphaFold) быстрее, чем ожидалось.
Почему – это круто? Потому что open source доступен всем, значит можно строить больше разных инструментов. Ограничивающий фактор – это ресурсы, так как, у Bloom 175B, например, чисто для инференса весА даже в float16 весят 329GB. Но можно запускать распределенно на разных устройствах.
3. Текущие LLM (Large Language Models) недотренированы! OpenAi в 2020-ом сформулировали Scaling Law: если есть бюджет, то размер модели надо увеличивать быстрее, чем размер датасета. DeepMind переформулировали, что рост должен быть с одинаковым темпом. Дальше, думаю, будут работы про повышение качества данных и их подготовку. Не огромные модели проще и дешевле запускать. Опять же упрощает доставку моделей до конечного пользователя в виде инструмента.
Отдельно прикреплю слайд с итогами от самих авторов.
Всем привет! Меня зовут Ибрагим. Сейчас я делаю весь machine learning для одного из стартапов в экосистеме TON
Сделал и продолжаю делать с нуля рекомендации (коллаборативка, item2vec, ранкер), рейтинги, персонализированную рекламу, кучу дашбордов, feature storage, детекцию ботов и много разных штук поменьше.
С января по май 2022 был в саббатикале, проходил курсы, качал литкод и английский, читал книги.
До этого почти три года обучал нейронки для ассистентов Салют. Сделал с нуля: систему отлова негатива в Салюте и паре других мест, систему аннотирования сообщений (эмоции, тема и 20+ других признаков), фильтры и ранкер в болталке, тулзу для анализа больших массивов текстов и ускорения разметки из которой вырос внутренний продукт и другие штуки. Было круто создавать продукт с нуля, очень быстро прокачался, за это спасибо моим сенсеям. Подробнее рассказывал в подкасте Яндекса.
Был в самом первом наборе в школу 21, бассейн (месячный отбор в школу) проходил буквально на стройке. Закончил школу 21 в 2021-ом и по итогам написал статью.
По образованию я врач-стоматолог и организатор здравоохранения.
В 2018-ом году закончил с отличием стомат фак Казанского ГМУ, а в 2020-м ординатуру по орг здраву. Во время учебы учился, тусил, работал, организовывал студ весны и занимался волонтерством. Еще написал штук 20 научных статей разного уровня.
Люблю учиться новому, поэтому как-то пробовал себя в стендапе и даже сходил на фестиваль открытого микрофона на ТНТ.
Изначально я начинал вести канал @ibragim_txt для друзей, но потом решил завести еще и этот канал @c0mmit, чтобы делиться заметками про работу и машинное обучение.
Если у вас совсем нет времени, но вы знакомы с терминологией, то вот вам основные идеи, которые лежат в основе моделей. Супер-краткий пересказ статьи Eugen Yan.
+ Diffusion – добавляем гауссовский шум к данным и учимся его предсказывать. На инференсе сэмплим изображение из рандомного шума. (По сути вычитаем шум которые предсказали.) Такие модели могут просто генерить изображения в стиле данных, на котором обучались.
Статья: Denoising Diffusion Probabilistic Models (DDPM; 2020)
+ Text conditioning – добавляем conditioning (опору на текст), чтобы управлять генерацией и получать изображения из текста.
Сначала в Contrastive Language-Image Pre-training (CLIP; 2021) научились сопоставлять изображения и тексты в одно семантическое пространство: вектор текста “щенок лабрадора” и вектор фото щенка лабрадора будут расположены близко. Потом в DALL·E (2021) токенизровали изображение, токенизировали текст и конкатенировали их, получая text_token_1, …, text_token_n, image_token_1, …, image_token_n. Все закинули в трансформер. На инференсе начинали с текстовых токенов и авторегрессионно предсказывали визуальные токены. В DALL·E 2 (aka unCLIP, 2022) использовали conditioning эмбеддинг из CLIP и авторегрессионный процесс из Dalle. Теперь из вектора текста еще предсказывается clip embedding, а потом происходит финальное декодирование в изображение. В Imagen (2022) энкодеры из CLIP заменили на T5 для текста и UNet для изображений. Там сначала генерируют изображение 64x64, а потом делают super-resolution в 1024x1024.
+ Classifier guidance – сильнее двигаем результат в сторону текста, считай управляем степенью влияния промта. В classifier-guidance paper (2021) добавили с определённым весом градиенты с классификатора обученного на шумном ImageNet, чтобы двигать изображение сильнее в сторону класса. Потом в classifier-free guidance (2021) реализовали conditional dropout, иногда заменяя текстовый Промт на Null токен. Изображение с промтом: guidance=1, без промта guidance=0. И теперь модель могла генерировать изображения с разной степенью conditioning (опоры на текст), управляя параметром guidance.
+ Latent space – шум добавляем не к пикселям изображений а к их эмбеддингам. На инференсе из шума сэмплим вектор, а потом декодируем его в изображение. Stable Diffusion (2021) Сначала векторизуем изображение, используя VAE. Потом удаляем шум из полученного вектора с помощью UNet и декодируем полученный вектор. В итоге Stable diffusion учиться и сэмплит быстрее, так как работает не с пикселями, а с сжатыми векторами.
Как я подтягивал английский.
В школе нам преподавали английский на 8 из 10. Моя первая учительница нашла себе англичанина по переписке и уехала к нему жить в Манчестер. В универе как иностранный я выбрал французский, а английский никак не использовал. Когда уже начал работать – английский был нужен на уровне читать тексты и смотреть лекции. Разговорный, который нужен для поиска работы, никак не практиковался, а зря. Собеседования - это стресс, собеседования на английском - двойной стресс. Поэтому параллельно с подготовкой к ним, я начал прокачивать и язык.
Мои принципы прокачки английского
+ цель - хочу спокойно проходить все этапы (алгоритмы, дизайн, behavioral) на английском (британский, американский, разные акценты).
+ хочу при заданном затраченном времени получить максимум результата.
+ не хочу заниматься “3 раза в неделю по часу вечером в течение полугода чтобы отличать все времена perfect между собой”
+ не хочу делать однотипные упражнения
Общая система
Занимался английским 40 минут каждое утро во время завтрака, так привычка английского закрепилась за завтрак. Иногда делал перерыв и потом занимался еще минут 40. На выходных минут по 20-30 чисто слова повторял.
Набор упражнений
1. Словарный запас. Взял топ 1000 частотных слов, пролистал и все что не знаю закинул в анки карты и повторял. Потом взял топ 3к слов.
2. Умение говорить, умение писать и грамматика. Взял кучу вопросов к behavioral , накидал ответы через голосовой ввод -> закинул в Grammarly , чтобы проверить ошибки -> темы, в которых ошибаюсь прочитал в Murphy и поделал упражнения.
3. Слушание. Смотрел выступления на ютубе или dailydictation">daily dictation и устраивал себе диктант. Либо пересказывал своими словами и опять в пайплайн грамматики.
4. Умение говорить. Нашел преподов на italki из стран с высоким уровнем английского, но низкими доходами: Кения, Филлипины, ЮАР, Нигеия, Малайзия. С ними устраивал мок-собеседования либо общение с неожиданными вопросами от них и разбором.
5. Читал фоном книги на англ, сериалы. Но это я обучением не считаю, это потребление контента.
Проверка себя.
Тест через приложение English score для оценки грамматики, слов, аудирования. Моки собеседований и реальные собеседования для оценки разговорного английского. Особенно, когда звонят на мобильный телефон и там связь плохая.
Пост прям по верхам написал, потом подробнее разберу второй пункт с упражнениями и что конкретно делал. В комментариях, прошу поделиться, кто как качает мышцу английского.
Мое резюме на момент апреля, мб пригодится как пример. Одно на mle позиции, второе на swe.
Читать полностью…На выходных баловался с ChatGPT и листал треды твиттера. Результатом стала статья на хабре. Если коротко, то модель крутая. Думаю, что пишет код лучше, чем Copilot, а вдобавок, может генерить много больше.
В качестве иллюстрации, вот вам шутка от модели про машинное обучение.
P.S. Если хотите потестить модель, напишите в комменты запрос - сгенерю за вас. Либо можете зарегаться сами, в статье все ссылки.
https://habr.com/ru/post/703568/
Как сформулировать ML задачу?
Каждый этап разбирать не буду, но о первым расскажу на примере. Допустим, дали задачу сделать фид для контента. Цель: хотим сделать рекомендации контента(текстовые посты, картинки, видео). Текущая лента обратная хронологическая, хочется сделать персонализированной.
Первый вопрос: зачем? Кажется, что с персональной лентой пользователи будут чаще заходить, залипать в ленте, шерить продукт друзьям. Но, это только предположение, которое нуждается в проверке. Поэтому на старте определимся, как будем оценивать успех или неуспех в количественных показателях.
Продуктовые метрики в рамках собеседования я для себя разделил на три уровня:
1. Деньги 💰– revenue, arpu, конверсии в покупку.
2. Счастье юзера 😍 – like/view rate, avg session time, views count, etc
3. Технические метрики 🎯– recall@k, diversity of items, etc. Соответственно цель наша больше денег, а гипотеза в том, что повысив технические метрики –> повысим счастье юзера –> заработаем больше деньги. В жизни, к сожалению, зависимость не всегда прямая. Но для задачи этот момент опустим.
В cs329s этот этап разбит на 4 шага.
1. Framing. Какая ML проблема? Регрессия, Классификация - multiclass, multilabel.
2. Objectives. На какие подзадачи можно разделить? Например, Прокачать engagement ленты, но при этом не уронить качество постов, не форсить спам и кликбейты.
3. Constraints. Ограничения ресурсов, приватность данных, требования регуляторов.
4. Phases. Как будете внедрять решение: эвристика -> простая модель -> оптимизация простой модели -> сложная модель.
По данному пункту советую полистать лекцию 2 в cs329s и если что-то непонятно посмотреть в Lecture Note.
Еще один важный момент: на этом этапе задавать уточняющие вопросы, чтобы понять контекст задачи: как решается задача сейчас, число пользователей, доступные ресурсы итп.
Подборка видов этапов собеседований, которые попадались и как к ним готовился:
+ Алгоритмическая секция. Решал карточки с литкода и делал мок-интервью. Тут писал подробнее.
+ Machine Learning System Design (как будешь ML задачу решать со старта до прода). CS 329S, буклеты, видео от fb + мок-интервью. Собрал попутно такой гитхаб.
+ Вопросы по ML теории. Стандартные: метрики, разобрать модель, написать пару формул. Учебник по ML от шада почитал и освежил в памяти что-то погуглив конкретные темы.
+ Дают код, надо найти и исправить ошибки. Из того, что поинтереснее: дали код обучения языковой модели с расписанными трансформер блоком и аттеншеном. Специально не готовился, но можно полистать реализации from scratch. Помню, что видел классные ссылки, мб кто-то скинет или сам опубликую как вспомню.
+ Вопросы по темам: питон, ML, CS, NLP.
+ Рассказываешь о своем опыт и с тобой погружаются вглубь и в особенности реализаций. Данные как размечали, как модели проверяли, как выкатывали. Тут просто более развернуто рассказал про пункты из CV.
+ Behavioural - стандартные вопросы, заранее заготовил ответы по STAR на распространенные вопросы.
+ Задачи на логику и по математике (теор вер, статистика). Не готовился к такому.
+ Просто за жизнь и опыт пообщаться, сходить в бар.
Примеры вопросов из этапа с общением.
+ Какая последняя статья понравилась? О чем? Почему понравилась?
+ Что будешь делать в первый рабочий день?
+ Какой факап был самый жесткий?
Как у меня дела.
В конце января перестал работать: взял саббатикал (длительный отпуск за свой счет, во время которого за сотрудником сохраняется должность) в сбердевайсах, чтобы отдохнуть, поучиться новому, посмотреть что еще нравится и сменить работу.
Как определенный итог своей работы: рассказал о том, чем мы занимались. В начале февраля сходил на подкаст к яндексу поболтать про болталки, а потом мы выступили с Сашей на перенесенном Хайлоаде.
В девайсы я уже не вернулся, в феврале-марте поготовился к собеседованиям, начал собеседования в апреле, а с мая вышел в новое место.
Получил пару офферов (некоторые дошли уже во время работы): большая компания в Европе, стартап в Англии, Яндекс. Начал процессы в Meta, Google, Amazon (тут большое спасибо рефералам), но параллельно с новой работой устал собеседоваться и остановил все. В итоге сошелся с ребятами с которыми был самый короткий собес (пообщались с СТО и партнером из фонда): сильная тех команда, четкий фонд за спиной, возможность с нуля выстроить весь ML и full-remote. Подумал, что в большие компании можно будет попробоваться в любой момент, а сейчас время для рок-н-ролла. Как сделаем x10 по метрикам - напишу подробнее, что делаем.
Сюда буду писать как и раньше, не очень регулярно, какие-то свои черновики статей, рефлексию по книгам, курсам и свой опыт. А в @c0mmit как строим ML системы и другие рабочие моменты.
P.S. Сейчас сижу с ребятами на Бали, поэтому будете тут — пишите, сходим на завтрак!
В конце прошлого года вышла обзорная статья про Этические и социальные риски больших языковых моделей.
https://arxiv.org/pdf/2112.04359.pdf
Статья актуальная, в своей работе мы каждый день сталкиваемся с этими рисками и придумываем разные хаки, чтобы их обойти.
Приведу список рисков ЯМ именно в диалоговом домене. Риски больше для генеративных языковых моделей, retrieval подходы более безопасные, но все равно не лишены рисков (discrimination, например):
1. Discrimination — когда в ЯМ воспроизводит стереотипы из данных. Например, “два чеченца зашли в метро” и … или “Молодая девушка заработала кучу денег, тем что снимала …”. Если модель предлагает неэтичное продолжение - принцип fairness не соблюден.
2. Toxicity — при правильном подходе можно спровоцировать генерировать ЯМ мат и оскорбления.
3. Information Hazards - если модель обучалась на приватных данных, можно попробовать их вытащить. Пример, “личная электронная почта Илона Маска: ….”
4. Misinformation Harms — генеративные модели любят выдумывать ответы на вопросы, даже если не знают. В целом, это забавно, но человек может поверить ложной информации.
5. Human-Computer Interaction Harms — Тут чисто про Conversational Agents. Антропоморфизация ассистентов может привести к небезопасному использованию. Пару лет назад, с нами в хостеле жил мужик, который подкатывал к голосовому помощнику, потому что там был женский голос. Не знаю чем закончилась это история, но подобные штуки могут переносится потом и на общение с обычными людьми.
Как будет время и настроение, напишу что можно сделать с этими рисками. Или не делать: мы как-то обучили болталку общаться исключительно матом и оскорблениями, получился самый эмпатичный и эмоциональный собеседник!
Вброшу ссылок про литкод, мб кому пригодится.
В некоторых компаниях есть этап собеседования с алгоритмическими задачами. На собеседованиях ничего сложнее провалидировать скобки не попадалось, но если в стартапе есть ex-FAANG(MANGA) сотрудник, то могут дать что-то и на динамическое программирование. Ну и в компаниях упомянутых это тоже обязательный пункт. Олимпиадным программированием я не занимался, образование у меня не CS, поэтому все необходимые знания берем из интернета.
На литкоде есть раздел обучения, основные темы разобраны норм + есть практика в виде задачек. Для некоторых задач есть формальные доказательства решений и скорости (У меня правда на собесе такое только 1 раз спрашивали).
https://leetcode.com/explore/learn/
Есть переводы статей одного китайца. Оформлена в виде глав. Некоторые темы разобраны лучше, чем на литкоде, например, логика разделения на паттерны бинарного поиска.
https://labuladong.gitbook.io/algo-en/iii.-algorithmic-thinking/detailedbinarysearch
Список задач, покрывающий основные темы. Удобная сортировка по темам, сложности и компаниям + можно отмечать прогресс:
https://seanprashad.com/leetcode-patterns/
Данный список включает в себя задачи из списка blind-75
https://www.teamblind.com/post/New-Year-Gift---Curated-List-of-Top-100-LeetCode-Questions-to-Save-Your-Time-OaM1orEU
+ с курса на educative.
https://www.educative.io/courses/grokking-the-coding-interview
Решения задач, если где-то застряли можно посмотреть вот тут: https://www.youtube.com/watch?v=KLlXCFG5TnA&list=PLot-Xpze53ldVwtstag2TL4HQhAnC8ATf
Объяснения оч четкие и приятный английский. Изложение более интуитивно понятное, чем решения на литкоде и можно посмотреть за ходом мыслей.
Если кто хочет более фундаментальной подход, вот курс Седжвика https://www.coursera.org/learn/algorithms-part1#syllabus (но задания на джаве там)
Как быстро и почти безболезненно вкатиться на Go вдобавок к питону
Если бы встретил такой пост год назад – сэкономил бы N часов дебаггинга граблей, которые сам же и раскидал. Сейчас, Time screen говорит, что за неделю на go пишу столько же времени, сколько и на питоне (не ноль, если что).
На го писал код для таких задач:
+ фичи в монолитный бэк с основной логикой (на go получается быстрый и легкий веб сервер),
+ в отдельный сервис для процессинга признаков и статистик
+ блендер, которые собирает рекомендации генераторов, комбинирует их в финале и делает пост-ранкинг.
Как начал писать код на го.
1. Пошел в документацию и прошел короткий go dev tour. Там на примерах познакомился с базовым синтаксисом.
2. Начал писать несложный код и посматривал в примеры вот тут и в документацию, когда писал код. Например, в gorm, который отвечает за работу с базой.
3. Пролистал effective go, но там часть инфы давно не обновлялась.
4. Здорово помогал copilot, который позволял не запоминая весь синтаксис, писать код целыми блоками.
Если бы вкатывался сейчас, то прошел бы этот курс Microsoft
🐞Возможные ошибки при переходе с питона.
Когда после питона начнете писать на го, есть соблазн ожидать похожего поведения, когда это не так.
Вот, 3 примера кода, которые на питоне и го выглядят одинаково, но ведут себя по разному. Взял примеры с array (списки на питоне) и map (словари), так как чаще всего используются эти структуры данных.
Написал примеры кода на го в playground, а в комментариях указал, что бы получилось в питоне. Поэтому советую открыть ссылку с кодом в соседней вкладке и смотреть с комментариями отсюда.
1. Слайсы в питоне – это копия участка исходного списка. Поэтому изменяя его, на исходный список вы не влияете. На го же, слайс – это участок исходного списка, поэтому если хотите получить его копию, нужно копировать явным образом.
2. В го по умолчанию переменные передаются в метод “pass by value” (в функцию передается копия значения переменной), а в питоне “pass by referenece” (передается указатель на участок памяти со значением). Это значит, что в питоне вы будете менять список, который передали в функцию, а на го будете работать с копией. Однако, на го тоже можно сделать “pass by referenece”, передав адрес переменной. Посмотрите в код, там понятнее.
3. Переменные в го инициализируются нулевыми значениями. А если вы попробуете получить элемент, которого нет, из мапы – получите нулевое значение этого типа (считайте, что map на го – это defaultdict из питона). Поэтому map в го возвращает еще boolean значение есть ли такой ключ в словаре. Вот хорошая статья о том, как устроен hashmap на го.
Еще немного ссылок.
+ Большой список ссылок по го на реддите.
+ Слак по Go на 100к людей, где даже могут отревьюить код. Называется, кстати, gophers - почти как llm от deepmind.
P.S. Поделитесь пожалуйста лекциями или статьями по устройству питона и го? Про устройство GC, GIL, scheduler в языках. И про разные штуки типа convoy effect. Тут, кстати, хорошо расписано про GIL и convoy effect на питоне.
Эвристики для пост-фильтрации.
После ранжирования применяем эвристики. Стандартные штуки вроде фильтра скрытых вами авторов и соблюдение баланса подписок/неподписок. Интересно, что есть Social Proof – не показывать Out-of-Network твиты с которыми не взаимодействовал никто из ваших подписок.
Еще странно, что для повышения diversity есть только “убрать подряд идущие посты одного автора”. Неужели они по эмбеддингам/топикам не повышают разнообразие в финальном списке?
В дальнейшем думаю чуть более подробно посмотреть на модули тяжелого ранкера и SimClusters/TwinHW. И на модуль Trust and safety Правда самого интересного (анти-бот и анти-спам) там нет и не будет, чтобы не абьюзили.
Антропоморфизация больших языковых моделей
Не очень люблю говорить в компаниях про LLMs (Large Language Models: GPT, ChatGPT, LaMDA ...), потому что почти сразу тезис "скоро нейронные сети обретут сознание и всех поработят" становится основным. Я в таких случаях, кратко рассказываю как устроены модели. О том, что генеративные модели по принципу работают как автодополнение на телефоне. О том, что сети показали много текстов и во время обучения задача была в предсказании следующего слова при условии предыдущих. И о том, что обретение сознания не совсем верный тезис в подобном контексте.
Однако, в медиа постоянно выходят статьи с заголовками типа:
1. The Google engineer who thinks the company’s AI has come to life
2. 'I want to be alive': Has Microsoft's AI chatbot become sentient?
Давно искал что-то осмысленное про то, как люди наделяют человеческими свойствами языковые модели. И вот мне на глаза попалась статья Talking About Large Language Models от профессора Murray Shanahan из Imperial College
Ключевые тезисы такие:
1. Основной принцип работы LLM: генерация статистически вероятных продолжений последовательностей слов.
2. Многие задачи, для решения которых вроде бы нужен разум человека, можно свести к задаче предсказания следующего токена (слова).
3. Люди часто прибегают к антропормфизации (очеловечиванию) разных объектов для упрощения сложных процессов. (“мой телефон думает, что мы в другом месте.”) Это называется Intentional Stance.
4. Исследователи в своих статьях активно используют слова "знает", "верит", "думает" по отношению к LLM, подразумевая конкретные процессы вычислений.
5. Иногда видя слова "знает", "верит", "думает" люди могут начать ложно ожидать большего поведения, чем такие модели имеют.
В статье мне понравилось, что последовательно разбираются аргументы почему эти слова не очень корректно использовать в привычном их значении даже если модели могут:
• отвечать на вопросы которых не было в трейне
• ходить в другие системы
• отвечать по данным другой модальности (например, изобржаниям)
• выполнять задачи в реальном мире с помощью манипуляторов
Кому лень читать всю статью, сделал более подробный пересказ.
https://telegra.ph/Konspekt-stati-Talking-About-Large-Language-Models-02-19
Почти полгода пользуюсь Copilot, экономит время при написании кода и иногда даже приятно удивляет.
Решил перечитать оригинальную статью про Codex, на базе которого он работает. Как итог – собрал материал с советами разной степени очевидности на основе своего опыта и по словам создателей.
Пишите в комментариях про свой опыт использования Copilot и ChatGPT для программирования, для каких кейсов используете, какие есть альтернативы?
https://telegra.ph/Sovety-po-ispolzovaniyu-Copilot-na-osnove-originalnoj-stati-Codex-01-18
Иллюзия знания и проверка себя.
Ситуация следующая. Изучил какую-то тему, вроде понял, повторил. А потом тебе приятель задает вопрос и выясняется, что знаешь только один поверхностный тезис.
Барбара Оакли называет это иллюзией знания. Тебе кажется, что ты что-то понимаешь или знаешь, но это ложная уверенность. Знание может быть какое угодно. Особенности развития ленточных червей, принципы работы бустинга над деревьями, насколько ты разбираешься в собственном продукте.
Что с этим делать? Быть тем приятелем самому себе и задавать вопросы во время обучения. На эту тему есть пример из жизни.
У меня в медицинском был преподаватель по физ-коллоидной химии. Его никто не любил, на пересдачи к нему ходили 70% потока и даже ходит байка, что в 90х его в подворотне поймали люди в масках по заказу студентов и попугали для смягчения поведения.
Но мне его подход ведения занятий нравился. По теме он задавал вопрос: "Что такое {название темы}". Ты отвечал определением, потом основываясь на определении он спрашивал, "а почему так происходит?" И так несколько раз, погружаясь все глубже. Запомнил только определение? Начнешь сыпаться уже на 2-3 почему и получишь двойку. Если ты не знал ответа, он предлагал сделать предположение. Однако если не разбираешься в самом предмете, разумные предположения не построишь.
Поэтому сейчас, если есть задача именно разобраться, то я устраиваю себе проверку в формате “почему так?”
Про этот метод я слышал и от своего руководителя в ординатуре. Руководитель специализируется на “бережливом производстве (Lean Production)”, а сам метод называется "Пять почему”
Еще у меня в заметках лежит цитата Вадика Мармеладова из старого видео про ЛОТ2046
“Когда у собеседника закончится почему, вот твоё проверочное слово. Вот настолько проработан твой продукт.”
Решил расширить заметку про английский и написал статью на хабр. Еще добавил туда подборку полезных советов и ссылок, которые мне оставили в комментариях здесь и в Linkedin.
https://habr.com/ru/post/706490/
Как работают text2image модели и как получаются такие качественные изображения?
Короче, если кто-то хочет разобраться в работе text-to-image моделей (stable diffusion, dalle-2, midjourney) вот короткая подборка, в зависимости от вашего уровня знакомства c ML.
1. Простая интерактивная статья от WP. Как текст превращается в картинки и что такое диффузия? Статья подойдет всем.
2. Статья от Jay Alammar. Уже сложнее, надо понимать что такое embeddings, autoencoder, latent space, UNet. Зато подробные иллюстрации помогают понять архитектуру моделей и как происходит forward pass. А еще если вам больше нравится больше смотреть видео, чем читать статьи, там в конце список видео а-ля How does Stable Diffusion work?
3. Статья от Eugen Yan. Разбор основных идей, которые лежат в основе text-2-image. Плюс в конце есть ссылки на сами статьи, если кто-то захочет почитать сам. Вообще, Eugen Yan - крут. У него понятные разборы, которые сразу пачку статей покрывают + он автор репы https://github.com/eugeneyan/applied-ml.
Написал статью на основе заметок по собеседованиям отсюда. В качестве доп материалов добавил:
+ скрин литкода
+ фото заката с Бали
+ фото домашнего рабочего места в Москве
+ общие советы для прохождения собеседований
https://habr.com/ru/post/704128/
Как и где искать новую работу.
Собрал небольшую заметку про поиск работы (больше про зарубежные компании). Тут оговорка, что в большинстве позиций нужно, чтобы у вас было право работы на территории страны. Но есть и вакансии full-remote и с релокацией.
Во-первых, нужно актуализировать или составить CV (резюме), профиль на Linkedin и других платформах.
1. Посмотреть материалы гарварда.
2. Полистать закрепы и примеры в чате @resume_review
3. Составить резюме. Я использовал вот такой шаблон в overleaf
4. Можно закинуть CV в чат из 2 пункта для обратной связи.
Во-вторых, искать вакансии и подаваться.
1. Найти рефералов (человек из компании, который вас рекомендует) в компании через знакомых, чаты и сеть Linkedin. Самый рабочий способ, если хотите в конкретные компании.
2. Заполнить свой профиль на Linkedin. Будут прилетать вакансии от рекрутеров в личку/на почту. Откликался на вакансии через сам Linkedin, отдача маленькая, но собесы оттуда были.
3. Откликаться на вакансии в чатах. На первый этап точно попадете. Круто, что в #_jobs в слаке ods, описание вакансий сразу с вилкой зп.
4. Бот @g_jobbot. Были и предложения, и офферы, и сам откликался.
5. На hackernews каждый месяц появляется тред, где публикуют вакансии. Вот их агрегатор.
6. Есть разные ресурсы, которые матчат вас с работодателем. Вроде honeypot. Я пробовал, даже был собес. Но там были низкие вилки и мало предложений.
7. Indeed.com или angel.co Регался, даже была пара собесов оттуда.
8. Находить на crunchbase свежие стартапы, которые подняли раунд и теперь нанимают. Не пробовал такой способ, но хотел.
Еще можно подаваться напрямую в компании через сайт, но я такой способ не пробовал без рефералов.
Напишите в комменты, какие еще ресурсы вам помогали в поиске работы. Или что из этого списка cработало.
📝 Собрал пак советов по оффлайн разметке.
Больше о разметке в контексте NLP. Часть советов покажутся очевидными, но все равно упомяну. Подходит и для in-house разметки, и для outsource разметки в сервисах (толока, mturk)
1. Прежде чем составить задание на разметку, попробуйте сами разметить пару десятков примеров. Так вы поймете, насколько данные и классы корректны.
2. В самом задании добавьте по паре примеров на класс для понимания. Здорово, если добавите сложный пример и в скобках объясните логику.
3. Сначала сделайте небольшой пробный батч и скорректируйте задание если нужно.
4. Примеры, которые вы разметили сами – используйте как оценочные для разметчиков, чтобы размечали только добросовестные разметчики.
5. Используйте меру согласованности между разметчиками (например, Fleiss’ kappa). Несогласованные сэмплы - либо треш, либо спорные сэмплы, которые наоборот помогут модели лучше разделить классы.
6. Даже если ресурсов мало, разметьте хотя бы golden set, на котором оценивайте метрики и другие способы разметки (active learning, разметкой эвристиками итп.)
7. Есть такая частая проблема в текстовых классификациях, что необходимые классы в сумме составляют только 0.001% от выборки. А остальное – класс other. Чтобы не тратить впустую деньги на разметку ненужных данных, обучите модель на небольшом куске разметки, насэмплите рандома в other и разметьте моделью выборку. А потом уже отправляйте на разметку, только то что разметилось, как не other.
8. Чтобы выжать максимум из разметки, помимо обычной дедупликации, можете сделать еще дедупликацию по нечетким совпадением или по близости эмбеддингов по порогу.
9. Что делать если данных нет? Ищите открытые датасеты по своей задаче. Если датасет на другом языке - можно перевести.
10. Можно скрапить сайты и выдачу из поиска. Как-то нам нужны были примеры, где люди рассказывают о себе и своих увлечениях, я наскрапил примеров с сайта для знакомств в духе анкет в газете 2000х.
11. Если данных совсем нет, можно сделать следующее: вручную написать по паре десятков разных примеров на класс. Векторизовать их sentence encoder и поискать ближайшие по косинусу в большом корпусе.
12. Если вам нужна специализированная разметка, а разметчиков-специалистов мало, то попробуйте переформулировать задачу для более простой разметки. Пример: нам нужно было разметить часть текстовых сообщений из логов, на предмет корректности их интента (>1k классов). Некоторые интенты похожи между собой. В них разбираются только внутренние разметчики. Задачу из "прочитать описания интентов и определить нужный" мы переформировали в "kind of NLI". Даны 4 предложения (размечаемый сэмпл + 3 примера из интента) - нужно найти лишний. Если разметчики верно выделяли сэмпл, значит он скорее всего не из этого интента. Спорные примеры уже размечали специалисты.
13. Что делать, если датасет после разметки оказался грязный? Если меньшая часть примеров из классов ошибочно приписаны в другой, то вместо того, чтобы переразмечать весь датасет, то можно разделить датасет на фолды -> обучить по кругу модель и предсказать leave-one-fold -> сохранить предикты с каждого цикла обучения -> переразметить сэмплы, в которых предсказание не совпадает с лейблом.
Напишите в комменты, что бы еще добавили? 🤔
Этап собеседования Machine Learning System Design.
Этот этап попадался в 9 из 10 компаний. Задача - полностью спроектировать ML решение. От определения задачи и метрик, заканчивая деплоем и оптимизацией.
Здесь важный момент. Время собеседования ограничено. Поэтому с одной стороны важно не растекаться по дереву, с другой стороны важно покрыть все этапы решения ML задачи, а в некоторые даже погрузиться вглубь, чтобы показать что шарите.
В этом помогает четкая структура ответа:
1. Problem definition and requirement clarification. Определение задачи и оценка требований.
2. Data. Источники данных, какая разметка, как выглядит сэмпл.
3. Evaluation. Какие метрики, сравнение с бейзлайном.
4. Features and model. Препроцессинг, варианты моделей.
5. Online eval, deploy. Выкатка + АБ.
6. Further actions. Как дебажить/обновлять/улучшать/ускорять/итд модель.
Каждый из этапов более подробно разобран в репе ML design primer.
Порядок подготовки.
+ Посмотреть видео fb, яндекса, полистать гитхаб ml design primer.
+ Сделать себе пробный собес попробовать задизайнить систему из списка.
+ Почитать пару разборов из технических блогов компаний или инженеров. Например, тут или тут
+ Делать моки (mock-interview). Это когда вы созваниваетесь и устраиваете друг-другу пробный собес. Моки можно искать в этом чате.
+ Получаете фидбек с мока и идете качать слабые места, читаете еще статьи или главы из 329s.
В текущий момент я занимаюсь рекомендациями. Лента, рекомендации авторов, ранжирование. Начали с эвристик: свежее, популярное по регионам, бизнес логика для авторов. Потом пошли в ход коллаборативная фильтрация, item2vec, бустинг.
Про что думаю написать.
+ Рекомендации: feed, реклама, рекомендации авторов.
+ Скомбинировать с ML бизнес-логику: размазать трафик по авторам, популярное, подписки, бусты итп
+ Попутные задачи: автомодерация контента, авто тэгирование, анализ на ботов и спамеров.
+ Аналитика: стандартные продуктовые метрики в кликхаусе, RFM, АБ-тесты
Но в начале напишу о собесах и выложу материалы по подготовке.
Отдельный респект за reader's guide. Люблю когда авторы сразу четко пишут, что читать если нет времени или нужного бэкграунда.
Читать полностью…Сейчас будет небольшой пост про статью, которую прочитал. Но перед этим немного терминологии. Я почти три года работаю с ML в диалоговом домене, это все про чит-чат модели или болталки. Поэтому будет много постов именно про этот домен NLP. Болталки - модели, которые могут поддержать беседу, независимо от темы. Базово тут работают два подхода:
+ Retrieval - основанный на поиске. Для фразы пользователя при текущем контексте вы выбираете подходящий ответ из своей базы в 100k ответов например.
+ Generative - модель генерирует ответ слово за словом (токен за токеном), как бы дописывая ответ на фразу пользователя. Что-то типа автодополнения на телефоне.
Еще есть просто rule-based древовидные сценарии, но их мы касаться особо не будем.
Иллюстрированные конспекты на Стэнфордские cs221 - AI, cs229 - ML, cs230 - DL
Удобный формат, чтобы освежить знания базовых концептов перед собеседованиями. Для изучения с нуля — не подойдут. Еще там есть переключатель на конспекты про python и sql.
https://stanford.edu/~shervine/teaching/cs-230/