Как построить высокоэффективную Data Science-команду с нуля?
🛣 Четыре года назад был первым дата сайенстистом команды и одновременно ее руководителем.
📈 На данный момент удалось с нуля собрать в Лаборатории 20+ высокоэффективных, сплоченных, нацеленных на практический результат, не боящихся сложностей, меняющих Data Science единомышленников.
📺 В феврале на Team Lead Conf поделился своим опытом построения команд:
👉 Как связана роль дата-сайентистов в компании с развитием лидерских качеств: самоорганизуемости, самоуправляемости и нацеленности на практический результат команду?
👉 Зачем развивать бренд команды и как находить будущих звезд на рынке джунов?
👉 Почему руководителю DS-команды так необходим опыт работы руками?
👉 Зачем дата-сайентистам нужны софт-скилы и как их развивать?
🤔 Одному из слушателей даже показалось, что роль Дата сайентистов была переоценена в моем рассказе:
"Складывается ощущение что DSов надо в жопу целовать, ...".
💭А какое у вас сложилось впечатление?)
Как ChatGPT изменит Data Science?
Провели дискуссию с экспертами Альфы, Тинькофф @anatoliipotapov, Huawei @madrugado и Сбер/AIRI @lizagonch о будущем NLP после ChatGPT 🔥
📌 Какие NLP модели применяют в продакшене больших компаний, где в индустрии будут применять GPT и что не получится заменить генеративными моделями?
📌 Когда GPT заменит джунов-программистов и что изучать молодым специалистам, чтобы выдержать конкуренцию с нейросетями?
📌 В чем фундаментальная разница искусственного интеллекта и естественного? В чем естественный интеллект будет проигрывать?
📌 Research – это только 🌿 -архитектуры, или даже в исследованиях применяют регулярки? Как убеждать бизнес инвестировать в исследования?
📌 Почему современные трансформеры все еще недообучены? Где брать данные для обучения больших языковых моделей, когда весь интернет будет сгенерирован нейросетями?
📌 Куда копать участникам нашего соревнования NER на чеках ОФД? 🤫
🤔 Общественность часто считает искусственный интеллект неким сверхразумом. В этом момент почему-то все забывают, что он обучается копировать естественный интеллект, который очень далек от совершенства.
🚀 Запустили трек NLP in Practice
📚 Обучение в треке разбито на три ключевых блока: ознакомление с теоретической базой, изучение опыта построения nlp-продуктов и, наконец, закрепление на практике полученных знаний.
1️⃣ В первом блоке делается акцент на минимальном наборе хард скиллов. Все начинается с семантического анализа, без которого практически невозможно поставить корректно задачу. Далее разметке данных уделяется особое внимание, так как без нее практически невозможно обойтись сегодня в nlp. Очень часто на собеседованиях кандидаты предлагают использовать BERT во всех случаях жизни, поэтому мы не могли не покрыть вопрос выбора класса моделей и подходов для их эффективного обучения.
2️⃣ Во втором блоке вы узнаете из первых уст истории развития NLP-based продуктов Альфа-Банка: чат-бота, голосового бота, ассистента оператора, семантического анализа обратной связи клиентов, категоризации обращений клиентов на 1000+ классов и структуризации чеков ОФД. Вы услышите не только истории успеха, но и прочувствуете весь тернистый путь, который им предшествовал.
3️⃣ В заключительном части вас ждет соревнование по ML Data Science. На практике редко кто-то выбивает десятысячные доли целевой метрики, подбирая целую неделю гиперпараметры и стакая сотни моделей. В соревновании по DS, на последнем этапе каждый из участников будет выбирать уникальное множество примеров для доразметки, за счет которых сможет улучшить свое решение и обойти конкурентов. Таким образом, уникальный дизайн соревнования позволит более точно смоделировать работу дата сайентиста в индустрии.
💸 Общий призовой фонд соревнования - 800 тысяч рублей.
🅰️ По результатам квизов, 🔝 5 участников трека получат мерч Альфа-Банка.
💬 Вступайте в чат трека и соревнования, чтобы не пропустить важные новости.
P.S. уже начали использовать материалы трека для онбординга новых членов NLP-команды.
Мини-интервью с номинантом Forbes top 30 under 30
linkedin
Десять интересных фактов про героя этого поста:
🤝 Работали с Андреем вместе в Тинькофф, когда Data Science еще только начинал развиваться в финтехе.
🙀 Поставил распознавание речи в Тинькофф на промышленные рельсы еще в 2017-м.
📈 Запустил Защитника Олега, который защищает вас от спама и жуликов.
📺 Сыграл себя в фильме про историю Тинькофф.
🚀 Прошел путь Junior -> Team Lead всего за два года.
😤 Номинировался в рейтинг Forbes в фоновом режиме.
🇬🇧 Получил Global Talent без посредников.
😲 Сидел без работы пять месяцев.
🔜 Готовит новый дизрапт рынка в области венчурных инвестиций.
🧑💻 Активно нанимает и сейчас ищет к себе крутого DE.
💬 Задавайте в комментариях вопросы Андрею про Forbes, дизрапт продукты, венчурные инвестиции и как попасть в его команду.
💪 Голосуйте за Андрея, чтобы он оказался в списке победителей рейтинга Forbes.
Отожмут ли вашу работу ChatGPT и другие нейронные сети?
🚀 ChatGPT стал синонимом нейросетей для тех, кто незнаком с анализом данных. Ходят слухи, что с помощью этой модели можно решать задачи любого домена уже сейчас. Некоторые кандидаты уже даже записывают ChatGPT в качестве языка программирования в свою резюме.
🤔 Кого смогут оптимизировать нейронные сети? Скоро ли вас поработит искусственный интеллект?
Всерьез не задумывалась об этих вопросах до панельной дискусии на прошлой неделе, посвященной дню карьеры в ВШЭ. Сегодня поделюсь основными соображениями по этой теме.
🔌 Начнем с более хайпового вопроса. Если кратко, то вспомните закон сохранения энергии из школьного курса физики и расслабьтесь. Пока нейронные сети потребляют столько энергии на этапе обучения и инференса, можно спать спокойно. Однако люди учатся гораздо медленнее несмотря на то, что более эффективно используют энергию.
👨🏫 На данный момент вкладывается огромное количество человеческого капитала и вычислительных мощностей для обучения нейронных сетей, а не человека. Думаю, модели смогут оптимизировать всех кроме высококвалифицированных специалистов. Ведь "искусственный интеллект" лишь умеет очень хорошо повторять за своим учителем-человеком. Получается, в современном мире необходимо непрерывно учиться, иначе нейронные сети кто-то научит работать лучше вас.
👷 Нейронные сети нужно не только обучать, но еще и адаптировать под нужды бизнеса. К сожалению, сейчас не так много специалистов и компаний, которые умеют эффективно монетизировать данные и строить классные ml-продукты. Команды, которые умеют подчинять ml под нужды бизнеса, останутся актуальны до порабощения их скайнетом.
💬 Когда ожидаете, что SkyNet постучится в вашу дверь?)
🧑🎓 Довольно просто объяснить студентам как работает анализ данных, ведь они уже сдали экзамены по статистике, матану и проге. Особенно продвинутым анализ данных может показаться даже недонаукой.
💸 В разговоре с бизнесом уже гораздо тщательнее приходится подбирать слова и аналогии чтобы убеждать в потенциальной пользе Data Science. К счастью, у большинства из них есть мотивация оптимизировать свои процессы, зашитая в KPI.
👩👦 Но как рассказать подробно про анализ данных маме? Как рассказать об этом тем, кто не обладает нужным техническим бэкграундом или его мотивация разобраться не зашита в KPI?
👎 Сказать, что вы айтишник - удел слабых.
💪 Выпустить статью на РБК - удел мудрых.
💪💪💪 Сняться в кринжовом сериале Data Sapiens - удел отважных.
В этом раз выбран путь мудрых. Читайте в РБК "Скоринг за секунды: как нейросети изменили выдачу кредитов".
💬 Как вы рассказываете маме про вашу работу?
Рекомендую бесплатную Школу Аналитиков
💩 Платные курсы по анализу данных для масс-маркета редко отбивают деньги вкладчиков в светлое будущее из-за отсутствия входного тестирования и низкого качества преподавателей.
🔝 Бесплатные программы со специалистами в своей области являются большой редкостью. В следствии чего, при первой коммуникации не сразу поверил одному из сооснователей "School of Analytics" и навалил кучу неудобных вопросов. Однако после ответов на них, готов ее вам порекомендовать.
👨🏫 Кто преподает?
Опытные специалисты в предметной области: Senior Data Analyst, Head of BI Analytics, Head of Product Analytics.
🧑💻 Как попасть?
Пройти серьезный отбор среди 10 человек на место. Необходимо быть недавним выпускником ВУЗа. Уже отобрали 49 студентов на первый поток в марте.
📅 Когда следующий набор?
Стартует в августе, начнут читать годовой курс в сентябре.
📅 Когда проходят занятия?
По субботам три пары с 15:30 до 21:00.
💳 Сколько это стоит?
Бесплатно. Более того, у преподавателей нет денежной мотивации, но есть цель расширить свою команду за счет сильных выпускников.
Программа курса, этапы отбора, состав преподавателей и многое другое.
🗣 В Школе Аналитиков активно знакомят студентов с работой в индустрии и нюансами построения карьеры.
Завтра пообщаюсь со студентами на следующие темы:
⁃ работа в Альфа-Банке, задачах руководителя лаборатории и карьерном пути;
⁃ как ускорить карьерный путь:
⁃ ситуация на рынке труда в DS;
⁃ премии Forbes 30 до 30;
⁃ организация и участие в соревнованиях по Data Science;
Запись интервью.
Команда "Лаборатория" заняла 1 первое место в задаче «Защита» на Data Fusion.
Соревнование проходило в новом формате:
1️⃣ отбираются топ-10 команд по задачам Атаки и Защиты против решений организаторов
2️⃣ лучшие решения сражаются против друг друга
В задаче можно было подменять только в 3% транзакций категорию трат и ее размер.
🚀 В задаче атаки команде удавалось пробивать исходное решения на 41 п. п. ROC AUC.
💪 Самая успешная атака смогла ухудшить решения Лаборатории всего на 2 п.п. ROC AUC.
📈 Улучшили нейронку организаторов на 5 п.п. ROC AUC практически без данных.
Подключайтесь завтра на конференцию в 16:50 (2 стрим) и узнаете:
- Как повысить робастность ваших моделей
- Как обучать нейронками бустинги
- Как архитектурно улучшать модели, если практически нет данных
P.S. каждый победитель получит премию от 🅰️
✅ Обширный опыт успешной монетизации данных
➕ Оптимальная постановка задачи. Успех ml-проекта зависит от глубины понимания оптимизируемого бизнес-процесса, качества и доступности данных, способа интеграции решения, скиллов команды и готовности инфраструктуры. Успешный опыт монетизации данных, позволяет оценить все эти факторы и поставить задачу на старте таким образом, чтобы в минимально возможные сроки можно было получить максимум пользы для компании. Богатый доменный опыт позволяет сразу использовать лучшую практику с учетом специфики бизнеса компании. Хорошим показателем является доведение до бизнес-применения 90+% разрабатываемых моделей в команде.
➕ Продажа и отмена ml-проектов. В силу относительной молодости области анализа данных руководители непрофильных команд редко понимают, как правильно ставить задачи, что машинное обучение может и, главное, как применять его для улучшения своих процессов. Задача руководителя команды - помочь своим коллегам из смежных команд в этом непростом пути поиска точек применения машинного обучения, а также в грамотном объяснении случаев, где оно вовсе не требуется.
🤔 Если вы подаетесь на позицию DS Team Lead, то тщательно изучайте опыт вашего руководителя.
С ростом грейда руководителя должен расти опыт успешной монетизации данных. Тем не менее хардовой опыт является обязательным, ведь рыба гниет с головы.
💬 Верю, что можно прийти на позицию DS Team Lead, будучи синьором и на месте прокачать софт скиллы и набраться опыта со старшим руководителем в монетизации данных. Однако в обратное не верю, а вы?
Как лидерам и эффективными менеджерами ужиться в одной компании?
📊 По результатам опроса в канале и linkedin, большинство(~80%) ответивших предпочитают работать под руководством лидера. Более того, опрошенные предпочитают работать в компаниях, где лидеров больше, чем эффективных менеджеров.
Всегда ли нужны лидеры вашей команде?
👉 Вам точно нужен лидер если вы создаете что-то новое или меняете старые парадигмы в компании. Лидер, в отличии от фантазера, не только генерирует вижн, но и отвечает за конечный результат.
👉 Вам точно нужен лидер, если область его компетенций не является core-бизнесом компании, но необходима бизнесу для развития.
👉 Вам точно нужен хотя бы один лидер чтобы иметь альтернативную точку зрения и не погрязнуть в рутинных процессах, пока другие компании меняют рынок.
👉 Часто лидер эффективно менторит команду и растит лидеров внутри, но не всегда)
Эффективные менеджеры точно не нужны?
👉 В свою очередь, эффективные менеджеры точно нужны для управления уже состоявшимися процессами и командами или их шаблонного построения.
👉 В случаях, когда предстоит выполнять не самую интересную, но важную работу без эффективного менеджера команда не справится, а компания забуксует.
👉 Необходимость эффективных менеджеров возрастает, если требуется жестко контролировать результат работы команды.
Есть ли противоречия или конфликт между этими ролями?
🤔 Роли тесно связаны между собой - лидеры выступают локомотивом для создания будущих процессов, пока эффективные менеджеры поддерживают устоявшиеся. Далее, часть новых процессов становится эффективной рутиной, которые передаются эффективным менеджерам и так далее. Правильный баланс между этим роля в компании позволяет не упустить новые возможности и не расшатать фундамент в погоне за ними.
🤝 Избежать конфликтов помогает взаимное уважение сильных сторон каждого и правильное распределение задач, согласно уровню компетенций и реального опыта, а не только грейда.
Как в Лаборатории?
📈 На данном этапе мы отдаем предпочтение лидерам, так как мы меняем парадигмы Data Science в компании. Мы делаем огромный фокус на ответственность чтобы бизнес нам доверял, а мы помогали ему становиться более технологичным.
💬 Результаты опросов в комментариях. 👇
Алгоритм получения 300k/сек для студентов
💸 Хотите заработать 300k/сек не отходя от ВУЗа и не кричать "свободная касса"?
🎓 Учитесь на 3-4 курсе в ВУЗе?
👇 Действуйте по алгоритму ниже, если ответили "да" на оба вопроса.
✈️ Перешлите пост знакомым студентам в противном случае.
1️⃣ Открываете страницу стипендии Альфа-Шанс.
2️⃣ Заполняете заявку на грант.
3️⃣ Отправьте заявку меньше, чем за 1 секунду.
🗣 В прошлом году очень активно лично рассказывали об этой стипендии на всех днях карьеры.
ИМХО, сейчас не очень высокая конкуренция и большой шанс ее получить.
📈 Кстати, в начале моей учебы на Физтехе, стандартная(без троек) стипендия составляла 2.5k, а повышенная(одни пятерки) 3к. К счастью, за 6 лет обучения, она выросла в два раза.
🤑 Существовали и другие стипендии. "Абрамовка" - доставалась небольшому числу топ-студентов по среднему баллу на каждом факультете и составляла 8к. ПГАС - стипендия за научные или спортивные достижения размером порядка 15к.
👆 Эта стипендия больше всех вышеперечисленных!
Всегда учился без троек, один раз даже получил повышенную + Абрамовку.
💬 Как часто вы пересекались со стипендией во время учебы?
Эффективный алгоритм найма дата сайентистов
😲 Существует очень простой и интуитивный алгоритм найма, по которому набираю себе команду уже почти 5 лет. Хочу поделиться с вами этими пятью шагами.
1️⃣ Составляешь описание вакансии самостоятельно. Описываешь подробно требования к кандидату и что ему предстоит делать. Таким образом экономишь свое время и относишься с уважением к времени соискателей.
2️⃣ Публикуешь вакансию в ODS, linkedin, Нескучный Data Science Jobs. Отвечаешь на все вопросы сообщества по теме вакансии.
3️⃣ Выбираешь кандидатов для телефонного звонка. Подчеркиваешь ценность позиции личным звонком.
4️⃣ Проводишь одно часовое собеседование. Спрашиваешь только то, что пригодится на работе.
5️⃣ Передаешь кандидата на оформление в отдел кадров. Заводишь заявку на доступы для ускорения онбординга.
🤔 Кому-то покажется, что я "капитаню". Однако, по моим наблюдениям, не все нанимающие менеджеры знают об этом алгоритме и продолжают искать на hh.ru. Более того, некоторые DSы до сих пор не знают, что эффективнее всего искать работу в ODS.
💬 Какой алгоритм найма используете вы? Какой опыт трудоустройства вам больше всего запомнился?
🆕 Запускаю канал Нескучный Data Science Jobs
🙋 Ищите классную позицию, но не хотите искать ответы на десять важных вопросов и осваивать роль Data Science Detective?
🙂 Ищите к себе в команду классных Data Scientists не только с сильными hard skills, но и заинтересованных работать именно в вашей команде? Готовы быть открытыми и ответить на десять важных вопросов?
➡️ Подписывайтесь на канал Нескучный Data Science Jobs чтобы сократить время на матчинг.
🎁 В канале будут публиковаться открытые позиции в Лабораторию, а также вы сможете опубликовать ваши вакансии, ответив в описании на 10 важных вопросов.
⭐️ В канале вас уже ждет одна вакансия подходящая тем, кто хочет осмысленно подходить к решению задач бизнеса, а не тупо подбирать гиперпараметры моделей.
Масштаб проектов Junior NLP DS в Лаборатории
📝 Про развитие чат-бота в Альфе вышла статья, где техническая часть с моих слов адаптирована под широкую аудиторию.
💪 Перечислю наши ключевые достижения:
- Разработали и внедрили свое решение, включающее порядка десятка моделей для различных направлений бизнеса. В течении этого года менялась инфраструктура для исполнения моделей, поэтому работу пришлось дублировать и быть первопроходцами на новой инфраструктуре.
- Показали лучшее качество по результатам а/б-теста по сравнению со внешним решением.
- Построили совместно с бизнесом с нуля процесс разметки данных, предварительно убедив банк в его необходимости.
🤔 К сожалению, без взятия дополнительной ответственности не обошлось. При обслуживании большого количества клиентов, для банка крайне важна стабильность решения. Сейчас мы дублируем инфраструктуру и выстроили несколько линий поддержки решения. Однако, в момент тестирования и перехода со внешнего решения на внутреннее этого ничего не было. Дата сайентист вместе с выделенным MLOPs на протяжении трех месяцев аккумулировали на себе задачи команды сопровождения. Благодаря нашей бизнес-ориентированности, мы становимся первым выбором для внутреннего заказчика в задачах обработки естественного языка.
👶 Как вы могли догадаться, всю техническую часть затащил всего один Junior DS. Впереди нас еще ждет огромный пласт работ, после выполнения которого, нам действительно будет не за что краснеть.
🗣 В этом году мы будем часто рассказывать про результаты работы nlp-направления: чат-боты, голосовые роботы, помощники операторам, работа с обратной связью клиентов и артефактами коммуникации с ними.
👋 Более того, мы будем масштабироваться и искать будущих лидеров в нашу команду.
💬 Набросьте нам в комментариях, что бы вы улучшили в нашем чат-боте.
Итоги 2022 года
🅰️ Что мы сделали значимого для Альфы?
⁃ Доработали нейронные сети - они стали классом моделей №1 в кредитном скоринге для клиентов Альфы.
⁃ Разработали внутреннюю модель чат-бота - обслуживаем ей 40% обращений клиентов.
⁃ Задеплоили в продашн 18 моделей и 1 сервис.
🗣 Что мы сделали для сообщества Data Science?
⁃ Разработали образовательный трек DL in Finance.
⁃ Провели 2 соревнования по анализу данных.
⁃ Выступили 21 раз на митапах, конференциях и образовательных программах.
⁃ Опубликовали 7 статей на хабр и 1 статью в печатном журнале.
⁃ Запустили магистратуру в МФТИ и стали менторами.
🏅 Как отметили наш вклад?
⁃ Data Fest 3.0 Top-1 трек по количеству участников.
⁃ Три призовых места в соревнованиях по анализу данных.
⁃ Первое место во внутреннем конкурсе проектов Alfa Award в категории сверхэффективность.
⁃ Статус номинанта в Forbes top 30 under 30.
📝 Какие результаты тг-канала "Нескучный Data Science" за этот год?
⁃ 4300+ подписчиков.
⁃ 350к суммарное количество просмотров.
⁃ 68 постов.
⁃ 2400+ реакций.
⁃ ~1700 пересылок постов.
⁃ ~500 комментариев.
🙏 Спасибо всем, кто был со мной на протяжении этого года и тем, кто присоединился недавно. Огромное спасибо за ваши реакции, пересылки постов и комментарии. Буду стараться и в следующем году радовать вас полезным контентом и личным опытом. Помните, то, что не пережил, не станет стихами.
💪 Следующий год будет полон новых вызовов и как следствие новых побед. Мы точно справимся, ведь каждый член команды обладает сильными техническими навыками, лидерскими качествами, огромной целеустремленностью и достаточной энергией чтобы преодолеть любые препятствия. Более того, работа в слаженной команде, преследующий общие цели не даст оступиться на пути к цели.
🙏 Благодарен каждому члену команды Лаборатории за то, что работает со мной в одной команде. Знаете, они могли попасть практически в любую команду, но выбрали именно Лабораторию.
По традиции, желаю всем в новом году работать в команде единомышленников, где ваша работа будет восприниматься вами в качестве хобби. 🎉🎉🎉
P.S. Next stations are Abu-Dhabi, Dubai.
🧑🎓 Большая часть команды Лаборатории на данный момент продолжает обучение в ВУЗе.
🚀 Мы активно нанимаем стажеров и выращиваем из них топ-специалистов по Data Science. Короче говоря, мы накопили существенный опыт по работе со студентами.
🎙 С удовольствием принял участие в подкасте дожить до 18+ и поделился этим опытом с авторами подскаста и их аудиторией.
🎧 Нашу ламповую дискуссию можно послушать на всех популярных подкаст-платформах.
Соревнование по структуризации чеков ОФД
👨💻 Длинные выходные - отличная возможность вкатиться в соревнование по Data Science.
📈 Соревнование поможет вам закрепить навыки по построению NER + NEL-моделей.
💪 Уникальный формат позволит на последнем этапе сконцентрироваться на выборе примеров для доразметки, а не выбивании десятысячных долей метрики.
🤔 Не знаете с чего начать?
🚀 Запустите бейзлайн и засабмитьте результат на лидерборд.
💸 Далее, призовой фонд в 800к рублей и чувство товарищеского локтя 🫂 помогут сделать следующие сабмиты.
🤔 Недостаточно материалов?
📺 Посмотрите видео из трека NLP in practice: выбор класса моделей в NLP, опыт структуризации чеков ОФД в 🅰️, запуск этого соревнования, применение чеков в кредитном скоринге.
📑 Почитайте cтатьи на хабре по теме: классификация чеков ОФД, применение чеков в задачах банка.
🔜 Приходите на следующей неделе на разбор бейзлайна. Вступайте в чат соревнования чтобы не пропустить анонс.
🚨 Обратите внимание!
👉 Соревнование проходит в три этапа.
👉 Каждый этап является отборочных для последующего.
👉 В результате, вписаться в соревнование получится только до конца первого этапа в июне.
🎁 Датасет из соревнования можно переиспользовать для защиты дипломных и курсовых работ.
P.S. пишите в ЛС, если вы преподаете анализ данных и желаете использовать датасет для учебных целей ваших студентов.
🚀 Сейчас активно готовим материалы к Data Fest. Будем рады вас видеть на офлайн дне, 2 июня.
😮 В этот день мы запустим новый образовательный трек NLP in Practice: 10 видео, 10 квизов, соревнование по ML Data Science.
🔄 Обновим трек DL in Finance тремя новыми видео, из которых вы узнаете на сколько мы продвинулись в монетизации нейронных сетей за прошлый год.
👉 Регистрируйтесь на офлайн часть, чтобы понетворкать с авторами треков и узнать интересующие вас детали из первых уст.
😩 Сейчас мы шлифуем датасет для соревы, поэтому не такие довольные, как на фото(
🔜 Ожидайте подробный анонс трека 2 июня.
LEVEL UP в Лаборатории
💪 Как вы знаете, в прошлом году Лаборатория внесла существенный вклад в улучшение бизнес-процессов Альфа-Банка.
Результаты работы команды трансформировались в ее карьерный рост:
📈 Стажер -> Junior x2 (март 2023)
👉 Адаптировали нейронки под кредитный скоринг для еще одной бизнес линии.
👉 Разработали более эффективный способ объединения нескольких нейронных сетей.
📈 Junior -> Middle x6 (май 2023)
👉 Внедрили нейронки в онлайн процесс кредитования, увеличили покрытие core-бизнес задач с и адаптировали их под новые источники данных.
👉 Освободили операторов от рутины в категоризации обращений на 1000+ классов.
👉 Внедрили внутреннее решения для чат-бота и voice-бота.
📈 Team Lead -> Team Lead+ (май 2023) [Команда монетизации нейронных сетей]
👉 Вырастили команду, защитили рост численности и стали лидерами по количеству внедренных моделей.
😱 Ожидайте интервью про карьерный рост от стажера до тим лида большой команды.
📈 Мы не останавливаемся на достигнутом, и продолжаем активный рост.
😱 Сейчас открыты 8 новых позиций в Лабораторию:
- 1 NLP Team Lead+
- 5 NLP DS
- 2 стажера (один из наставников kaggle master)
🔜 Мы уже готовим материалы к треку NLP in Practice, обновления трека DL in Finance, парочку статей на хабр и интервью.
🔜 Ожидайте анонсы в конце мая.
Как научить нейронку решать задачу лучше специалиста?
Рассмотрим процесс, в котором решение принимает специалист в предметной области. Например, это может быть врач, ставящий диагноз по ЭКГ или флюорограмме, оператор колл-центра, обслуживающий клиентов, или даже дата сайентист, обучающий модели.
🤔 Как разработать модели, которые будут работать лучше этих специалистов?
👉 Пойдем по стандартному алгоритму работы DSа:
1. Начнем с глубокого интервью со специалистом, где выясним на основании каких данных и какие он принимает решения.
2. Переведем задачу в термины машинного обучения.
3. Соберем данные, необходимые для принятия решения, и целевую переменную.
4. Замеряем качество работы специалиста при помощи кросс-разметки.
Отлично, задачу поставили, данные собрали, качество замеряли.
👉 Минуточку, модели машинного обучения - это не искусственный интеллект, они всего лишь учатся восстанавливать параметрическую зависимость между данными и целевой переменной и делают это с погрешностью.
😓 Получается, модель всегда будет работать хуже человека за счет наличия погрешности?
Действительно модели будут в среднем работать хуже специалиста, но есть выход:
1. Обучаться на примерах, в которых согласованы несколько специалистов.
2. Использовать в обучении примеры лучших специалистов/экспертов.
📈 Комбинация из этих подходов позволит работать лучше, чем плохой специалист и средний специалист. Лучших специалистов получится превзойти, если обучаться на разметке комитета лучших специалистов и запрещать им объединяться на практике)
🤔 Не стоит забывать про еще один тип погрешности, связанный с неточностью постановки задачи. Например, в случаях классификации на 1000+ классов авторы каталога классов могут заложить в него заведомо неразделимые для экспертов классы.
👉 В итоге, точность работы в модели в бизнес-процессе ограничивается комбинаций модельной ошибки, погрешностью в разметке и погрешностью в постановке задачи.
💬 Как бы вы поставили задачу по оптимизации работы дата сайентистов?)
Освобождаем операторов колл-центра от рутины
📺 Сейчас начинается митап от X5 Tech.
🙀 @andrew_son расскажет про задачу, которую мы научились решать лучше человека.
🕖 Выступление Андрея в 19:00.
📡 Подключайтесь к трансляции и вы узнаете:
⁃ Зачем Альфа-Банку нужен классификатор на 1000+ классов.
⁃ Как построить процесс разметки данных с нуля, а главное как убедить бизнес в необходимости этого процесса.
⁃ Какую архитектуру нейронной сети мы использовали.
⁃ Как решение работает в продакшне.
⁃ В каких случаях нейронки могут решать задачу лучше человека.
💬 Задавайте вопросы Андрею в чате трансляции для ответа в режиме онлайн или в комментариях, если не успеваете и будете смотреть в записи.
Революция в кредитном скоринге full video
🧠 ChatGPT уже изучила курс DL in Finance и понимает, как провести революцию в кредитном скоринге.
📺 Посмотрите ролик для внутреннего конкурса проектов и узнаете, насколько наши с ней взгляды совпадают.
🤔 Сейчас нейронки уже стабильно улучшают core-бизнес процессы компании на протяжении почти трех лет. Самое время рассказать, что было на старте проекта, с какими сложностями мы столкнулись и как их преодолели:
💪 Не было понимания зачем нужны нейронные сети - показали их эффективность в core-бизнес направлениях.
🔍 Не было инфраструктуры для применения моделей - нашли ресурсы внутри компании без дополнительной закупки.
🦾 Не было места в очереди на получение доступов в ближайшие три месяца - научились открывать двери без специального доступа по пропуску.
📨 Не было интеграции с кредитным конвеером - передавали файлики по почте на протяжении полутора лет.
🧑💻 На этот раз у нас не было бюджета на оператора и актерские курсы - сделали все сами.
🔜 В ближайшее время выпустим статью про нейронку для объединения всех нейронок (транзакции x2, бки, другое), оставайтесь на связи.
Команда освоила новую профессию, ставьте 🔥если вам понравилось видео.
P.S. знаю, что у второго актера начинает появляться фан-база.
💬 В каком формате вы показываете бизнесу ценность Data Science?)
😮💨 Отсмотрел порядка 200 резюме на позицию DS NLP в Лабораторию, сегодня поделюсь обратной связью по формату подачи, оформлению резюме и ссылкой на более подробный разбор по теме составления резюме.
🤔 Хотите попасть на собеседование? Мыслите, как собеседующий еще на этапе отклика на вакансию. Главная цель нанимающего менеджера - найти лучшего кандидата за минимальное количество собеседований. Не стоит ожидать максимально честный экзамен для всех желающих, в виду его конечного временного ресурса.
Воронка приглашений на собеседование начинается с этапа получения резюме.
Топ ошибок по формату текущей подачи:
🤦♂️ Ссылка на резюме на HH.ru, которая не открывается даже после авторизации.
😐 Ссылка на резюме на yandex/google-диск или сайт-резюме. Не на всех рабочих компьютерах открываются внешние ссылки. Каждый дополнительный клик может снизить конверсию в отклик. Открывать сайт, который доступен только через vpn не каждый рекрутер будет.
🤔 Стандартное название вместо “ NameSurname.pdf”: "резюме.pdf", "cv.pdf", "ds.pdf". Его не только неудобно искать, но и можно случайно затереть другим кандидатом.
⚠️ Лучше не подавать резюме в pdf-формате hh.ru или word-файлом.
По той же причине, по которой лучше не делать большой фокус на курсы на Я.Практикум/GeekBrains - низкая конверсию в успех отпугивает собеседующего. Обычно с hh.ru приходят резюме тех, кто еще не успел интегрироваться в DS-сообщество или не научился техать резюме (нередко коррелирует с опытом программирования).
🧑💻 На что обращает внимание нанимающий менеджер?
Хотите повысить шанс попасть на собеседование - сделайте акцент на том, что указано в вакансии. Напишите свои сильные стороны относительно конкретной позиции в начале резюме. Не расписывайте подробно нерелевантный опыт в своем резюме.
🤔 Нет времени мастерить резюме под каждый отклик?
Укажите в тексте письма кратко ваши сильные стороны для этой позиции. Будет лучше, сочинения на тему вашей высокой мотивации найти работу.
Другие советы по составлению резюме читайте в канале @start_ds.
Как найти хорошего DS Team Lead?
При найме на руководящую позицию нередко делают основной акцент на софт скиллы. В некоторых случаях и вовсе ими ограничиваются. Однако на одних софт скиллах далеко не уедешь, ведь приходится отвечать за результаты всей команды.
🤔 Какая может быть природа таких заблуждений? Одним может показаться, что хардовая часть вовсе не зависит от тим лида, ведь он сам практически не пишет код. Другим причудиться, что успешность проектов зависит только от трудолюбия и скиллов команды и, конечно же от навыка руководителя правильно коммуницировать внутри и вовне, а также правильно презентовать результаты. В результате этих суждений, методом исключений хард скиллов, как раз остаются только софт скиллы.
Кто-то приходит к мысли, что хорошим DS Team Lead может стать любой менеджер. Тем не менее, хороших Тим Лидов, которых я встречал в индустрии, объединяют следующие факторы: они все в прошлом Senior DS и имеют опыт успешной монетизации данных. Далее, подробно расскажу, почему это так важно.
✅ Бывший Senior Data Scientist
➕ Качественный найм. Вспомним еще раз, что код пишет не тим лид, а его команда. Тем не менее существует небольшая проблема - нужно нанять эту команду. Более того, любой руководитель должен стараться нанимать людей скилловее себя. Как распознать эти скиллы, если у тебя нет базы? Например, сейчас все пишут про BERT на позицию в NLP, но как среди них отобрать тех, кто шарит, если никогда сам его не обучал? Никак, все кандидаты для тебя будут одинаковые. Когда харды неразличимы, то решение будет приниматься на основании софтов. Выход, кажется, есть - переадресовать синьору техническую часть собеседования. А кто наймет синьора?)
➕ Принятие несложных технических решений самостоятельно. Отсутствие технической экспертизы у руководителя нередко тормозит процесс принятия решений или, что хуже, даже приводит к неправильным решениям. Вы наверно слышали о встречах в составе 10 менеджеров вертикали и двух разработчиков. Теперь вы знаете первопричину. В некоторых компаниях дата сайентистами могут управлять даже проджект менеджеры. Знаете, это обычно печальное зрелище, так как на любой технический вопрос другого Тим Лида, требуется консультация команды, которую нужно закинуть в следующий двухнедельный спринт(
➕ Развитие команды. А тут зачем база? Безусловно, существуют курсы по закрытию теоретических пробелов, можно учиться у более опытных коллег в команде, код ревью адресовать синьорам. Тем не менее, как выявить западающие компетенции и начать их развивать у конкретного члена команды?
➕ Минимизация микроменеджмента и бюрократии. Представьте, что вы не вдупляете, чем занимается ваша команда, но отвечаете за результат. Какие ваши действия? Правильно, вы попытаетесь проконтролировать все этапы работы команды. Чем больше вы не в теме, тем больше микроменеджмента и бюрократии стоит от вас ожидать. Если вы в теме, то по косвенным признакам, подобно опытному преподу на экзамене, вы сразу выявите студента, который не выучил материал, что вам позволит не мешать работать остальной части команды.
➕ Признание от сильной команды. Не разбираясь в базе, будет сложно выстраивать коммуникацию с командой. Будет невозможно понять, о чем они там говорят на встречах. В конфликтных ситуациях по техническим вопросам, будет сложно быстро понять кто прав, а кто нет. Наконец, будет тяжело оценить по достоинству инициативы, с которыми будут приходить заряженные члены команды. В итоге, часть решений будет принята неправильно, коммуникация будет скорее формальная, а вовлеченность команды и признание руководителя пониженными.
Лидер vs эффективный менеджер
🔎 Уже в следующем месяце буду искать в Лабораторию Team Lead DS в NLP. Существует два класса руководителей: эффективный менеджер и лидер. 🤔 Как их отличить между собой?
✍️ Выделил для себя два ключевых маркера:
👉 Если ты внутри команды, то отчет по срокам задач будет единственным форматом коммуникации, интересующим эффективного менеджера. Лидер же будет приходить часто к тебе с новыми идеями, пытаясь тебя и команду максимально вовлекать в процесс брейншторма и совместного планирования реализации амбициозных задач.
👉 Группа лидеров команд обычно фокусируется на том, как совместными силами их команд сделать классный продукт, совершить бизнес-прорыв или поменять устоявшийся неоптимальный порядок вещей для клиентов компании или ее сотрудников.
Если этих маркеров недостаточно, то держите 12 точечных отличий из сети.
⚠️ Осторожно высокопарный слог!
1. Руководитель управляет, лидер изменяет и совершенствует.
2. Руководитель — это копия, лидер — это оригинал.
3. Руководитель поддерживает, лидер развивается.
4. Руководитель фокусируется на системах и структуре, лидер фокусируется на людях.
5. Руководитель полагается на контроль, лидер внушает доверие.
6. Замысел руководителя краткосрочный, у лидера далекие перспективы.
7. Руководитель спрашивает, каким образом и когда, лидер спрашивает, что и почему.
8. Руководитель смотрит на нижнюю строчку с «Итого», лидер поднимает глаза на горизонт.
9. Руководитель подражает, лидер создает.
10. Руководитель принимает текущее положение дел, лидер бросает ему вызов.
11. Руководитель — классический бравый солдат, лидер — это только он сам.
12. Руководитель делает все правильно, лидер делает правильные вещи.
На конференции TL Conf зал ответил единогласно.
💬 Вы бы предпочли работать с эффективным менеджером или лидером?
💬 Какое оптимальное соотношение лидеров и эффективных менеджеров в компании?
Опросы вас ждут в комментариях к посту.👇
🔜 В следующий раз расскажу на что обращаю внимание при поиске Тим Лидов.
Проактивный алгоритм найма
Алгоритм гораздо проще предыдущего, ведь состоит из одного пункта. 🎉
⚠️ Будьте готовы, что вам не только ответят отказом, но и вовсе проигнорируют.
Готовы? Открывайте! 👇
1️⃣ Напишите самостоятельно заинтересовавшему вас специалисту в личку на LinkedIn.
💁♂️ Подсказка: Обратите особое внимание на иконку "open to work".
➕ Большой плюс этой социальной сети - вы видите сразу резюме и ваше видят тоже.
🤔 Скорее всего, я не первый его придумал - очень часто по этому алгоритму пытаются схантить меня.
🤔 Уверен, это один из лучших форматов для закрытия Team Lead.+ позиций.
😅 В тот день открытых дверей на Физтехе мы с Демидом проявили проактивность и раздали больше сотни стикер-паков.
🤣 Не зарегистрировались в LinkedIn - ошибка, не добавились в друзья - фатальная ошибка.
Как стать Kaggle competition master?
🤔 Хотите стать Kaggle Master, но не знаете с чего начать?
Начните со статьи @oasidorshin, который уже успешно прошел этот путь.
⏳ Потратьте 14 минут вашего драгоценного времени, и вы узнаете:
⁃ Зачем нужно участвовать в соревнованиях, особенно если ищите работу в индустрии?
⁃ Сколько времени занял путь автора до заветного титула?
⁃ Как правильно валидироваться и подняться на 400+ мест на private leaderboard?
⁃ Как побеждать в соревнование без серьезных инвестиций в железо?
⁃ Какие методы ансамблирования заходят?
🧐 Не хотите становиться Kaggle Master?
Все равно прочтите статью и узнаете:
⁃ Как анализ данных помогает питомникам животных найти хозяев?
⁃ Какой пайплайн зашел в задаче регрессии на данных изображений?
⁃ Как трансформеры можно использовать в задачах компьютерного зрения?
🎯 Мы стараемся привлекать первоклассных игроков в Лабораторию, ведь они так любят работать вместе с другими первоклассными игроками.
🙏 Очень рады, что автор статьи из всех вариантов выбрал стажировку именно у нас. Как вы могли догадаться, он станет постоянным членом нашей команды в ближайшее время.
💬 Задавайте ваши вопросы автору статьи в комментариях и плюсуйте его достижение 💪 на habr.
Десять важных вопросов перед трудоустройством в Data Science
Собеседование в компании, где будет вам честью поработать бесплатно, может отнимать до пяти часов вашего времени. Вас попросят порешать гномиков и другие задачи во время интервью, а после него вы скорее всего будете заниматься менее интеллектуальным трудом и ботать гномиков к следующему собесу, посматривая в сторону леса вакансий.
Как определить будет ли ваша работа нескучным Data Science? Очень просто, нужно всего лишь очень подробно опросить своего будущего работодателя и поискать о нем информацию в сети. Никогда на это не жалейте времени, например, в последний раз лично потратил на это мероприятие четыре месяца.
Подготовил для вас десять важных вопросов, ответы на которые обязательно нужно знать до трудоустройства на новое место работы. Простым перечислением статья не ограничивается — подробно аргументирую, почему считаю ответ на каждый из вопросов обязательным до принятия решения. Не остался в стороне и рассказал, как обстоят дела в Лаборатории.
💬 А какие вопросы вы задаете работодателю перед трудоустройством?
🙏 Прочитав статью, вы надеюсь поймете, что для автора значит "Нескучный Data Science" и, наконец, почему этот канал называется именно так. Однако, не переживайте, в одном из будущих юбилейных постов дам более явное объяснение.
Если вы в поиске места работа, то желаю вам найти свой "Нескучный Data Science Jobs". Если вы в поисках команды, то приложите все усилия, чтобы создать его.
Как стать Head of Data Science?
🤦♂️Ребят, вы че издеваетесь? Я понимаю, что вам хочется просто расслабиться и наслаждаться жизнью. И не думать о курсах по анализу данных, пользе DS для бизнеса, kaggle, резюме и собеседованиях.
🙅 Я понимаю, что вы уже не верите курсам от популярных блоггеров за 100k+ рубасов, как и они сами. Эти курсы нужно проходить больше месяца, а вам нужно в DS еще вчера.
🙏 Сегодня мне захотелось, чтобы через мой продукт смог пройти каждый. Чтобы у каждого была возможность обучаться и расти вместе со мной. Разработал для вас минутный курс, который позволит вам сразу стать Head of DS всего за три строчки кода.
🤙 Делитесь курсом с друзьями, чтобы не скучать в одиночку в бизнес джете.
📈 Прошедшие обучение говорят, что вы сможете стать kaggle grandmaster, если перепишите этот курс в одну строчку и сможете вычеркнуть Иван Иваныча из него навсегда.
🤡 Начинайте этот рабочий год с хорошего настроения, год будет тяжелым. Смех - это лучшее противоядие от стресса.
💬 Пишите о своих историях успеха после прохождения курса в комментариях.
Трудности перевода
🤔 Модель ровно по три раза выбрала мужской и женский род.
Как думаете почему так произошло❓
- Модель переобучилась под конкретный датасет.
- Модель не уверена в своем ответе.
- Новый вид борьбы с дискриминацией. 🤡
Как можно исправить эту проблему❓
- Постобработка текста после перевода.
- Добавление специальных токенов, определяющих пол автора.
💬 Расскажите, как вы добавляете пользовательские признаки в nlp-модели для перевода и чат-бота.
📨 Какие сейчас самые актуальные статьи по этой теме?