not_boring_ds | Unsorted

Telegram-канал not_boring_ds - Нескучный Data Science

5004

Нюансы работы в Data Science, о которых ты не узнаешь в школе 👨‍💻 Head of Machine Learning Laboratory @smirnovevgeny

Subscribe to a channel

Нескучный Data Science

Обширный опыт успешной монетизации данных

Оптимальная постановка задачи. Успех ml-проекта зависит от глубины понимания оптимизируемого бизнес-процесса, качества и доступности данных, способа интеграции решения, скиллов команды и готовности инфраструктуры. Успешный опыт монетизации данных, позволяет оценить все эти факторы и поставить задачу на старте таким образом, чтобы в минимально возможные сроки можно было получить максимум пользы для компании. Богатый доменный опыт позволяет сразу использовать лучшую практику с учетом специфики бизнеса компании. Хорошим показателем является доведение до бизнес-применения 90+% разрабатываемых моделей в команде.

Продажа и отмена ml-проектов. В силу относительной молодости области анализа данных руководители непрофильных команд редко понимают, как правильно ставить задачи, что машинное обучение может и, главное, как применять его для улучшения своих процессов. Задача руководителя команды - помочь своим коллегам из смежных команд в этом непростом пути поиска точек применения машинного обучения, а также в грамотном объяснении случаев, где оно вовсе не требуется.

🤔 Если вы подаетесь на позицию DS Team Lead, то тщательно изучайте опыт вашего руководителя.
С ростом грейда руководителя должен расти опыт успешной монетизации данных. Тем не менее хардовой опыт является обязательным, ведь рыба гниет с головы.

💬 Верю, что можно прийти на позицию DS Team Lead, будучи синьором и на месте прокачать софт скиллы и набраться опыта со старшим руководителем в монетизации данных. Однако в обратное не верю, а вы?

Читать полностью…

Нескучный Data Science

Как лидерам и эффективными менеджерами ужиться в одной компании?

📊 По результатам опроса в канале и linkedin, большинство(~80%) ответивших предпочитают работать под руководством лидера. Более того, опрошенные предпочитают работать в компаниях, где лидеров больше, чем эффективных менеджеров.

Всегда ли нужны лидеры вашей команде?
👉 Вам точно нужен лидер если вы создаете что-то новое или меняете старые парадигмы в компании. Лидер, в отличии от фантазера, не только генерирует вижн, но и отвечает за конечный результат.

👉 Вам точно нужен лидер, если область его компетенций не является core-бизнесом компании, но необходима бизнесу для развития.

👉 Вам точно нужен хотя бы один лидер чтобы иметь альтернативную точку зрения и не погрязнуть в рутинных процессах, пока другие компании меняют рынок.

👉 Часто лидер эффективно менторит команду и растит лидеров внутри, но не всегда)

Эффективные менеджеры точно не нужны?

👉 В свою очередь, эффективные менеджеры точно нужны для управления уже состоявшимися процессами и командами или их шаблонного построения.

👉 В случаях, когда предстоит выполнять не самую интересную, но важную работу без эффективного менеджера команда не справится, а компания забуксует.

👉 Необходимость эффективных менеджеров возрастает, если требуется жестко контролировать результат работы команды.

Есть ли противоречия или конфликт между этими ролями?

🤔 Роли тесно связаны между собой - лидеры выступают локомотивом для создания будущих процессов, пока эффективные менеджеры поддерживают устоявшиеся. Далее, часть новых процессов становится эффективной рутиной, которые передаются эффективным менеджерам и так далее. Правильный баланс между этим роля в компании позволяет не упустить новые возможности и не расшатать фундамент в погоне за ними.

🤝 Избежать конфликтов помогает взаимное уважение сильных сторон каждого и правильное распределение задач, согласно уровню компетенций и реального опыта, а не только грейда.

Как в Лаборатории?

📈 На данном этапе мы отдаем предпочтение лидерам, так как мы меняем парадигмы Data Science в компании. Мы делаем огромный фокус на ответственность чтобы бизнес нам доверял, а мы помогали ему становиться более технологичным.

💬 Результаты опросов в комментариях. 👇

Читать полностью…

Нескучный Data Science

Алгоритм получения 300k/сек для студентов

💸 Хотите заработать 300k/сек не отходя от ВУЗа и не кричать "свободная касса"?
🎓 Учитесь на 3-4 курсе в ВУЗе?

👇 Действуйте по алгоритму ниже, если ответили "да" на оба вопроса.
✈️ Перешлите пост знакомым студентам в противном случае.

1️⃣ Открываете страницу стипендии Альфа-Шанс.
2️⃣
Заполняете заявку на грант.
3️⃣
Отправьте заявку меньше, чем за 1 секунду.

🗣 В прошлом году очень активно лично рассказывали об этой стипендии на всех днях карьеры.
ИМХО, сейчас не очень высокая конкуренция и большой шанс ее получить.

📈 Кстати, в начале моей учебы на Физтехе, стандартная(без троек) стипендия составляла 2.5k, а повышенная(одни пятерки) 3к. К счастью, за 6 лет обучения, она выросла в два раза.
🤑 Существовали и другие стипендии. "Абрамовка" - доставалась небольшому числу топ-студентов по среднему баллу на каждом факультете и составляла 8к. ПГАС - стипендия за научные или спортивные достижения размером порядка 15к.
👆 Эта стипендия больше всех вышеперечисленных!

Всегда учился без троек, один раз даже получил повышенную + Абрамовку.
💬 Как часто вы пересекались со стипендией во время учебы?

Читать полностью…

Нескучный Data Science

Эффективный алгоритм найма дата сайентистов

😲 Существует очень простой и интуитивный алгоритм найма, по которому набираю себе команду уже почти 5 лет. Хочу поделиться с вами этими пятью шагами.

1️⃣ Составляешь описание вакансии самостоятельно. Описываешь подробно требования к кандидату и что ему предстоит делать. Таким образом экономишь свое время и относишься с уважением к времени соискателей.

2️⃣ Публикуешь вакансию в ODS, linkedin, Нескучный Data Science Jobs. Отвечаешь на все вопросы сообщества по теме вакансии.

3️⃣ Выбираешь кандидатов для телефонного звонка. Подчеркиваешь ценность позиции личным звонком.

4️⃣ Проводишь одно часовое собеседование. Спрашиваешь только то, что пригодится на работе.

5️⃣ Передаешь кандидата на оформление в отдел кадров. Заводишь заявку на доступы для ускорения онбординга.

🤔 Кому-то покажется, что я "капитаню". Однако, по моим наблюдениям, не все нанимающие менеджеры знают об этом алгоритме и продолжают искать на hh.ru. Более того, некоторые DSы до сих пор не знают, что эффективнее всего искать работу в ODS.

💬 Какой алгоритм найма используете вы? Какой опыт трудоустройства вам больше всего запомнился?

Читать полностью…

Нескучный Data Science

🆕 Запускаю канал Нескучный Data Science Jobs

🙋 Ищите классную позицию, но не хотите искать ответы на десять важных вопросов и осваивать роль Data Science Detective?

🙂 Ищите к себе в команду классных Data Scientists не только с сильными hard skills, но и заинтересованных работать именно в вашей команде? Готовы быть открытыми и ответить на десять важных вопросов?

➡️ Подписывайтесь на канал Нескучный Data Science Jobs чтобы сократить время на матчинг.

🎁 В канале будут публиковаться открытые позиции в Лабораторию, а также вы сможете опубликовать ваши вакансии, ответив в описании на 10 важных вопросов.

⭐️ В канале вас уже ждет одна вакансия подходящая тем, кто хочет осмысленно подходить к решению задач бизнеса, а не тупо подбирать гиперпараметры моделей.

Читать полностью…

Нескучный Data Science

Масштаб проектов Junior NLP DS в Лаборатории

📝 Про развитие чат-бота в Альфе вышла статья, где техническая часть с моих слов адаптирована под широкую аудиторию.

💪 Перечислю наши ключевые достижения:
- Разработали и внедрили свое решение, включающее порядка десятка моделей для различных направлений бизнеса. В течении этого года менялась инфраструктура для исполнения моделей, поэтому работу пришлось дублировать и быть первопроходцами на новой инфраструктуре.
- Показали лучшее качество по результатам а/б-теста по сравнению со внешним решением.
- Построили совместно с бизнесом с нуля процесс разметки данных, предварительно убедив банк в его необходимости.

🤔 К сожалению, без взятия дополнительной ответственности не обошлось. При обслуживании большого количества клиентов, для банка крайне важна стабильность решения. Сейчас мы дублируем инфраструктуру и выстроили несколько линий поддержки решения. Однако, в момент тестирования и перехода со внешнего решения на внутреннее этого ничего не было. Дата сайентист вместе с выделенным MLOPs на протяжении трех месяцев аккумулировали на себе задачи команды сопровождения. Благодаря нашей бизнес-ориентированности, мы становимся первым выбором для внутреннего заказчика в задачах обработки естественного языка.

👶 Как вы могли догадаться, всю техническую часть затащил всего один Junior DS. Впереди нас еще ждет огромный пласт работ, после выполнения которого, нам действительно будет не за что краснеть.

🗣 В этом году мы будем часто рассказывать про результаты работы nlp-направления: чат-боты, голосовые роботы, помощники операторам, работа с обратной связью клиентов и артефактами коммуникации с ними.
👋 Более того, мы будем масштабироваться и искать будущих лидеров в нашу команду.

💬 Набросьте нам в комментариях, что бы вы улучшили в нашем чат-боте.

Читать полностью…

Нескучный Data Science

Итоги 2022 года

🅰️ Что мы сделали значимого для Альфы?
⁃ Доработали нейронные сети - они стали классом моделей №1 в кредитном скоринге для клиентов Альфы.
⁃ Разработали внутреннюю модель чат-бота - обслуживаем ей 40% обращений клиентов.
⁃ Задеплоили в продашн 18 моделей и 1 сервис.

🗣 Что мы сделали для сообщества Data Science?
⁃ Разработали образовательный трек DL in Finance.
⁃ Провели 2 соревнования по анализу данных.
⁃ Выступили 21 раз на митапах, конференциях и образовательных программах.
⁃ Опубликовали 7 статей на хабр и 1 статью в печатном журнале.
⁃ Запустили магистратуру в МФТИ и стали менторами.

🏅 Как отметили наш вклад?
⁃ Data Fest 3.0 Top-1 трек по количеству участников.
⁃ Три призовых места в соревнованиях по анализу данных.
⁃ Первое место во внутреннем конкурсе проектов Alfa Award в категории сверхэффективность.
⁃ Статус номинанта в Forbes top 30 under 30.

📝 Какие результаты тг-канала "Нескучный Data Science" за этот год?
⁃ 4300+ подписчиков.
⁃ 350к суммарное количество просмотров.
⁃ 68 постов.
⁃ 2400+ реакций.
⁃ ~1700 пересылок постов.
⁃ ~500 комментариев.

🙏 Спасибо всем, кто был со мной на протяжении этого года и тем, кто присоединился недавно. Огромное спасибо за ваши реакции, пересылки постов и комментарии. Буду стараться и в следующем году радовать вас полезным контентом и личным опытом. Помните, то, что не пережил, не станет стихами.

💪 Следующий год будет полон новых вызовов и как следствие новых побед. Мы точно справимся, ведь каждый член команды обладает сильными техническими навыками, лидерскими качествами, огромной целеустремленностью и достаточной энергией чтобы преодолеть любые препятствия. Более того, работа в слаженной команде, преследующий общие цели не даст оступиться на пути к цели.

🙏 Благодарен каждому члену команды Лаборатории за то, что работает со мной в одной команде. Знаете, они могли попасть практически в любую команду, но выбрали именно Лабораторию.

По традиции, желаю всем в новом году работать в команде единомышленников, где ваша работа будет восприниматься вами в качестве хобби. 🎉🎉🎉

P.S. Next stations are Abu-Dhabi, Dubai.

Читать полностью…

Нескучный Data Science

Масштаб стажерских проектов в Лаборатории

🏆 Проект Лаборатории занял первое место во внутреннем конкурсе "Alfa Award 2021" в категории "сверхэффективность". Экспертное жюри, далее, сотрудники Альфы выбирали среди всех проектов банка — это не был конкурс для стажеров.

🎁 Победителей на бизнес-завтрак пригласил CEO Альфы.
💰 Команда получила материальное вознаграждение в размере 1 млн. рублей.

📸 Бывшие стажеры (сейчас middle DS) Лаборатории набора 2021, Владимир Верхошинский, команда клиентского опыта Альфа-Банка.

💬 Расскажите о своих стажерских проектах в комментариях.
#команда #стажировки

Читать полностью…

Нескучный Data Science

Есть ли рисерч в Лаборатории машинного обучения?

🧪 Лаборатория по определению ассоциируется с исследованиями, но в нашей команде нет рисерча в классическом представление - мы не пишем статьи в цитируемые журналы и не выступаем на научных конференциях. Более того, 95% наших моделей идут в продашкн.
❓ Какими же исследованиям мы занимаемся и когда переключимся на общепринятые?

💭 Лаборатория образовалась вместе с централизацией функции анализа данных в банке полтора года назад, когда data science был в зачаточной стадии в компании. На тот момент существовало большое количество процессов принятий решений непокрытых моделями машинного обучение. В виду этого обстоятельства, мы в первую очередь сфокусировались на внедрении в ключевые процессы банка нейронные сетей и полностью отказались от привычного рисерча. Более того, Лаборатория является абсолютным лидером в банке по количеству внедренных в продашн моделей. В результате, у бизнеса сформировалось доверие к сеткам, что поможет в будущем их развитию.
👉 Исследования своевременны тогда, когда вы уже выжали максимум для бизнеса за счет общедоступных инструментов и для совершения следующего шага вам требуются делать прорыв в области. В противном случае, исследования не принесут пользы бизнесу, ибо не ясно какой именно процесс нуждается в улучшении.

👉 В практически-ориентированном анализе данных исследования отличаются от тех, что вы можете прочитать на arxiv.
💭 Постановка задач в новом бизнес-процессе в терминах комплекса моделей машинного обучения считается исследованием. Переход с простой аналитики принятии решений на модельный тоже можно отнести к этой области. Добавление новых данных для усиления действующих моделей также считается исследованием, но уже направленное на анализ самого источника.

💭 Процесс внедрения нейронных сетей для различных бизнес-задач становится уже такой же рутиной, как и подбор гипер-параметров для градиентного бустинга. Модели с ноги заходят в 80% core-задач банка и выжимают максимум из данных (как минимум в соревнованиях никто больше не выжал). Не смотря на этот практически полезный факт, ключевые идеи не являются новаторскими и очевидны всем, кто раньше занимался NLP.
Как отказаться от рутины и перейти к исследованиям?
👉 Сервисы по автоматическому обучению и внедрению моделей в продакшн позволяют избавить дата сайентистов от рутинных задач и перейти, наконец, к исследованиям в классическом понимании. В результате, вы ускоряете TTM и находите время на развитие мозгов сервиса - исследования.
💭 Мы уже оптимизировали задачу семантического анализа произвольной коллекции текстовых документов. В следующем году оптимизируем и построение нейронных сетей для core-бизнес задач.

🙅‍♂️ В итоге, сейчас в Лаборатории практически нет классического рисерча, но он обязательно появится после перевода рутины в сервисы.

👋 P.S. пишите в ЛС если вы сейчас тоже в отпуске в Бангкоке.
#research

Читать полностью…

Нескучный Data Science

Как правильно выбирать место работы?

🍿 Дорога на первое место работы в Тинькофф была физическим испытанием в тесной маршрутке и переполненном метро. Нередко приходилось в поту догонять уходящий микроавтобус, но уровень дохода ее водителя, указанный на рекламном плакате, так и не удалось за первый год работы. Московский метрополитен подливал масла в огонь и вовсе предлагал всем желающим пройти альтернативные курсы по машинному обучению с гарантированным доходом в баснословные сто тысяч рублей.
🤔 Неужели автор поста не знал, что можно пройти собеседование в другую компанию с рыночной зарплатой?

🤦 К сожалению, сейчас нередко всё, кроме размера вашей зарплаты считается полным булшитом и публично высмеивается.
🤔 Однако, компенсация вашего труда складывается из опыта выполнения релевантных для рынка проектов, навыков, полученных от ваших менторов, ценностей, повышающих вашу продуктивность, конечно, зарплаты и комфортных бытовых условий труда.

👇Продолжение

Ставь 👍, если формат telegraph-статьи удобнее четырех отдельных поста.
#карьера

Читать полностью…

Нескучный Data Science

Почему выгодно выплачивать премию вашей команде за призовые места в соревнованиях по анализу данных?

❔Опросы в канале 👆 и linkedin показали, что лишь пяти процентам дата сайентистов работодатель платит дополнительную премию за призовые места в соревнованиях по анализу данных.
🍿 Моя аудитория очевидна смещенная и поэтому скорее всего так делает только 🅰️. Сегодня попробую убедить и вашего работодателя перенять у нас лучшую практику.

💰Крупные компании инвестируют в развитие HR бренда десятки или даже сотни миллионов рублей.
🏆 Соревнования по анализу данных могут обходится в десятки миллионов рублей. Призовой фонд в несколько миллионов рублей — это лишь верхушка айсберга, которую видит сторонний наблюдатель. Большая часть бюджета уходит на съемку контента, оплату платформы проведения соревнования, организацию конференций по открытию и закрытию соревнования, закупку рекламы в интернете.
🎉 Конференции и митапы по анализу данных могут обходится в несколько миллионов рублей. Необходимо лишь сложить стоимость работы организаторов, аренду оборудования и работу съемочной команды, а иногда и стоимость аренды конгресс-холла в центре Москвы.
🧑‍🏫 Развитием бренда работодателя занимаются целые команды, которым нужно платить зарплату. В частности, в мои функции, как руководителя Лаборатории, эта роль тоже входит.
👉 В итоге, десяток премии победителям соревнований — это лишь крохотная часть маркетингового бюджета крупной компании. Инвестируйте в первую очередь в команду, сильная команда 💪 - лучшая реклама вашего HR бренда.

📨 Отправьте этот пост своему работодателю, участвуйте в соревнованиях, повышайте уровень конкуренции и получайте премии 💸 за ваши победы.

💬 Прорекламируйте свою компанию в комментариях, если она уже входит в эти 5%.

P.S. в следующий раз расскажу зачем развивать бренд вашей команды.

Читать полностью…

Нескучный Data Science

Как организовать революцию в кредитном скоринге в вашей компании?

🧠 Благодаря треку DL in Finance вы уже отлично знаете какие именно сетки нужно строить, на каких источниках данных и как именно их нужно обучать для буста точности кредитного скоринга.
🤔 Но как протащить такую инициативу в вашей консервативной компании?

💰Научитесь оценивать финансовый эффект от улучшения модельных метрик в кредитном скоринге. Улучшение модельных метрик очень абстрактно для лиц, принимающих решения, а перспектива заработать миллиарды рублей очень конкретна. Более того, такая перспектива открывает любые двери в коммерчески направленных компаниях - никто не захочет отвечать на вопрос: "Почему он решил помешать увеличить чистую прибыль компании?".

📈 Используйте нейронные сети для обработки транзакций и данных БКИ чтобы не терять информацию при агрегации признаков и время на генерацию признаков под конкретный домен.

⚠️ Внедряйте нейронные сети в паре с проверенной SOTA для обработки плоских табличных данных - градиентным бустингом. В 2020-м нейронные сети в Альфе входили с весом 30%, сейчас входят с весом 70% 💪!

🦸‍♂️ Возьмите на себя ответственность за организацию наколеночной инфраструктуры и ее поддержку в течении нескольких лет, пока в вашей компании будут строится правильные процессы. Не забудьте поставить ноутбук на новогодний стол для мониторинга рядом с мандаринами.

🙅‍♂️ Забудьте о том, что вы только что прочитали, если вы еще не собрали команду, которая обладает не только сильными техническими навыками, но и которая также замотивирована на результат, как и вы. Если у вас уже есть такая команда, то помните о трех 🐳 развития команды.

Подробнее на слайдах, с которыми выступал на этой неделе на skill-форуме.

Читать полностью…

Нескучный Data Science

🏆 В сентябре команда Лаборатории заняла 1 место в хакатоне «Машинное обучение на графах» от ВК.

📰 Выпустили статью на хабр про то, как мы участвовали в хакатоне.

🤔 На решение задачи было выделено 43 часа, причем все это время нужно было находиться в офисе ВК. Ночевать в офисе – необычный опыт.

📈 Финальное решение состояло из подходов как классического ML, так и DL. Несмотря на название, графов в явном виде не было в задаче. Однако, ребята построили граф на пользователях самостоятельно, получив прирост в качестве. Читайте детали в статье.

💬 Автор статьи ждет ваши вопросы в комментариях, а также репосты и плюсы на хабре.

Читать полностью…

Нескучный Data Science

Мини-интервью с бывшим сотрудником Лаборатории
@iknunyants, linkedin

Семь интересных фактов про героя этого поста:

🤯 Не защитил диплом в ВШЭ в 2021-м году.

📈 Прошел на стажировку в Лабораторию после неудачной защиты.

📈 Попал в команду после окончания стажировки.

✍️ Написал и успешно защитил диплом по рабочей задаче в 2022-м году в ВШЭ, ФКН.

🧑‍🎓 Уехал в Нидерланды продолжать обучение по магистерской программе.

🇦🇲 Любит Армению больше, чем Нидерланды.

🎯 Вы можете его схантить в свою команду.

📺 Подробнее на карточках.

💬 Задавайте в комментариях вопросы Ивану про Альфу, Нидерланды, Армению, ВШЭ и учебу за рубежом.

P.S. на следующей неделе буду в командировке в Алматы, пишите.
#команда

Читать полностью…

Нескучный Data Science

Карьерный рост в Лаборатории

🧑‍🎓 Переход на следующий уровень в команде формализован и избавлен от субъективизма благодаря матрице компетенций. Каждый грейд охарактеризован набором хард и софт скиллов. Сотрудник записывает все свои достижения в таблицу, подтверждающие наличие необходимых скиллов. Мне достается роль в валидации и добавлении забытых достижений. Далее, иду защищать его повышения на круглый стол и валидировать повышение дата сайентистов в других командах.
👏 Поздравьте ребят и меня, теперь у нас на три миддла больше!

💪 За год двое джунов доросли до миддл позиции. Рост очевиден не только мне, но и внешним наблюдателям:
💬 «Вы действительно Junior Data Scientist?» - комментарий из зала к докладу.
💬 «Хороший доклад, спасибо. Только зачем унижать собственных работников и называть парня, который явно не джун, джуном? Чтобы он быстрее ушел в другую компанию?» - комментарий к тому же докладу на youtube.

💪💪 Стажер за год с небольшим тоже дорос до миддла.
💬 «Слишком высокие требования для стажера 🍜» - комментарий из ODS.

P.S. Ожидаю в ближайшее время еще три повышения до миддла и одно до тим лида

🧑‍💻 Как устроен карьерный рост в ваших командах?
#команда

Читать полностью…

Нескучный Data Science

Как найти хорошего DS Team Lead?

При найме на руководящую позицию нередко делают основной акцент на софт скиллы. В некоторых случаях и вовсе ими ограничиваются. Однако на одних софт скиллах далеко не уедешь, ведь приходится отвечать за результаты всей команды.

🤔 Какая может быть природа таких заблуждений? Одним может показаться, что хардовая часть вовсе не зависит от тим лида, ведь он сам практически не пишет код. Другим причудиться, что успешность проектов зависит только от трудолюбия и скиллов команды и, конечно же от навыка руководителя правильно коммуницировать внутри и вовне, а также правильно презентовать результаты. В результате этих суждений, методом исключений хард скиллов, как раз остаются только софт скиллы.

Кто-то приходит к мысли, что хорошим DS Team Lead может стать любой менеджер. Тем не менее, хороших Тим Лидов, которых я встречал в индустрии, объединяют следующие факторы: они все в прошлом Senior DS и имеют опыт успешной монетизации данных. Далее, подробно расскажу, почему это так важно.

Бывший Senior Data Scientist

Качественный найм. Вспомним еще раз, что код пишет не тим лид, а его команда. Тем не менее существует небольшая проблема - нужно нанять эту команду. Более того, любой руководитель должен стараться нанимать людей скилловее себя. Как распознать эти скиллы, если у тебя нет базы? Например, сейчас все пишут про BERT на позицию в NLP, но как среди них отобрать тех, кто шарит, если никогда сам его не обучал? Никак, все кандидаты для тебя будут одинаковые. Когда харды неразличимы, то решение будет приниматься на основании софтов. Выход, кажется, есть - переадресовать синьору техническую часть собеседования. А кто наймет синьора?)

Принятие несложных технических решений самостоятельно. Отсутствие технической экспертизы у руководителя нередко тормозит процесс принятия решений или, что хуже, даже приводит к неправильным решениям. Вы наверно слышали о встречах в составе 10 менеджеров вертикали и двух разработчиков. Теперь вы знаете первопричину. В некоторых компаниях дата сайентистами могут управлять даже проджект менеджеры. Знаете, это обычно печальное зрелище, так как на любой технический вопрос другого Тим Лида, требуется консультация команды, которую нужно закинуть в следующий двухнедельный спринт(

Развитие команды. А тут зачем база? Безусловно, существуют курсы по закрытию теоретических пробелов, можно учиться у более опытных коллег в команде, код ревью адресовать синьорам. Тем не менее, как выявить западающие компетенции и начать их развивать у конкретного члена команды?

Минимизация микроменеджмента и бюрократии. Представьте, что вы не вдупляете, чем занимается ваша команда, но отвечаете за результат. Какие ваши действия? Правильно, вы попытаетесь проконтролировать все этапы работы команды. Чем больше вы не в теме, тем больше микроменеджмента и бюрократии стоит от вас ожидать. Если вы в теме, то по косвенным признакам, подобно опытному преподу на экзамене, вы сразу выявите студента, который не выучил материал, что вам позволит не мешать работать остальной части команды.

Признание от сильной команды. Не разбираясь в базе, будет сложно выстраивать коммуникацию с командой. Будет невозможно понять, о чем они там говорят на встречах. В конфликтных ситуациях по техническим вопросам, будет сложно быстро понять кто прав, а кто нет. Наконец, будет тяжело оценить по достоинству инициативы, с которыми будут приходить заряженные члены команды. В итоге, часть решений будет принята неправильно, коммуникация будет скорее формальная, а вовлеченность команды и признание руководителя пониженными.

Читать полностью…

Нескучный Data Science

Лидер vs эффективный менеджер

🔎 Уже в следующем месяце буду искать в Лабораторию Team Lead DS в NLP. Существует два класса руководителей: эффективный менеджер и лидер. 🤔 Как их отличить между собой?

✍️ Выделил для себя два ключевых маркера:

👉 Если ты внутри команды, то отчет по срокам задач будет единственным форматом коммуникации, интересующим эффективного менеджера. Лидер же будет приходить часто к тебе с новыми идеями, пытаясь тебя и команду максимально вовлекать в процесс брейншторма и совместного планирования реализации амбициозных задач.
👉 Группа лидеров команд обычно фокусируется на том, как совместными силами их команд сделать классный продукт, совершить бизнес-прорыв или поменять устоявшийся неоптимальный порядок вещей для клиентов компании или ее сотрудников.

Если этих маркеров недостаточно, то держите 12 точечных отличий из сети.
⚠️ Осторожно высокопарный слог!
1. Руководитель управляет, лидер изменяет и совершенствует.
2. Руководитель — это копия, лидер — это оригинал.
3. Руководитель поддерживает, лидер развивается.
4. Руководитель фокусируется на системах и структуре, лидер фокусируется на людях.
5. Руководитель полагается на контроль, лидер внушает доверие.
6. Замысел руководителя краткосрочный, у лидера далекие перспективы.
7. Руководитель спрашивает, каким образом и когда, лидер спрашивает, что и почему.
8. Руководитель смотрит на нижнюю строчку с «Итого», лидер поднимает глаза на горизонт.
9. Руководитель подражает, лидер создает.
10. Руководитель принимает текущее положение дел, лидер бросает ему вызов.
11. Руководитель — классический бравый солдат, лидер — это только он сам.
12. Руководитель делает все правильно, лидер делает правильные вещи.


На конференции TL Conf зал ответил единогласно.
💬 Вы бы предпочли работать с эффективным менеджером или лидером?
💬 Какое оптимальное соотношение лидеров и эффективных менеджеров в компании?
Опросы вас ждут в комментариях к посту.👇

🔜 В следующий раз расскажу на что обращаю внимание при поиске Тим Лидов.

Читать полностью…

Нескучный Data Science

Проактивный алгоритм найма

Алгоритм гораздо проще предыдущего, ведь состоит из одного пункта. 🎉
⚠️ Будьте готовы, что вам не только ответят отказом, но и вовсе проигнорируют.

Готовы? Открывайте! 👇

1️⃣ Напишите самостоятельно заинтересовавшему вас специалисту в личку на LinkedIn.
💁‍♂️
Подсказка: Обратите особое внимание на иконку "open to work".
Большой плюс этой социальной сети - вы видите сразу резюме и ваше видят тоже.

🤔 Скорее всего, я не первый его придумал - очень часто по этому алгоритму пытаются схантить меня.
🤔 Уверен, это один из лучших форматов для закрытия Team Lead.+ позиций.

😅 В тот день открытых дверей на Физтехе мы с Демидом проявили проактивность и раздали больше сотни стикер-паков.

🤣 Не зарегистрировались в LinkedIn - ошибка, не добавились в друзья - фатальная ошибка.

Читать полностью…

Нескучный Data Science

Как стать Kaggle competition master?

🤔 Хотите стать Kaggle Master, но не знаете с чего начать?
Начните со статьи @oasidorshin, который уже успешно прошел этот путь.

⏳ Потратьте 14 минут вашего драгоценного времени, и вы узнаете:

⁃ Зачем нужно участвовать в соревнованиях, особенно если ищите работу в индустрии?
⁃ Сколько времени занял путь автора до заветного титула?
⁃ Как правильно валидироваться и подняться на 400+ мест на private leaderboard?
⁃ Как побеждать в соревнование без серьезных инвестиций в железо?
⁃ Какие методы ансамблирования заходят?

🧐 Не хотите становиться Kaggle Master?
Все равно прочтите статью и узнаете:

⁃ Как анализ данных помогает питомникам животных найти хозяев?
⁃ Какой пайплайн зашел в задаче регрессии на данных изображений?
⁃ Как трансформеры можно использовать в задачах компьютерного зрения?

🎯 Мы стараемся привлекать первоклассных игроков в Лабораторию, ведь они так любят работать вместе с другими первоклассными игроками.
🙏 Очень рады, что автор статьи из всех вариантов выбрал стажировку именно у нас. Как вы могли догадаться, он станет постоянным членом нашей команды в ближайшее время.

💬 Задавайте ваши вопросы автору статьи в комментариях и плюсуйте его достижение 💪 на habr.

Читать полностью…

Нескучный Data Science

Десять важных вопросов перед трудоустройством в Data Science

Собеседование в компании, где будет вам честью поработать бесплатно, может отнимать до пяти часов вашего времени. Вас попросят порешать гномиков и другие задачи во время интервью, а после него вы скорее всего будете заниматься менее интеллектуальным трудом и ботать гномиков к следующему собесу, посматривая в сторону леса вакансий.

Как определить будет ли ваша работа нескучным Data Science? Очень просто, нужно всего лишь очень подробно опросить своего будущего работодателя и поискать о нем информацию в сети. Никогда на это не жалейте времени, например, в последний раз лично потратил на это мероприятие четыре месяца.

Подготовил для вас десять важных вопросов, ответы на которые обязательно нужно знать до трудоустройства на новое место работы. Простым перечислением статья не ограничивается — подробно аргументирую, почему считаю ответ на каждый из вопросов обязательным до принятия решения. Не остался в стороне и рассказал, как обстоят дела в Лаборатории.

💬 А какие вопросы вы задаете работодателю перед трудоустройством?

🙏 Прочитав статью, вы надеюсь поймете, что для автора значит "Нескучный Data Science" и, наконец, почему этот канал называется именно так. Однако, не переживайте, в одном из будущих юбилейных постов дам более явное объяснение.

Если вы в поиске места работа, то желаю вам найти свой "Нескучный Data Science Jobs". Если вы в поисках команды, то приложите все усилия, чтобы создать его.

Читать полностью…

Нескучный Data Science

Как стать Head of Data Science?

🤦‍♂️Ребят, вы че издеваетесь? Я понимаю, что вам хочется просто расслабиться и наслаждаться жизнью. И не думать о курсах по анализу данных, пользе DS для бизнеса, kaggle, резюме и собеседованиях.

🙅 Я понимаю, что вы уже не верите курсам от популярных блоггеров за 100k+ рубасов, как и они сами. Эти курсы нужно проходить больше месяца, а вам нужно в DS еще вчера.

🙏 Сегодня мне захотелось, чтобы через мой продукт смог пройти каждый. Чтобы у каждого была возможность обучаться и расти вместе со мной. Разработал для вас минутный курс, который позволит вам сразу стать Head of DS всего за три строчки кода.

🤙 Делитесь курсом с друзьями, чтобы не скучать в одиночку в бизнес джете.

📈 Прошедшие обучение говорят, что вы сможете стать kaggle grandmaster, если перепишите этот курс в одну строчку и сможете вычеркнуть Иван Иваныча из него навсегда.

🤡 Начинайте этот рабочий год с хорошего настроения, год будет тяжелым. Смех - это лучшее противоядие от стресса.

💬 Пишите о своих историях успеха после прохождения курса в комментариях.

Читать полностью…

Нескучный Data Science

Трудности перевода

🤔 Модель ровно по три раза выбрала мужской и женский род.

Как думаете почему так произошло❓
- Модель переобучилась под конкретный датасет.
- Модель не уверена в своем ответе.
- Новый вид борьбы с дискриминацией. 🤡

Как можно исправить эту проблему❓
- Постобработка текста после перевода.
- Добавление специальных токенов, определяющих пол автора.

💬 Расскажите, как вы добавляете пользовательские признаки в nlp-модели для перевода и чат-бота.
📨 Какие сейчас самые актуальные статьи по этой теме?

Читать полностью…

Нескучный Data Science

Что вы выберете для табличных данных: бустинг или MLP?

🤖 Большой пласт задач машинного обучения на практике - задачи на табличных данных, которые чаще всего решаются при помощи градиентного бустинга. Стандартная для табличных данных MLP-архитектура обычно имеет хуже качество и требует больше ресурсов для обучения и тюнинга.
🤔 Можно ли применять глубокое обучение более эффективно?

🔍 Yandex Research активно занимается исследованиями в этой области. ИМХО, лучшие статьи на эту тему, прошедшие на NeurIPS c 90+ цитированиями:
[1] - Revisiting Deep Learning Models for Tabular Data, 2021
[2] - On Embeddings for Numerical Features in Tabular Deep Learning, 2022

💪 Сетки рвут бустинг несмотря на то, что работы фокусируются на изначально сложных для глубокого обучения задачах, на которых доминируют бустинги традиционно доминируют. Более того, в статье идет сравнение с хорошо натюненными бустингами.
👀 Взляните на ключевые результаты из статьи. В списке ниже указаны модели и их среднее места по задачам в бенчмарке (меньше - лучше).
- Классический MLP - 8.5
- XGBoost - 4.6
- Transformer и кусочно-линейные эмбеддинги - 3.7
- CatBoost - 3.6
- MLP и эмбеддинги с периодическими активациями - 3.0

Рассмотрим основные идеи и техники, помогающие улучшить качество ваших нейронок:
🌟 Архитектурные модификации. Простая модификация MLP c добавлением BatchNorm и пробросных связей подобно ResNet уже показывает существенные улучшения по сравнению с базовым вариантом и является хорошим бейзлайном. Однако, системные приросты показывает предложенная в [1] трансформер-архитектура, изначально использующая эмбеддинги фичей и механизм внимания.

🌟 Эмбеддинги для числовых фичей. Обычно числовые фичи передаются в MLP напрямую, но можно добиться буста качества за счет расширения их размерность, применяя для этого эмбеддинги. Любые варианты эмбеддингов числовых фичей существенно бустят табличные модели и снижают разницу между архитектурными конфигурациями. Для максимального улучшения в работе [2] выделяются две более сложные схемы организации эмбеддингов - с использованием кусочно-линейных функций и периодических активаций.

🅰️ В практике Лаборатории табличные данные появляются в разных форматах: как в виде структурированных фичей, так и в виде сырых последовательностей. Наибольший интерес вызывает применение глубокое обучение там, где оно изначально имеет преимущества - это могут быть чисто неструктурированные данные, или же объединение их с табличными фичами для получения одной сильной модели.

🤔 Отметим следующий интересный факт - чем больше данных имеется, тем менее сильно влияют различные архитектурные модификации и другие техники. Это особенно относятся к табличным данным - зачастую задачи на них и общая структура самих данных куда более простые, чем на неструктурированных доменах вроде картинок или текстов, и возможность полностью описать задачу большим числом данных становится абсолютно реальной на практике.

Потестить различные техники из статей можно в песочнице нашего соревнования на Boosters, причем как на чисто табличных агрегатах, так и на последовательных данных. У двух статей есть открытый исходный код, так что с реализациями мучиться не придется.

🤔 Слово "бустинг" в этом посте оказалось популярнее множества слов {"mlp", "сетка"}.

💬 Автор поста @oasidorshin ответит на ваши вопросы про сравнение сеток с бустингами в комментариях.
#research

Читать полностью…

Нескучный Data Science

Интервью с бывшим сотрудником Лаборатории
@danasone

Шесть интересных фактов про героя этого поста:

👶 Начал изучать анализ данных в 9-м классе.

🧑‍🎓 Познакомились с Данилом на программе Большие вызовы в Сириусе.

💸 Заработал свой первый миллион в 18 лет, побеждая в соревнованиях по анализу данных.

🅰️ Альфа написала про Данила в своем тг-канале[500k+].

🤔 Умудрился попасть на две стажировки - проходил еще одну параллельно Альфе. Выполнял все поставленные задачи, поэтому продолжили с ним сотрудничество.

💪 После окончания стажировки представлял Лабораторию на конференции по компьютерному зрению и вместе с нами опубликовал статью на хабр.

📨 Отправьте этот пост про сына маминой подруги своим младшим товарищам, чтобы поднять их мотивацию в учебе.

👉 Подписывайтесь на тг-канал Данила @danasone_blog и узнавайте еще больше о его пути в анализе данных.

💬 Данил ответит на ваши вопросы в комментариях к посту.
#команда #интервью

Читать полностью…

Нескучный Data Science

Зачем прокачивать бренд команды?

🤔 В первый раз услышал, что в Альфе занимаются анализом данных от HR, который позвонил мне по холодному контакту. Спустя полгода поступило повторное приглашение. Мной овладело любопытство, поэтому все-таки решил по пути заехать и узнать, насколько развит анализ данных и чем красный банк отличается от желтого. Мне потребовалось еще более трех месяцев, шесть встреч: с hr, будущим руководителем, его руководителем и руководителем его руководителя чтобы принять положительное решение. В итоге, через девять месяцев после первой попытки, мне эту позицию все-таки продали.

🔍 Сложности при поиске новых кандидатов не миновали и меня. В первое время нанимать было гораздо сложнее по сравнению с Тинькофф, даже несмотря на разницу в вилке в 2-3 раза. Поналачу приходилось искать иголки в стоге сена - одна позиция закрывалась в течении целого месяца и за нее приходилось платить 20-ю собеседованиями. Ничего удивительного, ведь о команде практически никто не знал.

🎬 В первые о нашей команде, за исключением публикаций вакансий в ODS, узнали благодаря соревнованию Alfa Battle 2.0, видео с разбором бейзлайнов и решений победителей, статьям на хабр, а также кринжовому сериалу Data Sapiens. Взамен лично убедился, что быть актером дано не всем. В результате, спустя полгода в команду начали целенаправленно приходить кандидаты, которым интересно решать банковские задачи при помощи нейронных сетей.

🗣 Сейчас Лаборатория регулярно открыто делится результатами своей работы с сообществом: образовательной трек DL in Finance, магистратура в МФТИ, регулярные выступления на конференциях и публикации статей. Мы делимся опытом, так как верим, что любой специалист в нашей области сделал бы тоже самое, если бы ему не мешали работать. Мы не боимся рассказывать о прорывных результатах, так как это сильно драйвит нас брать более амбициозные цели. Более того, мы регулярно, не пытаясь кому-то понравиться, рассказываем о ценностях команды и особенностях организации ее работы, которые помогают нам работать эффективно.

Лаборатория получает следующие бенефиты при поиске новых членов команды?
🤔 Кандидаты довольно часто знают, чем мы занимается и по каким правилам работаем.
🤝 Кандидаты ставят нас в приоритет по сравнению с командами, о которых они ничего раньше не слышали.
🎞 Сокращаем затраты на онбординг, за счет материалов из трека DL in Finance.
👉 В результате, нас выбирают те, кто интересен нам и кому интересно работать с нами.

🌧 Разбавлю дегтем рассказ выше, немножко поплакавшись в жилетку читателю.
Сложно поверить, но нам все еще приходится доказывать внутреннему потребителю высокий уровень компетенции команды, по сравнению со стартапами в этой сфере. К сожалению, это не только проблема нашего эго, но и эффективности инвестиций компании, так как внутренняя разработка моделей в среднем в 5-10 раз дешевле внешней.

Подытожим, развитие бренда команды позволяет:
⚡️ Ускорить процесс поиска новых членов команды.
🤝 Эффективнее использовать внутреннюю экспертизу внутри компании.
📈 Развивать технологический бренд компании среди ее клиентов.

💬 Как считаете, важно ли клиентам ощущать технологичность компании и ее продуктов?

Читать полностью…

Нескучный Data Science

ХОДЯТ НА ХАКАТОНЫ И ЗАБИРАЮТ ДЕНЬГИ 💸

У наших дата-сайентистов есть хобби — ходить на хакатоны и забирать деньги за первые места.

На хакатоне HeadHunter — 400 000 рублей. За победы у Совкомбанка и Wildberries — 500 000. А у ВТБ они выиграли 1 000 000 😇

Теперь ребята забрали 300 000 рублей за первое место на Цифровом прорыве, крупнейшем IT-хакатоне страны.

А ещё за каждую победу они получают премию от Альфы, это — тоже наша традиция. Гордимся нашими ребятами ❤️

Коллеги из других компаний, готовьте ваши хакатоны 💰

@alfabank

Читать полностью…

Нескучный Data Science

Советую подключиться сегодня к Яндекс Data Day 😉 чтобы не пропустить три классных доклада и одну лекцию-воркшоп.

Как мы выделили структуру в 100 миллионов чеков и не сошли с ума 🕐 13:20 👊 Демид Гаибов, Лаборатория машинного обучения:
🤔 Зачем банкам данные чеков ОФД?
🧩 Как структурировать этот крайне сырой источник данных?
🤓 Как определить базис в пространстве чеков и одновременно повысить эффективность процесса разметки?

🗃 Путь к модели данных для ежедневного апдейта 100 прошлых дней 🕙 11:10 👨‍💻 Максим Стаценко, 👩‍💻Татьяна Колмакова, Яндекс

🤝 Как мы подружили Big Data и менеджеров клиентов 🕛 11:50 👨‍💻 Илья Шишов, Яндекс

📝 Лекция-воркшоп «Art&Science: как арт-проекты обсуждают вопросы настоящего и решают проблемы будущего» 🕙11:10 👩‍💻Екатерина Юдаева, Центр Art & Science Университета ИТМО

Регистрация на событие.

💬 P.S. если сможете принять участие в офлайн формате, то вас ждет не только вкусная еда и нетворкинг, но и экскурсия в музей Яндекса.

#конференции

Читать полностью…

Нескучный Data Science

🧐 Уже прошел несколько курсов по анализу данных, сделал pet-проекты, успел поучаствовать в соревнованиях по анализу данных, отправил резюме, но тебя все равно не зовут на собеседования?

👨‍🏫 Стань преподавателем по анализу данных:
➕ Закрепишь теоретические знания, готовясь к лекциям и семинарам.
➕ Разовьешь софт-скиллы, в частности сильно улучшишь навык публичных выступлений.
➕ Улучшишь навыки самопрезентации, в процессе отбора на позицию преподавателя.
➕ Прокачаешь нетворкинг, познакомившись с коллегами-преподавателям и единомышленниками, пытающимися попасть в DS.

🔍Ищете стажера/джуна - пригласите автора поста из linkedin к себе на собес.
🙅‍♂️Пытаетесь вкатиться в DS с нуля - не выбирайте распиаренные блоггерами платные курсы по анализу данных.

Читать полностью…

Нескучный Data Science

В дополнение к предыдущему посту, поделюсь с вами фрагментами из интервью с Олегом. В нем идет речь о важных принципах формирования и работы команды. После просмотра видео хочу сказать, что действительно ДНК Тинькофф нельзя скопировать извне, но быть в этой культуре три года и не применять лучшее в своей команде невозможно. Сегодня расскажу, какая работа по формированию «духа всей команды и моего личного» больше всего запомнилась.

💪Большой StandUp. Олег собирал всю команду из офиса раз в год и лично рассказывал о результатах работы, новых вызовах и давал жизненные советы, отвечал на несогласованные заранее вопросы. Лично мне это приносило чувство сплоченности команды и формирования правильного фокуса.

🤝 Такой как все. Вечером крутил педали в спортзале на велосипеде, в столовой рекомендовал есть брокколи, в сауне интересовался все ли у нас хорошо, заглядывал на встречи из любопытства, не мешая процессу. Всегда где-то рядом, всегда свой и всегда с заботой о команде.

👋 Вовлечение. Присутствовал на аналитических днях и задавал вопросы по теме. Перед подготовкой не было сотни согласований, а каждый эксперт рассказывал о своей работе самостоятельно. Вовлечение передавалось и топ-менеджменту, один из них в процессе 3-х часовой презентации заметил отсутствие одного из условий при применении метода Каруша-Куна-Такера и, конечно, же понял суть проведенной исследовательской работы.

👀 Всю атмосферу я вам не смогу передать в текстовом формате, смотрите полную версию интервью с Познером.

🧑‍💻 Ребята из Тинькофф, дайте знать увеличилось ли у вас количество бюрократии с ростом компании за последние три года.
#команда

Читать полностью…

Нескучный Data Science

🥳 Взяли первое место среди треков на Data Fest Online 3.0 по количеству участников[2] и третье по количеству просмотров видео[3]. В следующий раз будем снимать больше роликов)

Соревнования в треке DL in Finance уже закончились, но все еще можно выиграть худи за участие в квизах. Самые сложные вопросы из трека:

🤔 Где на фото[1] спикер из видео, а где другой сотрудник Лаборатории? 🎦 Нейросетевой кредитный скоринг на данных кредитных историй

🤔Какого цвета толстовка была у спикера? 🎦 Нейросетевой подход для обработки последовательных данных

🤔Сколько обучаемых параметров содержит нейронная сеть? Введите целое число. 🎦 Нейросетевые модели на карточных транзакциях

💬 Какой вопрос оказался для вас самым сложным в треке?

Читать полностью…
Subscribe to a channel