datarascals | Unsorted

Telegram-канал datarascals - Дата канальи — про «специалистов» в данных / ML / AI

2936

Перлы из жизни аналитиков и ds — от безобидных заблуждений до откровенного надувательства. Посвящается AI-евангелистам (любителям интеграций формул в экселе и LLM). Для связи @NikitaZelinskiy

Subscribe to a channel

Дата канальи — про «специалистов» в данных / ML / AI

Про внутреннюю конкуренцию пост

Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто круче хитрее

Но есть нюанс, канал же про каналий 🤡

В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)

Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».

Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.

Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?

Следите за руками словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏

По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰

Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫

Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Команда Superintelligence в Meta, согласно большому паблику.

Почему там столько выходцев из MTS?

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Воскресный статистический баян

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.

Обсудим:

⭐️«Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пиманов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️«Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️«Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.

Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!

🗓 29 июля
🕗 19:00–22:30
🔗
Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Когда меня посещает синдром самозванца, я иду на архив в поисках статьи, которая соберет комбо из кринжовых утверждений.

Вот статейка 23го года — парни ищут фрод в банкоматах

Судя что фамилия одного из авторов Naidu, успех был предопределен!

ATM fraud detection that is built on Spark and trained with a variety of machine learning (ML) models including Naive Bayes (NB), Logistic Regression (LR), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Gradient Boosting Tree (GBT), and Multi-layer perceptron (MLP).

Ну допустим, дальше интереснее:

We also employed several balancing techniques like Synthetic Minority Oversampling Technique (SMOTE) and its variants, Generative Adversarial Networks (GAN), to address the rarity in the dataset. In addition, we proposed a streaming based ATM fraud detection in the streaming context.

Но:

Our sliding window based method collects ATM transactions that are performed within a specified time interval and then utilizes to train several ML models, including NB, RF, DT, and K-Nearest Neighbour (KNN).

И оглушительный успех:

RF obtained the best mean AUC of 0.975 in the static context and mean AUC of 0.910 in the streaming context.

Но есть нюанс:

𝐴𝑈𝐶 = (𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 + 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦) / 2

Просто туз на ривере пришел )

По-моему, если это не роял флеш-стрит, то как минимум фулл-хаус ♣️♦️♠️♥️♠️

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Меньше всего в серьезном статистическом журнале ожидаешь увидеть статью, в которой почти половину составляет такая вот картинка в жанре дидактической графики.

На этом конечно юмор авторов не заканчивается, когда речь о строгой математической формулировке -- парни ссылаются на статью Крамера:

As did Cramer, we leave the proof of the above relation as an
exercise for the reader.
😄😂
Ах да, речь о доказательстве тривиального факта -- если нужно описать распрделение одним числом с минимальной асболютной ошибкой (MAE), то этим числом будет медиана (а если с минимальным MSE -- среднее).

PS В Conclusion крик души преподавателя:
Most mathematical statistics students prove this property of the median as an exercise at some stage in their training, but soon forget it. Thus, the long-term impact of the exercise is less than it could be (someone once de¢ned education as “what remains after one has forgotten what one has learned”). Later, many of them, and many nonstatistical studentstoo, would, if asked, argue that the average distance is minimized by the mean. We suggest that it is time to “move up” from the proofs in mathematical statistics texts to more instructive ones which, using concrete examples, allow one to show visually what makes the median such a central location.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Наконец-то выложили запись разговора с Александром Рыжковым -- уникальным 4x Kaggle GM
Мой первый опыт в роли интервьюера)

Ниже анонс от коллег:

Что ждет AutoML и как побеждать на Kaggle? 🔥

На недавней конференции MTS True Tech Day состоялось крутое интервью, которое нельзя пропустить! Никита Зелинский (CDS MTS) пообщался с Александром Рыжковым — ex-руководителем LightAutoML, а ныне Avito R&D unit lead.

Обсудили самое мясо:
🏆 Победа на Kaggle AutoML Grand Prix 2024: инсайты и стратегии от победителя.
🚀 Будущее AutoML: куда движется индустрия и какие тренды нас ждут?
🤖 AI-агенты: как они уже меняют нашу работу и жизнь.

Получился концентрированный разговор о передовых технологиях и практическом опыте. Очень рекомендуем к просмотру!

▶️ Смотреть запись интервью: тыц

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Число постов в канале упало не просто так (о, великий султан, на то была тысяча причин).

И основная — нам с ребятами очень хотелось систематизировать наработки по мультиагентным системам (мы строим их уже полтора года) и поделиться этими знаниями с миром.

Мы запустили курс по ИИ-агентам, не супер большой, но, надеюсь, достаточно емкий.

Я расскажу (и покажу) базу — токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.

Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет -- он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее. // Дима юзает qwen-agent

Надеюсь, мы смогли поймать баланс между обзорным курсом на 5 живых вебинаров, базой, практикой и способностью студента на выходе не просто собрать очередной прототип, а выстроить систему, которая в каждой точке оценивается и понятно как ее развивать, масштабировать, делать точнее.

Если вдруг кто захочет поучиться — есть промокод, datarascals

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Кого только не встретишь в Московской области 🐻

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

HR = сваха 😂

А вот за DS обидно что не попали,
Поэтому вот варианты от DeepSeek:

Вот варианты от дипсика:

Если перевести профессию "data scientist" на славянский манер, можно использовать такие варианты:

1. Данномудр – от *"данные"* + *"мудрость"* (аналог «волхва» или «знатока данных»).
2. Числобер – от *"число"* + *"собирать"* (как «зверобой» или «грибник», но для чисел).
3. Знамений – от *"знание"* + *"предзнаменование"* (тот, кто извлекает смысл из данных).
4. Счётознатец – от *"счёт"* + *"знание"* (аналог «книжника» или «летописца» цифровой эпохи).
5. Рядолог – от *"ряды данных"* + *"-лог"* (как «геолог», но для анализа последовательностей).
6. Ведоум – от *"ведать"* (знать) + *"ум"* (разум), в духе древнеславянских имён.
7. Графич – укороченное от *"графика данных"*, звучит как старославянское ремесло.
8. Мудродатчик – игра слов: *"мудрость"* + *"дата"*, с налётом волшебства.

Ну

хоть не скоромох 🤡

Числобер, любящий 4, это квадробер?
Предлагайте свои варианты как обозвать DS по-старославянски, велком

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

В эпоху платных API и даже чатов, когда монстры ИИ прайсят нас за потребленные токены, вопрос «какому языку учить детей» должен решаться как-то более современно.

Например, в каком из них на одну и ту же фразу уходит меньше токенов (экономика должна быть экономной!)

from itertools import product
from transformers import BertTokenizerFast
from tabulate import tabulate

bert_tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
china_tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
tok_names = {'bert': bert_tokenizer, 'china': china_tokenizer}

texts = [
'Обычно при использовании API вас прайсят за число токенов',
'Usually when using the API you are charged per number of tokens',
'通常使用 API 時,您需要按令牌數量付費'
]

results = []
for text, tokenizer_name in product(texts, tok_names):
tokenizer = tok_names[tokenizer_name]
encoded = tokenizer.encode_plus(
text,
truncation=True,
max_length=128,
return_tensors="pt"
)
num_tokens = encoded['input_ids'].shape[1]

results.append([
text
, tokenizer_name
, num_tokens
])

headers = ["Текст", "Токенизатор", "Число токенов"]
print(tabulate(results, headers=headers, tablefmt="grid", numalign="center"))

PS: Йошихиро Такаяма -- японец-таки
PPS: Китайский все же немного сломал табулятор, но английский пока выигрывает
PPPS: идеей вдохновился на м
л-тренировке у Саши Киреева, приходите в сл субботу на финальную в этом учебном году!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Вчерашняя конференция была прям хорошая, орги обещают выложить записи -- буду ждать.

А пока делюсь слайдами с рассказа о трансформерах в рекомах, пробовал нарисовать так чтобы было максимально понятно человеку, хоть немного знакомому с DS, надесь получилось (ставьте клоуна если ничего не понятно, лойс если понятно) 😅

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Буду рад вас всех видеть в эту пятницу на MTS True Tech Day!
Целый день проведу на треке AI&ML — начну с рассказа про трансформерные архитектуры в рекомендациях от царя гороха до сегодня, не забыв прорекламировать RecTools 🤖

Потом обязательно послушаю Саню где искренне надеюсь узнать как и чем правильно дополнить LLM as a (Dredd) Judge в оценке RAGа 🤓

А затем уже несекретный спикер — но не буду здесь спойлерить 🤫).

Точно послушаю про LLM от Дани (святой человек 😇 без тг-канала) и Вали,
а ближе к концу возьму интервью у лидера LAMA — 4х грандмастера Kaggle Саши Рыжкова 👑 о том как нас всех заменит AutoML — но если есть еще идеи вопросов — велкам в каменты, обещаю один вопрос из коментов точно задать Саше на сцене.

Регистрация еще открыта -- увидимся в пятницу 🤗

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Если отвлечь синьора и дизайнера, то, кажется, можно даже понятно нарисовать как SASRec учится. Интересно, получится ли с моделями поновее и побольше -- HSTU и FUXI-alpha 🤔

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Напоминаю , что вечером тренировка — будем рады видеть всех )

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Как обладатель годовой подписки на Replit -- напрягся 😂

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Друзья ищут любителя восточной экзотики — DS-контрактора на год в Саудовскую Аравию

По условиям: платят в валюте, помогают с жильем, мобилкой, перелетами и пр.

Ниже формальное описание вакансии:

🔥 Senior Data Scientist (Banking) | Эр-Рияд | Контракт 12 мес. | Работа в офисе крупного банка

🚀 О проекте:
Работа с ключевым заказчиком — одним из ведущих банков Саудовской Аравии. Реальные задачи, где твои модели и аналитика данных будут влиять на бизнес-решения.

💡 Ты идеальный кандидат, если:
✔️ Опыт 5+ лет в Data Science, включая опыт в банковской сфере (не только кредитный скоринг).
✔️ Полный цикл разработки моделей: от сбора данных и feature engineering до пилотирования и продакшн-внедрения.
✔️ Умеешь переводить бизнес-задачи в технические требования и наоборот — объяснять сложное просто.
✔️ Разбираешься в метриках оценки моделей (как технических, так и бизнес-ориентированных).
✔️ Английский C1+ и soft skills: умеешь слушать, задавать правильные вопросы и адаптироваться под аудиторию.

🔧 Что будешь делать:
▪️ Разрабатывать ML модели и анализировать данные для реальных банковских процессов.
▪️ Работать с данными end-to-end — от сырых данных до работающего решения.
▪️ Тесно коммуницировать с заказчиком, выявляя скрытые потребности и предлагая DS-решения.

💎 Что предлагаем:
▪️ Контракт до 12 месяцев с возможностью продления.
▪️ Работа в офисе банка
▪️ Проживание в компаунде в Эр-Рияде
▪️ Возможность влиять на масштабные проекты на динамично развивающемся рынке.

📌 Как попасть в команду:

Техническое собеседование (проверим hard skills).

Собеседование с Заказчиком проекта (оценим soft skills).

Оффер — и переезд в Эр-Рияд!

❗️ Важно: Только для готовых к релокации в Саудовскую Аравию (или уже находящихся там).

Закидывать резюме и / или атаковать вопросами Сашу

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥

🗓 Регистрация: https://cnrlink.com/ecup25data
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.

Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров

Регистрация на платформе Codenrock: https://cnrlink.com/ecup25data

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

На картинке один из вариантов машины Руба Голдберга
И она тесно связана с историей создания этого канала.

Представьте, воскресенье, вас внезапно добавляют в чатик с внешними консультантами, работающими над дата-стратегией одной большой компании (к счастью не той, в которой работаю). И просят срочно прокомментировать какая инфраструктура понадобится для такого процесса:

1. Учим RecSys-модели
2. Берем эмбеддинги пользователей
3. Скармливаем их специально обученной LLM
4. Специально обученная LLM по этим эмбеддингом генерит текстовый портрет клиента
5. По текстовому портрету клиента определяется потребность в продуктах
6. Дальше клиенты сегментируются для массовых рассылок рекламных предложений
7. На выходе — сегменты (🤡) по склонности к покупке

Более сложного пути построить look-a-like (LaL) вроде и не придумать 😆

Подгорело у меня тогда настолько знатно, что на следующий день я отвел дочь в школу, вернулся, налил кофе и запилил первый пост

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Сегодня в программе небольшое расследование

Прошлой осенью начал понемного вовлекаться во всероссийскую олимпиаду школьников по ИИ.
Да-да, парни 10-11 класс вполне бодро решают задачки, которые не всякий мидл осилит.
Но всеросс всероссом, есть же еще и межнар.

И судя по победным заголовкам, наши ребята впереди планеты всей и на них:

Вот что пишет РИА:

"В Болгарии подвели итоги первой Международной олимпиады по искусственному интеллекту (IOAI) среди старшеклассников, которая прошла с 9 по 14 августа 2024 года. Сборная России показала лучший результат в научном туре конкурса и завоевала золотые медали, завоевала серебро в практическом этапе и стала первой по сумме баллов за оба этапа конкурса", — рассказали агентству.
Известия:

Восемь школьников представят Россию на Международной олимпиаде по искусственному интеллекту в Пекине, сообщили «Известиям» в Альянсе в сфере ИИ 12 мая. Соревнования состоятся 2–9 августа.
Но
последние годы жизнь научила фактчекингу, полез искать эту олимпиаду

Нашел такую
https://www.iaio-official.org/ — под эгидой UNESCO и ACM

И такую

https://ioai-official.org/board/

Признаков сборной России ни там ни там не нашел, зато во второй вот такой список стран-фаундеров:

Australia, Bangladesh, Brazil, Bulgaria, Canada, China, Colombia, El Salvador, Estonia, Hong Kong, Hungary, Iran, Isle of Man, Japan, Jordan, Kazakhstan, Kyrgyzstan, Macau, Malaysia, Mongolia, Nepal, Netherlands, Poland, Letovo, Romania, Singapore, Sweden, Chinese Taipei, Tunisia, Turkey, United Arab Emirates, United States, Vietnam.

Судя по наличию в списке террористического Ирана (спонсора Хезболлы и Хамаса, устроивших теракт 7 октября 2023), каких-то политических ограничений на страны не было, но вы разве знаете такую страну — Letovo? Мб речь о Лесото?
Вот и я нет, решил написать секретарю олимпиады -- что же это за страна такая, неужто она у нас в Подмосковье.

Ииииии

Секретарь олипиады -- сотрудница Центрального Университета (который судя по публикациям и готовит школьников на эту олимпиаду, причем очень успешно -- респект преподавателям!).

Друзья, мб не будем стесняться своей страны? Другой у нас нет

UPD
После поста в личку пришли ребята из пары других университетов (не ЦУ) -- сказали что подавали заявки от РФ, но оргкомитет олимпиады не ответил 🧐

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Друг поделился ссылкой на классику, которая играет у него в голове при встрече с "обладателями приятных софтов" и прочими канальями -- рассказчиками о светлом ai-будущем. Пятый раз клип пересматриваю и вам рекомендую )

PS Хотя есть гипотеза что это рекомендашка под меня -- не зря же они сегодня 2-е место на RecSysChallenge взяли, поздравьте ребят! 🍾🍾🍾

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Давно не было про манагеров-каналий

Вот топ фраз, которые я услышал только за эту неделю 😱:

Мы не смотрели в дашборд, ограничились своими ресурсами но <…> Мы совершенно не понимаем что происходит!!!! 😡

Мы запустили рекламу на всю базу (XX млн), но что-то конверсия низкая 🤔

— У нас есть look-a-like модель, мы ее пару лет развиваем, которая предсказывает срабатывание триггера к покупке (но что это триггер к покупке — наша гипотеза).
— Мб будем строить look-a-like таргетируясь на саму покупку? Искать похожих на тех, кто купил?
— Вау, точно, как-то в голову не приходило! Дайте два! 😍

Мы запускали рекламу на огромном сегменте, но 90% отсекла контактная политика. Как так?! 😡🤬

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Утром пятницы все мысли только про работу 🙈

К нам в BigData МТС в команду Dynamic Pricing ищем крепкого DS-мидла

Classic ML / Статистика / Оптимизация
Spark / SQL — будет плюсом

Что делать: модели ценообразования, много бандитов, много Causal Inference и A/B, развивать внутреннюю библиотеку

Ниже формальное описание вакансии и контакты Тани (рекрутера)

Так на сайте

А так постом в тг:

Мы ищем Middle Data Scientist в команду Dynamic pricing
🥚Компания: МТС (Big Data)
📍Локация: Россия
🕞 График: 1 день в неделю в офисе

Команда Dynamic pricing занимается созданием комплексного решения, которое позволяет гибко управлять ценами товаров/услуг/подписок в зависимости от профиля клиента/характеристик товара для достижения различных бизнес-целей. В рамках продукта предстоит не только строить точные ценовые модели, но и встраивать их в операционные процессы компании.

Что мы ищем в кандидате:
• Глубокое понимание статистических подходов и методов (регрессия, свойства распределений, оценка максимального правдоподобия, проверка гипотез и их правильное использование), опыт их применения
• Коммерческий опыт применения классических алгоритмов машинного обучения, их калибровки, понимание преимуществ, недостатков и ограничений
• Хороший уровень SQL (не критично -- если по остальным параметрам ок, то SQL вы за пару вечеров освоите)
• Опыт проведения A/B тестов

Что нужно делать:
• Исследовать наборы сырых данных для поиска нужных фичей
• Строить модели персонализации параметров предложения (look-alike, multiclass) для абонентов b2c на всех этапах их жизненного цикла: привлечение, адаптация развитие, работа с оттоком
• Строить классические модели спроса и response-модели
• Оценивать эластичность спроса и подбирать оптимальную цену для достижения различных бизнес целей компании
• Выполнять сегментацию пользователей и товаров для различных задач
• Поддерживать текущие решения на продукте, сопровождать постановки на регламент процессов в airflow и A/B-тесты моделей

Что предлагаем:
• ДМС, куда включены: стоматология, страхование жизни и страховка при поездках за рубеж
• Корпоративный психолог и карьерный коуч
• Бесплатная сотовая связь, выгодные тарифы для ваших близких, промокод на онлайн-кинотеатр KION и бесплатная подписка на МТС Premium
• Программа «Invite IT» (реферальная программа поощрения за рекомендацию ИТ-специалиста) и многое другое

Кому интересно -- пишите Тане @TatianaEllington

По собеседованиям:

1) блиц-опрос из 10 коротких простых вопросов на звонке сТаней
2) Собеседование по стастистике и Classic ML
3) Раунд про python / sql
4) Раунд с продактом и HR -- рабочие кейсы

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

В России выпустили первую коллекцию РУССКОЙ одежды для офисных трудяг. Бренд commotion заморочился и импортозаместил все самые популярные должности, например:

• Копирайтер — писарь
• Тимлид — старейшина
• Сисадмин — домовой
• Аналитик — ведун
• Эйчар — сваха.

Футболки с принтами уже в продаже, цена — 2500 рублей.

рубахи что надо, эх, любо ❤️

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

было.....

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Переслали мне корпоративную методичку по управлению продуктовым портфелем

Итак, если бы пожарную команду создавали по этой методичке:

1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров

2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше

3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку

А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂

PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других

PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Один мой израильский друг решил воспользоваться colab'овским autocompletion и вот что из этого вышло (на картинке) 🤮

Более того, такое название модели -- HitlerGPT -- не случаное совпадение, согласно readme она дообучена (peft) на текстах Гитлера -- да и примеры там антисемитские.

К счастью, популярной ее не назовешь, но как же она оказалась в колабе? Есть идеи?

Google открещивается:


AI Overview
Google Colab's autocompletion feature is powered by Codey, a family of code models built on the PaLM 2 architecture. These models are fine-tuned on a large dataset of high-quality, permissively licensed code from various sources, enabling them to provide intelligent and context-aware code suggestions.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Сегодня попал в Сити на один форум и вынужден был слушать в панели экспертования манагеров-каналий про рекомы, чуть руку не сломал борцовским приемом «фейспалм» 🤦‍♂️.

Все эти «на самом дела» и прочие «здравые смыслы», и «я 5 лет в отрасли и знаю что нужно пользователю» 🤦‍♂️.
Ни намека на метрики и A/B, зато вопросы. В духе: А как сделать так чтобы рекомендации были социально справедливыми? Знаете ответ? «А давайте снимать только хороший, патриотический контент».
Прям в стиле песни Захар Борисовича

Для таких вот у меня есть коробок вполне публичных примеров (а после беседы с пиар-службой кейсы теперь приходится фильтровать — заметили как их стало меньше в канале? — правда, большая часть просто ушла в отложку в 2026й)

Итак, канальи думали что SJM чем короче тем лучше, и вообще одной красной кнопки «купить» достаточно.
Ха раз
Ха второй раз

Добавление доп шагов к форме регистрации или к процессу покупки — увеличивает конверсии а не уменьшает! В их конкретных кейсах!

Другие канальи решили что если показывать что продукт популярен в соцсетях (social proof) то конверсия будет больше, но увы

А здесь вообще в одной статье собраны противоположные результаты : в одном продукте перфомят длинные тексты, в другом короткие. В одном продают простые заголовки, в другом сложные.

Пользователи охотнее делятся шортсами или длинными?
Надо проверять именно в вашем сервисе, а мб вообще в конкретной категории.
Смотрите с опаской на тех кто «знает как думает пользователь».

PS и самое вкусное, для тех кто не читал Ходжу Насреддина

На платформе Unbounce провели A/B-тест: Get MY free 30-day trial против Get YOUR 30-day trial

Результат, ожидаемо, на картинке к посту

Однажды Насреддин увидел толпу возле пруда, что рядом с мечетью. Подойдя поближе, он увидел, что в пруду тонет мулла. Люди кричали ему: "Дайте руку, почтеннейший, дайте руку! ", но тот только булькал и руки не протягивал. Тогда Насреддин подбежал и закричал: "Нате руку, почтеннейший, нате! " -- и мулла схватился. Когда люди спросили Ходжу, как ему удалось спасти муллу, он ответил:
-- Глупцы! Разве можно говорить мулле "Дайте"! Он понимает только "Нате"!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Выступали сегодня с коллегой из MTS AI перед студентами ШАД МТС.
Коллега — Senior CV-инженер. Когда его студенты спросили — пошел бы он сегодня в CV будь он на их месте, он уверенно ответил — «нет, я бы в LLM, вон visual transformer такой же трансформер как в LLM».

Здесь меня накрыли флэшбеки — я хорошо помню как в 16-20х годах как раз CV был модной темой, особенно 3D. На ICCV’19 в Сеуле был почти десяток российских CV-стартапов, в основном из Нижнего (списываю на близость интеловского RnD-центра).
Банки рисовали роадмепы по добавлению CV (в тч OCR) во все процессы — и фото заемщика в кредитный скоринг, и при входе в отделение распознавать эмоции и подсовывать «правильного менеджера» и делать скриншот сайта клиента чтобы определять «психологическую направленность» бизнеса — да мало ли фантазий у менеджеров?

В 2016 на волне успехов в CV выходили статьи что вот-вот и сингулярность наступит (Fortune как-никак, не совсем мурзилка).
Прошло 9 лет, и вот почти то же самое от BBC (вчера вышла статья)
Видимо, мы где-то около пика цикла Гартнера и надо смотреть уже на что-то новое, с llm и агентами более-менее ясно с применением и ограничениями (разве что инференс еще на пару порядков не удешевится).

Есть идеи что может быть новым прорывом? Именно в технологиях?

Сам не вижу, разве что развитие reasoning + computer use чтобы заменить офисных двуногих -- но это не тех прорыв очевидно

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Тренировки по ML

2️⃣3️⃣ мая состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этого занятия обсудим соревнования по рекомендательным системам:
⚪️разберем разновидности задач (классическая рекомендательная система, ранжирование и более экзотические постановки)
⚪️сделаем обзор соревнований и их решений за последние несколько лет
⚪️посмотрим на основные подходы к решениям на примере некоторых соревнований, в которых участвовал приглашенный эксперт

📢 Спикер: Михаил Каменщиков, руководитель команды рекомендаций в Авито, Kaggle Master, призер конкурсов по рекомендательным системам, преподаватель ML System Design в Академии Аналитиков Авито

📆 Когда: 23 мая с 18:10
🗺️ Где: Покровский бульвар, 11, ауд. S224

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам вы можете обращаться к Александре ▶️

Читать полностью…
Subscribe to a channel