datarascals | Unsorted

Telegram-канал datarascals - Дата канальи — про «специалистов» в данных / ML / AI

2451

Перлы из жизни аналитиков и ds — от безобидных заблуждений до откровенного надувательства. Посвящается AI-евангелистам (любителям интеграций формул в экселе и LLM). Для связи @NikitaZelinskiy

Subscribe to a channel

Дата канальи — про «специалистов» в данных / ML / AI

Сегодня в программе небольшое расследование

Прошлой осенью начал понемного вовлекаться во всероссийскую олимпиаду школьников по ИИ.
Да-да, парни 10-11 класс вполне бодро решают задачки, которые не всякий мидл осилит.
Но всеросс всероссом, есть же еще и межнар.

И судя по победным заголовкам, наши ребята впереди планеты всей и на них:

Вот что пишет РИА:

"В Болгарии подвели итоги первой Международной олимпиады по искусственному интеллекту (IOAI) среди старшеклассников, которая прошла с 9 по 14 августа 2024 года. Сборная России показала лучший результат в научном туре конкурса и завоевала золотые медали, завоевала серебро в практическом этапе и стала первой по сумме баллов за оба этапа конкурса", — рассказали агентству.
Известия:

Восемь школьников представят Россию на Международной олимпиаде по искусственному интеллекту в Пекине, сообщили «Известиям» в Альянсе в сфере ИИ 12 мая. Соревнования состоятся 2–9 августа.
Но
последние годы жизнь научила фактчекингу, полез искать эту олимпиаду

Нашел такую
https://www.iaio-official.org/ — под эгидой UNESCO и ACM

И такую

https://ioai-official.org/board/

Признаков сборной России ни там ни там не нашел, зато во второй вот такой список стран-фаундеров:

Australia, Bangladesh, Brazil, Bulgaria, Canada, China, Colombia, El Salvador, Estonia, Hong Kong, Hungary, Iran, Isle of Man, Japan, Jordan, Kazakhstan, Kyrgyzstan, Macau, Malaysia, Mongolia, Nepal, Netherlands, Poland, Letovo, Romania, Singapore, Sweden, Chinese Taipei, Tunisia, Turkey, United Arab Emirates, United States, Vietnam.

Судя по наличию в списке террористического Ирана (спонсора Хезболлы и Хамаса, устроивших теракт 7 октября 2023), каких-то политических ограничений на страны не было, но вы разве знаете такую страну — Letovo? Мб речь о Лесото?
Вот и я нет, решил написать секретарю олимпиады -- что же это за страна такая, неужто она у нас в Подмосковье.

Ииииии

Секретарь олипиады -- сотрудница Центрального Университета (который судя по публикациям и готовит школьников на эту олимпиаду, причем очень успешно -- респект преподавателям!).

Друзья, мб не будем стесняться своей страны? Другой у нас нет

UPD
После поста в личку пришли ребята из пары других университетов (не ЦУ) -- сказали что подавали заявки от РФ, но оргкомитет олимпиады не ответил 🧐

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Друг поделился ссылкой на классику, которая играет у него в голове при встрече с "обладателями приятных софтов" и прочими канальями -- рассказчиками о светлом ai-будущем. Пятый раз клип пересматриваю и вам рекомендую )

PS Хотя есть гипотеза что это рекомендашка под меня -- не зря же они сегодня 2-е место на RecSysChallenge взяли, поздравьте ребят! 🍾🍾🍾

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Давно не было про манагеров-каналий

Вот топ фраз, которые я услышал только за эту неделю 😱:

Мы не смотрели в дашборд, ограничились своими ресурсами но <…> Мы совершенно не понимаем что происходит!!!! 😡

Мы запустили рекламу на всю базу (XX млн), но что-то конверсия низкая 🤔

— У нас есть look-a-like модель, мы ее пару лет развиваем, которая предсказывает срабатывание триггера к покупке (но что это триггер к покупке — наша гипотеза).
— Мб будем строить look-a-like таргетируясь на саму покупку? Искать похожих на тех, кто купил?
— Вау, точно, как-то в голову не приходило! Дайте два! 😍

Мы запускали рекламу на огромном сегменте, но 90% отсекла контактная политика. Как так?! 😡🤬

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Утром пятницы все мысли только про работу 🙈

К нам в BigData МТС в команду Dynamic Pricing ищем крепкого DS-мидла

Classic ML / Статистика / Оптимизация
Spark / SQL — будет плюсом

Что делать: модели ценообразования, много бандитов, много Causal Inference и A/B, развивать внутреннюю библиотеку

Ниже формальное описание вакансии и контакты Тани (рекрутера)

Так на сайте

А так постом в тг:

Мы ищем Middle Data Scientist в команду Dynamic pricing
🥚Компания: МТС (Big Data)
📍Локация: Россия
🕞 График: 1 день в неделю в офисе

Команда Dynamic pricing занимается созданием комплексного решения, которое позволяет гибко управлять ценами товаров/услуг/подписок в зависимости от профиля клиента/характеристик товара для достижения различных бизнес-целей. В рамках продукта предстоит не только строить точные ценовые модели, но и встраивать их в операционные процессы компании.

Что мы ищем в кандидате:
• Глубокое понимание статистических подходов и методов (регрессия, свойства распределений, оценка максимального правдоподобия, проверка гипотез и их правильное использование), опыт их применения
• Коммерческий опыт применения классических алгоритмов машинного обучения, их калибровки, понимание преимуществ, недостатков и ограничений
• Хороший уровень SQL (не критично -- если по остальным параметрам ок, то SQL вы за пару вечеров освоите)
• Опыт проведения A/B тестов

Что нужно делать:
• Исследовать наборы сырых данных для поиска нужных фичей
• Строить модели персонализации параметров предложения (look-alike, multiclass) для абонентов b2c на всех этапах их жизненного цикла: привлечение, адаптация развитие, работа с оттоком
• Строить классические модели спроса и response-модели
• Оценивать эластичность спроса и подбирать оптимальную цену для достижения различных бизнес целей компании
• Выполнять сегментацию пользователей и товаров для различных задач
• Поддерживать текущие решения на продукте, сопровождать постановки на регламент процессов в airflow и A/B-тесты моделей

Что предлагаем:
• ДМС, куда включены: стоматология, страхование жизни и страховка при поездках за рубеж
• Корпоративный психолог и карьерный коуч
• Бесплатная сотовая связь, выгодные тарифы для ваших близких, промокод на онлайн-кинотеатр KION и бесплатная подписка на МТС Premium
• Программа «Invite IT» (реферальная программа поощрения за рекомендацию ИТ-специалиста) и многое другое

Кому интересно -- пишите Тане @TatianaEllington

По собеседованиям:

1) блиц-опрос из 10 коротких простых вопросов на звонке сТаней
2) Собеседование по стастистике и Classic ML
3) Раунд про python / sql
4) Раунд с продактом и HR -- рабочие кейсы

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

В России выпустили первую коллекцию РУССКОЙ одежды для офисных трудяг. Бренд commotion заморочился и импортозаместил все самые популярные должности, например:

• Копирайтер — писарь
• Тимлид — старейшина
• Сисадмин — домовой
• Аналитик — ведун
• Эйчар — сваха.

Футболки с принтами уже в продаже, цена — 2500 рублей.

рубахи что надо, эх, любо ❤️

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

было.....

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Переслали мне корпоративную методичку по управлению продуктовым портфелем

Итак, если бы пожарную команду создавали по этой методичке:

1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров

2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше

3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку

А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂

PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других

PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Один мой израильский друг решил воспользоваться colab'овским autocompletion и вот что из этого вышло (на картинке) 🤮

Более того, такое название модели -- HitlerGPT -- не случаное совпадение, согласно readme она дообучена (peft) на текстах Гитлера -- да и примеры там антисемитские.

К счастью, популярной ее не назовешь, но как же она оказалась в колабе? Есть идеи?

Google открещивается:


AI Overview
Google Colab's autocompletion feature is powered by Codey, a family of code models built on the PaLM 2 architecture. These models are fine-tuned on a large dataset of high-quality, permissively licensed code from various sources, enabling them to provide intelligent and context-aware code suggestions.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Сегодня попал в Сити на один форум и вынужден был слушать в панели экспертования манагеров-каналий про рекомы, чуть руку не сломал борцовским приемом «фейспалм» 🤦‍♂️.

Все эти «на самом дела» и прочие «здравые смыслы», и «я 5 лет в отрасли и знаю что нужно пользователю» 🤦‍♂️.
Ни намека на метрики и A/B, зато вопросы. В духе: А как сделать так чтобы рекомендации были социально справедливыми? Знаете ответ? «А давайте снимать только хороший, патриотический контент».
Прям в стиле песни Захар Борисовича

Для таких вот у меня есть коробок вполне публичных примеров (а после беседы с пиар-службой кейсы теперь приходится фильтровать — заметили как их стало меньше в канале? — правда, большая часть просто ушла в отложку в 2026й)

Итак, канальи думали что SJM чем короче тем лучше, и вообще одной красной кнопки «купить» достаточно.
Ха раз
Ха второй раз

Добавление доп шагов к форме регистрации или к процессу покупки — увеличивает конверсии а не уменьшает! В их конкретных кейсах!

Другие канальи решили что если показывать что продукт популярен в соцсетях (social proof) то конверсия будет больше, но увы

А здесь вообще в одной статье собраны противоположные результаты : в одном продукте перфомят длинные тексты, в другом короткие. В одном продают простые заголовки, в другом сложные.

Пользователи охотнее делятся шортсами или длинными?
Надо проверять именно в вашем сервисе, а мб вообще в конкретной категории.
Смотрите с опаской на тех кто «знает как думает пользователь».

PS и самое вкусное, для тех кто не читал Ходжу Насреддина

На платформе Unbounce провели A/B-тест: Get MY free 30-day trial против Get YOUR 30-day trial

Результат, ожидаемо, на картинке к посту

Однажды Насреддин увидел толпу возле пруда, что рядом с мечетью. Подойдя поближе, он увидел, что в пруду тонет мулла. Люди кричали ему: "Дайте руку, почтеннейший, дайте руку! ", но тот только булькал и руки не протягивал. Тогда Насреддин подбежал и закричал: "Нате руку, почтеннейший, нате! " -- и мулла схватился. Когда люди спросили Ходжу, как ему удалось спасти муллу, он ответил:
-- Глупцы! Разве можно говорить мулле "Дайте"! Он понимает только "Нате"!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Выступали сегодня с коллегой из MTS AI перед студентами ШАД МТС.
Коллега — Senior CV-инженер. Когда его студенты спросили — пошел бы он сегодня в CV будь он на их месте, он уверенно ответил — «нет, я бы в LLM, вон visual transformer такой же трансформер как в LLM».

Здесь меня накрыли флэшбеки — я хорошо помню как в 16-20х годах как раз CV был модной темой, особенно 3D. На ICCV’19 в Сеуле был почти десяток российских CV-стартапов, в основном из Нижнего (списываю на близость интеловского RnD-центра).
Банки рисовали роадмепы по добавлению CV (в тч OCR) во все процессы — и фото заемщика в кредитный скоринг, и при входе в отделение распознавать эмоции и подсовывать «правильного менеджера» и делать скриншот сайта клиента чтобы определять «психологическую направленность» бизнеса — да мало ли фантазий у менеджеров?

В 2016 на волне успехов в CV выходили статьи что вот-вот и сингулярность наступит (Fortune как-никак, не совсем мурзилка).
Прошло 9 лет, и вот почти то же самое от BBC (вчера вышла статья)
Видимо, мы где-то около пика цикла Гартнера и надо смотреть уже на что-то новое, с llm и агентами более-менее ясно с применением и ограничениями (разве что инференс еще на пару порядков не удешевится).

Есть идеи что может быть новым прорывом? Именно в технологиях?

Сам не вижу, разве что развитие reasoning + computer use чтобы заменить офисных двуногих -- но это не тех прорыв очевидно

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Тренировки по ML

2️⃣3️⃣ мая состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этого занятия обсудим соревнования по рекомендательным системам:
⚪️разберем разновидности задач (классическая рекомендательная система, ранжирование и более экзотические постановки)
⚪️сделаем обзор соревнований и их решений за последние несколько лет
⚪️посмотрим на основные подходы к решениям на примере некоторых соревнований, в которых участвовал приглашенный эксперт

📢 Спикер: Михаил Каменщиков, руководитель команды рекомендаций в Авито, Kaggle Master, призер конкурсов по рекомендательным системам, преподаватель ML System Design в Академии Аналитиков Авито

📆 Когда: 23 мая с 18:10
🗺️ Где: Покровский бульвар, 11, ауд. S224

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам вы можете обращаться к Александре ▶️

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

И Саша классный и доклад его классный )

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Вот искренне не понимаю, что движет Senior HR Manager выкладывать в проф сети такие фото 🤷 Мб я действительно не понимаю как это работает 🤔

Upd: в комментах выяснили что начальство заставляет ставить такие аватары чтобы повысить отклики кандидатов, более того, парням-рекрутерам ставят аватары девушек для той же цели 😱

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Обещанное имхо про то, что же дифференцирует мидлов / синьоров / лидов и далее до CEO.

По традиции с кейса, но раз уж отпуск вчера закончился — вот вам отпускная история.

Однажды в отпуске (не в этот раз, но в этом же месте) соблазнились мы с семьей экскурсией - поплавать с огромными морскими дьяволами (они же манты, но не те что в хинкальной). Взяли катер, капитана, капитан свою подружку, и поплыли.
Манты они не то чтобы деревья — они не растут в одном месте, они плавают по океану, так что мы доверились капитану, не вникая в географию, и минут 40 плыли от нашего острова, как потом выяснилось, примерно сюда.

Не обнаружив на мелководье дьяволов, пошли в сторону открытого моря, заметили мантов, здесь кэп с подругой и мной высадились в новом месте и поплыли догонять. Предусмотрительно (хе-хе) не взяв ласты и трубку (хорошо хоть очки были), я сильно отстал. Погода начала портиться, и кэп недолго думая свернул удочки, залез с подругой на катер и испарился в одном из равнозначных (посреди моря-то) направлений. Единственная оказия — я-то так и остался в воде 😂🙈. Пошел дождик, ветер поднимает полуметровые волны (а мб и больше — кто их измерял), они накрывают с головой, дальше пары метров вокруг не видно ничего кроме воды, а я стремительно понимаю что не зря возраст Христа считают опасным.

Как вы знаете, фамилия моя не Фелпс, да даже если бы и так — плыть-то в какую сторону? Да и плыть против волн такое — только устанешь быстрее и все, а здесь и на плаву держаться уже не просто.

Через какое-то время тучи сдуло, дождик прошел, море стало поспокойнее, начало проглядывать солнце.
А еще оказалось что туристы с соседнего острова Расду тоже соблазнились плаваньем с мантами и их катер остановился достаточно близко чтобы я к нему доплыл пока они выгружались (человек 10) и ныряли. Характерна реакция их капитана — он нисколько не удивился моему появлению (видимо, белые для них на одно лицо).

Мораль история простая — какие бы у тебя не были харды, и в жизни и в корпорации ты зависишь от других людей, причем жизненно зависишь, и не всегда это очевидно. И, как минимум, чтобы харды применить — надо знать куда плыть.

И дифференциатором грейдов выступают в первую очередь твои социальные навыки и социальный капитал — ни разу не видел чтобы CEO нанимали по объявлению (разве что зиц-председателя Фунта).

Нередко вижу ситуацию когда лидом в компании работает не крутой DS, а тот кто там работает давно.На первый взгляд кажется что это не очень меритократично. Однако, если речь о запуске новой инициативы и выделения ресурсов под нее — у кого будет кредит доверия? Разве у варяга? Разве что у варяга с репутацией и нетворком — и то не факт что оставят без присмотра кого-то «своего», пусть это и не будет формализовано.

Это не значит что не надо растить свою компетенцию — но стоит рассматривать свою экспертность и ее развитие в тч как инструмент социальный. Нужно осваивать навыки речи -- письменной, устной, невербальной. Уметь делать так, чтобы тебя понимали и не понимали когда ты этого хочешь. Но это все -- все еще имхо 😄

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Все руки не доберутся до поста , все силы на рыбалку уходят

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Меньше всего в серьезном статистическом журнале ожидаешь увидеть статью, в которой почти половину составляет такая вот картинка в жанре дидактической графики.

На этом конечно юмор авторов не заканчивается, когда речь о строгой математической формулировке -- парни ссылаются на статью Крамера:

As did Cramer, we leave the proof of the above relation as an
exercise for the reader.
😄😂
Ах да, речь о доказательстве тривиального факта -- если нужно описать распрделение одним числом с минимальной асболютной ошибкой (MAE), то этим числом будет медиана (а если с минимальным MSE -- среднее).

PS В Conclusion крик души преподавателя:
Most mathematical statistics students prove this property of the median as an exercise at some stage in their training, but soon forget it. Thus, the long-term impact of the exercise is less than it could be (someone once de¢ned education as “what remains after one has forgotten what one has learned”). Later, many of them, and many nonstatistical studentstoo, would, if asked, argue that the average distance is minimized by the mean. We suggest that it is time to “move up” from the proofs in mathematical statistics texts to more instructive ones which, using concrete examples, allow one to show visually what makes the median such a central location.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Наконец-то выложили запись разговора с Александром Рыжковым -- уникальным 4x Kaggle GM
Мой первый опыт в роли интервьюера)

Ниже анонс от коллег:

Что ждет AutoML и как побеждать на Kaggle? 🔥

На недавней конференции MTS True Tech Day состоялось крутое интервью, которое нельзя пропустить! Никита Зелинский (CDS MTS) пообщался с Александром Рыжковым — ex-руководителем LightAutoML, а ныне Avito R&D unit lead.

Обсудили самое мясо:
🏆 Победа на Kaggle AutoML Grand Prix 2024: инсайты и стратегии от победителя.
🚀 Будущее AutoML: куда движется индустрия и какие тренды нас ждут?
🤖 AI-агенты: как они уже меняют нашу работу и жизнь.

Получился концентрированный разговор о передовых технологиях и практическом опыте. Очень рекомендуем к просмотру!

▶️ Смотреть запись интервью: тыц

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Число постов в канале упало не просто так (о, великий султан, на то была тысяча причин).

И основная — нам с ребятами очень хотелось систематизировать наработки по мультиагентным системам (мы строим их уже полтора года) и поделиться этими знаниями с миром.

Мы запустили курс по ИИ-агентам, не супер большой, но, надеюсь, достаточно емкий.

Я расскажу (и покажу) базу — токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.

Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет -- он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее. // Дима юзает qwen-agent

Надеюсь, мы смогли поймать баланс между обзорным курсом на 5 живых вебинаров, базой, практикой и способностью студента на выходе не просто собрать очередной прототип, а выстроить систему, которая в каждой точке оценивается и понятно как ее развивать, масштабировать, делать точнее.

Если вдруг кто захочет поучиться — есть промокод, datarascals

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Кого только не встретишь в Московской области 🐻

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

HR = сваха 😂

А вот за DS обидно что не попали,
Поэтому вот варианты от DeepSeek:

Вот варианты от дипсика:

Если перевести профессию "data scientist" на славянский манер, можно использовать такие варианты:

1. Данномудр – от *"данные"* + *"мудрость"* (аналог «волхва» или «знатока данных»).
2. Числобер – от *"число"* + *"собирать"* (как «зверобой» или «грибник», но для чисел).
3. Знамений – от *"знание"* + *"предзнаменование"* (тот, кто извлекает смысл из данных).
4. Счётознатец – от *"счёт"* + *"знание"* (аналог «книжника» или «летописца» цифровой эпохи).
5. Рядолог – от *"ряды данных"* + *"-лог"* (как «геолог», но для анализа последовательностей).
6. Ведоум – от *"ведать"* (знать) + *"ум"* (разум), в духе древнеславянских имён.
7. Графич – укороченное от *"графика данных"*, звучит как старославянское ремесло.
8. Мудродатчик – игра слов: *"мудрость"* + *"дата"*, с налётом волшебства.

Ну

хоть не скоромох 🤡

Числобер, любящий 4, это квадробер?
Предлагайте свои варианты как обозвать DS по-старославянски, велком

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

В эпоху платных API и даже чатов, когда монстры ИИ прайсят нас за потребленные токены, вопрос «какому языку учить детей» должен решаться как-то более современно.

Например, в каком из них на одну и ту же фразу уходит меньше токенов (экономика должна быть экономной!)

from itertools import product
from transformers import BertTokenizerFast
from tabulate import tabulate

bert_tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
china_tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
tok_names = {'bert': bert_tokenizer, 'china': china_tokenizer}

texts = [
'Обычно при использовании API вас прайсят за число токенов',
'Usually when using the API you are charged per number of tokens',
'通常使用 API 時,您需要按令牌數量付費'
]

results = []
for text, tokenizer_name in product(texts, tok_names):
tokenizer = tok_names[tokenizer_name]
encoded = tokenizer.encode_plus(
text,
truncation=True,
max_length=128,
return_tensors="pt"
)
num_tokens = encoded['input_ids'].shape[1]

results.append([
text
, tokenizer_name
, num_tokens
])

headers = ["Текст", "Токенизатор", "Число токенов"]
print(tabulate(results, headers=headers, tablefmt="grid", numalign="center"))

PS: Йошихиро Такаяма -- японец-таки
PPS: Китайский все же немного сломал табулятор, но английский пока выигрывает
PPPS: идеей вдохновился на м
л-тренировке у Саши Киреева, приходите в сл субботу на финальную в этом учебном году!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Вчерашняя конференция была прям хорошая, орги обещают выложить записи -- буду ждать.

А пока делюсь слайдами с рассказа о трансформерах в рекомах, пробовал нарисовать так чтобы было максимально понятно человеку, хоть немного знакомому с DS, надесь получилось (ставьте клоуна если ничего не понятно, лойс если понятно) 😅

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Буду рад вас всех видеть в эту пятницу на MTS True Tech Day!
Целый день проведу на треке AI&ML — начну с рассказа про трансформерные архитектуры в рекомендациях от царя гороха до сегодня, не забыв прорекламировать RecTools 🤖

Потом обязательно послушаю Саню где искренне надеюсь узнать как и чем правильно дополнить LLM as a (Dredd) Judge в оценке RAGа 🤓

А затем уже несекретный спикер — но не буду здесь спойлерить 🤫).

Точно послушаю про LLM от Дани (святой человек 😇 без тг-канала) и Вали,
а ближе к концу возьму интервью у лидера LAMA — 4х грандмастера Kaggle Саши Рыжкова 👑 о том как нас всех заменит AutoML — но если есть еще идеи вопросов — велкам в каменты, обещаю один вопрос из коментов точно задать Саше на сцене.

Регистрация еще открыта -- увидимся в пятницу 🤗

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Если отвлечь синьора и дизайнера, то, кажется, можно даже понятно нарисовать как SASRec учится. Интересно, получится ли с моделями поновее и побольше -- HSTU и FUXI-alpha 🤔

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Напоминаю , что вечером тренировка — будем рады видеть всех )

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Презентация моего доклада на IML

Видео доклада выйдет через несколько месяцев, а пока могу поделиться слайдами (уже несколько человек спрашивало).

Можете задавать вопросы прямо сюда!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Когда все пишут про агентов, огромные контексты, копайлоты и прочие чудеса мысли и технологии, кто-то упорно доказывает что SMOTE и другие нехорошие семплинги таргетов -- это плохо (2025й год на дворе так-то) .

И ладно бы, но глаз зацепил RUSBoostClassifier. Вот уж неожиданно, но, вроде, просто совпадение.

Хотя в NgBoost название двойное -- и natural gradients и Эндрю Ын (Ng) в авторах.

А на картинке -- как себе представил RUSBoostClassifier Кандинский 3.1 от Сбера (не буду советовать SMOTE, но и для диффузионок есть подходы в части баланса классов)

PPS. ложная тревога -- в авторах метода русских не видно: https://ieeexplore.ieee.org/document/4717268

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

А что же харды? Только чтобы надувать щеки и блистать «экспертностью»?

Искренне убежден, что нормально заботать харды можно исключительно по фану — иначе заснешь на 12й странице / на второй домашке курса etc.

У Виктора вышел классный пост с тремя разными доказательствами почему L1-регуляризация таки зануляет веса признаков, и одно из них через теорему Куна-Такера (судя по частоте упоминаний, она у Вити одна из любимых).

Не помню чтобы нам на отделении геофизики рассказывали теорему Куна-Такера, зато был алгоритм Кули-Тьюки — причем существенно так был, ведь громадное число курсов было сфокусировано на преобразовании Фурье (уверен что курс ТФКП был только из-за него, а алгоритмы и годовой курс вычмата -- только из-за БПФ) и связанных вещах (или извращениях вроде кепстров и гомоморфных фильтраций).

Так вот, этот Тьюки написал совершенно замечательный учебник Exploratory Data Analysis — это и практическое руководство как выкрутится когда в статьи принимают только монохромные картинки (1977 год, на секундочку — никаких тебе d3.js и plotly) так, чтобы они были читаемыми (после всех игр со значками, точками, шрифтами и отступами), и сборник задач на интерпретацию и / или визуализацию вполне реальных экспериментов из статей 50-60-х, так и куча вполне практических приемов (большинство которых безнадежно устарели) с которыми вы вряд ли встретитесь — например, как округлять осьмушки в десятичные шкалы, как печатать если бумага не того размера и имеет сероватый оттенок — все это вперемешку с шутейками в стиле шоу Фрая и Лори.

Так что если у вас впереди пара долгих перелетов и вы любите анализ и визуализацию данных — искренне советую, максимум удовольствия.
Такое вот отпускное чтиво

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

нормально у них там электричество отключили -- аж дедлайн на 4 дня продлили (был 12го)

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Еще в копилку тревожности синьоров и манагеров -- Revenge of the junior developer

Классческий естественный отбор -- выживает самый адаптивный

Читать полностью…
Subscribe to a channel