Проекты с менторами из Sber AI Lab — реальность для наших магистрантов 🤩
Так, в сентябре 2022 года магистранты Константин Темплин и Кристина Желтова познакомились на Bootcamp с экспертом из индустрии Александром Рыжковым, руководителем команды разработки LightAutoML в Sber AI Lab. А после создали инструмент для упрощения развертывания моделей машинного обучения MLJET.
Как сейчас продвигается проект и какие новые фичи ребята успели внедрить — читайте на Хабре 👉🏻 clck.ru/34ctPJ
Хотите создавать такие же крутые проекты? Присоединяйтесь к онлайн-магистратуре 🚀
Всем привет! рады сообщить, что в зоопарке open source решений AI Lab пополнение - либа eco2AI.
Она считает экв. объем CO2 эмиссии в процессе обучения моделей.
Зачем это нужно? Оказывается, углеродный след, как и энергопотребление, является хорошей единицей измерения для оценки эффективности моделей. Можно следить не только за качеством моделей, но и за ценой прироста этого качества в эквиваленте CO2.
Будет круто, если удастся потестить, поэкспериментировать. Будем рады услышать любую критику и предложения по доработке. В профиле либы на GitHub есть ссылка на статью для понимания того, как это все работает и примеры)
Наша либа отдельно номинирована в международном конкурсе WSIS в номинации Environment. Сегодня последний день голосования.
Поддержите плиз, по ссылке:
https://www.itu.int/net4/wsis/stocktaking/Prizes/2023/Nominated?jts=GIZE1R&idx=14&page=12#start
Начиная с нескольких последних релизов в LightAutoML встроен функционал предсказания следующих значений временного ряда (forecasting).
Что он в себя включает:
0. Поддержка регулярных одномерных временных рядов с малым числом пропусков и дополнительными признаками.
1. Мультиатпут модели (и новые таски обучения) для предсказания сразу нескольких точек вперед одновременно, что отличает нас от аналогичных решений.
2. Простые пайплайны признаков (лаговые признаки + сезонности из дат) для фиксированного горизонта истории.
3. Модуль работы с аддитивным монотонным трендом.
4. Реализация сейчас не подразумевает тюн гиперпараметров по TS валидации.
5. Датасет должен содержать в себе колонку с таймстемпами в формате даты.
При этом сейчас мы можем работать одновременно с несколькими сегментами рядов, но только при сборке автомл пайплайна из блоков и без тренда. Айди сегмента подается как отдельный признак.
Мы также провели ряд численных экспериментов и увидели, что несмотря на крайнюю простоту подхода и простые признаки, в некоторых постановках задач LAMA работает на уровне или лучше других решений.
Обычно это:
А. Одномерные ряды среднего размера (от сотни наблюдений)
Б. В данных нет тренда, но встречается сезонность.
В. Горизонт предсказания не слишком длинный (порядка 7-20 точек).
Пример запуска на одном ряде, а также иллюстрации работы и численные результаты в комментариях к данному посту.
🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что-то пошло не так;
- «Успех года с LightAutoML»: о том как Лама помогла вам ускорить свою производительность или добится существенного прироста качества за короткий срок;
- «Хакатон года с LightAutoML»: о том, как вы участвовали с Лама, с каким решением и какое место заняли, а может есть то, чего вам не хватило в Лама для победы?
- «Стахановец года с LightAutoML»: о том сколько пилотов вы сделали, внедрили моделек в пром с помощью Лама;
- «Просветитель года LightAutoML»: присылай ссылку на свою статью о том, как с помощью LAMA сделал что-либо полезное, или фреймворк тебе помог в нелегких буднях (возможно у тебя есть статья на Хабре или другом ресурсе)
Принимаем кейсы для конкурса в виде 2х красивых слайдов в pdf/pptx или ссылок на аналогичные материалы на почту ml.tools.center@gmail.com или lama_info@sberbank.ru до 30 сентября 2022 года.
Авторы лучших кейсов получат толстовки 🏆 от LightAutoML и Sber AI Lab.
Лучшие кейсы будут опубликованы в канале с согласия авторов!
В преддверии завтрашнего семинара можно, во-первых, посмотреть статью коллег:
📄 Anton Vakhrushev, Alexander Ryzhkov, Dmitry Simakov, Rinchin Damdinov, Maxim Savchenko, Alexander Tuzhilin "LightAutoML: AutoML Solution for a Large Financial Services Ecosystem”
Во-вторых, ознакомиться с кейсами нестандартного использования LightAutoML, которые Александр будет разбирать на семинаре:
📌 LightAutoML Pseudolabel NLP Baseline
📌 LightAutoML Adversarial Validation
Последний кейс подготовлен непосредственно для нашего семинара, и вообще Александр обещает, что завтра будет много нового контента про LightAutoML, так что не пропустите!
Привет, коллеги!
Мы снова к вам с хорошими новостями с полей практического применения инструментов нашего центра AI Lab.
Некоторое время назад завершилось соревнование Autism Prediction, в котором на приватном ЛБ нам удалось занять 23-е место из 118 (поднялись на 12 мест относительно публичного ЛБ) с использованием LightAutoML (кернел с пруфом). Мы до конца верили в устойчивость своей модели и новые данные нас за это вознаградили - shake-up всего ЛБ оказался супер-драматичным: в топ-10 приватного ЛБ оказались участники, поднявшиеся на 20+ позиций по итогу пересчета. Отдельно хочу отметить, что нам удалось серьезно (на 0.7%) обогнать коллег из Prevision.io, которых пересчет опустил на 20 позиций и поставил на 30-ое место.
Также на текущий момент мы продолжаем участие в Tabular Playground Series с предсказанием значений для пропусков в датасете. Из последнего - опробовали на соревновании 2 технологии:
1) Пока все участники пробуют решают задачу в формате one-vs-all, наш коллега Антон Вахрушев (btbpanda) решил ее в формате multioutput при помощи собственной opensource реализации градиентного бустинга на GPU Py-Boost. Решение специально уложили в публичный кернел для удобства переиспользования в этой и других задачах и что важно - такой подход показывает лучший результат среди GBM семейства и находится на уровне нейросетевых подходов.
2) Мы продолжаем развивать сам LightAutoML и на текущий момент доступна девелоперская версия c нейросетевыми моделями для табличных данных. Из нововведений в ней - Добавятся новые модели, адаптированные для табличных данных, например, densenet, resnet. По своему желанию вы можете сильно кастомизировать обучение модели и ее архитектуру (передать лосс и другие параметры). При обучение есть возможность использовать SWA для улучшения качества, а также клиппинг градиентов для регуляризации. Среди таcков, помимо стандартных задач, поддерживается мульти-регрессия и мультилэйбл. Для тех, кто заинтересовался и хочет попробовать такую версию уже сейчас, есть пример установки и работы в этом публичном кернеле. Будем рады вашей обратной связи по реализованному функционалу 😎
P.S. Благодаря вашей активной поддержке наших решений на Kaggle и поддержке международного коммьюнити @RyzhkovAlex в итоге стал двухкратным грандмастером Kaggle - по соревнованиям и по кернелам. Таких людей всего 22 человека в мире, а если считать только тех, кто тоже смог в соревнования, то всего 10. Впереди остались ачивки за посты на форуме и за датасеты - как-нибудь тоже к ним подберемся ☺️
Всем мира и добра 🦙
Всем привет!
Рады сообщить, что теперь LAMA: LightAutoML и ее сырцы доступны в новом репозитории 👉 по ссылке
Будем признательны, если ваши лайки хоть как-то помогут восстановить потерянное количество ⭐⭐⭐ старого репозитория❤️
Так же доступны другие решения от нашей группы:
- Библиотека-конструктор для RecSys
- Интерпретируемый AutoML
- быстрый градиентный бустинг на GPU для multioutput задач и не только
Коллеги, добрый вечер!
Вы часто спрашиваете нас о научной составляющей нашего LightAutoML и о том, что находится внутри него - поделимся списком материалов, которые помогут разобраться в этой теме:
1. Вышло обновление нашей статьи на arxiv - если еще не успели ознакомиться, то она доступна тут
2. На ODS.AI доступна третья часть курса по LightAutoML, в которой рассказывается о подкапотной жизни ламы и возможностях кастомизации существующих пайплайнов
Будем рады ответить на возникающие вопросы, а также новым контрибьюторам в наше решение.
Всем добра! 🦙
Всем привет, коллеги!
Давно не радовали вас хорошими новостями - несколько дней назад завершилось соревнование Netflix Appetency на Kaggle от Prevision.io, в котором нам удалось подняться на приватном лидерборде на 89 позиций и оказаться на итоговом 19ом месте (проигрывая первому месту менее 0.1% ROC-AUC). Дополнительно отметим, что решение, построенное на LightAutoML, оказалось лучшим из автоматически сгенерированных решений без ручных доработок. Код самого решения был открыт два месяца назад (еще пока соревнование было открыто) и доступен здесь.
Мы продолжаем улучшать наше решение для того, чтобы получать все более качественные модели для различных задач. Будем рады вашим отзывам о работе LightAutoML на ваших данных - как позитивным, так и негативным.
Всем добра! 🦙
Добрый вечер всем, коллеги!
В пылу подготовки мы совсем забыли анонсировать наши завтрашние активности на стартовавшем сегодня AI Journey 21. Прикладываю ниже расписание наших докладов и секции AutoML, которую мы в том числе и модерируем:
🔥 Секция AutoML (11 ноября, 17:00 - 18:40)
1. Рыжков Александр, Натекин Алексей «Открытый бенчмарк AutoML решений на базе ODS.AI»
2. Вахрушев Антон, Иосипой Леонид «Стенд PyBoost для изучения бустингов»
3. Бондаренко Иван «AutoML и глубокое обучение для обработки табличных данных»
4. Николай Никитин «FEDOT – открытый фреймворк для эволюционного автоматического обучения композитных пайпланов»
🔥 Секция RecSys (11 ноября, 16:20 - 16:40)
1. Васильев Алексей, Натекин Алексей «Открытый бенчмарк рекомендательных систем RecSys»
🔥 Секция Workshops (11 ноября, 18:00 - 18:30)
1. Васильев Алексей, Тамм Ян-Мартин «RePlay - opensource фреймворк для создания офлайн рекомендаций»
Будем рады видеть вас на наших докладах и воркшопах - регистрация на конференцию доступна по ссылке https://ai-journey.ru/conference ☺️
Доброе утро, коллеги!
На прошедших выходных завершился хакатон RaifHack DS, в течение которого участникам предстояло разработать модель оценки стоимости коммерческой недвижимости и поделить 700к призового фонда. В итоге было отправлено почти 5к сабмитов от 371 команды и опубликовано более 20 публичных решений бейзлайнов.
Нам конечно же хотелось бы отметить участников, которые использовали наш LightAutoML в качестве основной модели своего решения. Так, например, команда BigSberBosses с LightAutoML моделью вошла в топ-10 на приватном LB и заняла 9-ое место, а опубликованное на Github решение команды Япики было признано лучшим публичным решением и награждено призом в 75к. Что примечательно - для Япиков это был первый хакатон и сразу же попадание в топ-50 (на привате они 42ые) 🔥🔥🔥
Свои результаты в хакатоне раскрыли и еще несколько "LightAutoML участников" - Ринат Курбанов (25ое место), Сергей Кутепов (29ое место) и Андрей Никитин (118ое место). Почти наверняка их было больше - если вдруг кого забыл, делитесь своим результатом в комментариях под этим постом 🙈
Еще раз поздравляю победителей и призеров хакатона - вместе мы сможем строить модели быстрее и качественнее 😎
Суббота получилась очень насыщенной, но сегодняшняя программа будет не менее интересной! 😉
Ждём вас в 10:00 (МСК) на Data Завтраке с Алексеем Натёкиным в нашем спейсе, а в 11:00 начнём подводить итоги Летней школы ODS #1.
Подробное расписание активностей 👉 тут. Присоединяйтесь!
📍https://live.ods.ai/, пароль: odscoursefest1
В 17.30 (МСК) у нас запланированы вечерние посиделки в комнате SBER AI LAB BAR 🍸🍹.
Вас ждут рассказы о работе в Лабе искусственного Интеллекта Сбера: о командах лаборатории, выпускающих open source продукты Сбера, байки от Руководителя центра инструментов машинного обучения Лабы Максима Савченко за 12+ лет его работы в Сбере, узнаете о наших новинках в мире open source, наших вакансиях и пообщаетесь с Тим Лидами команд AutoML & RecSys. Раскроем секреты, как задачи банка и экосистемы превращаются в научные исследования и публикации на конференции A+, а потом трансформируются в «лопаты» для DS, упрощающие им ежедневный труд! И конечно, мы с радостью ответим на вопросы по нашему курсу LightAutoML. Всем мягких лам🦙!
📍https://live.ods.ai/, пароль: odscoursefest1
Как и обещали, ссылка на подключение к ML-тренировке по финальному соревнованию тут. Начинаем через 10 минут...
Читать полностью…Коллеги, всем привет и спокойного окончания рабочей недели!
По просьбам трудящихся в четверг 26 августа в 19:00 пройдет вебинар, на котором выступят участники, призеры и победители финального соревнования по нашему курсу с презентацией своих решений.
Будем рады видеть всех!
Привет, всем!
Мы активно набираем команду. Есть разные задачи в области automl, recsys: ml-инженерные, data-инженерные и на стыке классического МО и DL-подходов, в том числе модели на последовательных данных.
Ищем людей с пониманием внутренней работы алгоритмов машинного обучения и хорошими навыками программирования.
Уровень: middle/senior.
Обязательно присутствие в офисе несколько дней в неделю.
Будем рады вашим откликам.
Вакансии тут 👉 https://sberailab.huntflow.io/
Всем привет, мы решили продлить до конца года сбор кейсов по использованию по LightAutoML. Присылайте материалы о вашем использовании LAMA: ml.tools.center@gmail.com, lama_info@sberbank.ru
С теми, кто уже ранее нам направил материалы, мы обязательно свяжемся!
#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
Всем привет!
Вышла запись нашего вебинара в NoML Community. Постарались рассказать обо всем, что есть у нас в LAMA
Уложились по классике в ~3 часа 😇
📺 Александр Рыжков - LightAutoML: как строить ML модели быстрее
В среду, 6 июля в 17:00 МСК встречаемся на семинаре NoML. Выступать будет
😎 Рыжков Александр, 2х Kaggle Grandmaster, Team Lead команды AutoML, Sber AI Lab
Аннотация:
“На семинаре расскажем про то, что такое AutoML и как пользоваться этой технологией для ускорения своей работы. На примере open source библиотеки LightAutoML разберем несколько туториалов и выясним, как правильно комбинировать усилия человека и машины для достижения наилучшего качества итоговой модели.”
Подключение по ссылке: meet.google.com/sba-wcab-ynd
Коллеги, всем привет!
Недавно на Kaggle открылось соревнование от American Express по предсказанию дефолта клиентов на основе информации о них в нескольких временных срезах.
Если вы тоже хотите начать участвовать в этом соревновании, то предлагаем вашему вниманию подготовленные кернелы по использованию наших инструментов:
1) Кернел на основе Py-Boost GPU с реализацией быстрой метрики
2) Кернел на LightAutoML
Также вчера стартовало ставшее уже классическим соревнование Tabular Playground Series June 2022 в необычной постановке - в датасете необходимо предсказывать значения для заполнения пропусков. Для него мы также уже подготовили quick start notebook на LightAutoML, строящий 55 моделей регрессии 🤪
Будем рады, если подготовленные материалы окажутся полезными для вас при решении соревнований.
Желаем удачи!
Всем приятного пятничного дня и будущих выходных!
Совсем недавно прошла конференция HighLoad++, на которой мы презентовали 2 новых пайплайна для нашего LightAutoML фреймворка: GPU и Spark пайплайны, позволяющие работать быстрее и использовать датасеты в миллиард строк для обучения моделей.
Мое выступление на OpenSource трибуне можно посмотреть тут с 7:12 до 21:59. Дополнительно прикладываю презентацию своего выступления. 📈
Будем рады вашим вопросам и отзывам о наших новых пайплайнах, а также контрибьюту в них нового функционала.
Всем мира и лам! 🦙
👂🏻Важен ваш опыт❗️
Пост от коллег из SberCloud:
Всем привет!
Не секрет, что LightAutoML можно встроить в любую платформу. Например, библиотека является ядром сервиса AutoML в SberCloud.
SberCloud собирают фидбек в части улучшения клиентского опыта использования библиотеки LightAutoML и других сервисов на ее основе.
Расскажите, как пользуетесь библиотекой, какие задачи решаете - напишите пожалуйста @magkarina
Будем очень признательны вашей помощи! 🤝
Коллеги, всем привет!
Open source решения Sber AI Lab
LAMA: LightAutoML - самый быстрый и точный фреймфорк AutoML на табличных данных
RePlay - фреймоврк для создания RecSys на PySpark
вышли в этап открытого голосования за звание лучшего open source решения в рамках конференции HighLoad++, где нам очень нужна ваша поддержка (голосование продлится до 26 февраля).
Проголосуйте за лучшее open source решение тут:
https://opensource.highload.ru/vote
Вы знаете что делать :))
P.S. На этой конфе мы планируем презентовать 2 новых пайплайна для LightAutoML: для GPU и для Spark - LAMA станет еще быстрее и эффективнее. Если вдруг вам интересно протестить их раньше остальных, то пишите в личку.
#release_notes
Всем приятного пятничного вечера!
Впереди выходные, на которых обычно появляется свободное время для всего нового и интересного и мы спешим всех обрадовать - в PyPI только что было загружено глобальное обновление LightAutoML 0.3.0 🔥🔥🔥
Основное:
⁃ Добавлено решение AutoUplift для решения задач Uplift моделирования (см. туториал)
⁃ Реализованы методики интерпретации моделей через ICE и PDP (см. туториал)
⁃ Реализован новый функционал логгинга процесса обучения модели (5 уровней детализации)
⁃ Добавлена возможность получения текстового описания финальной модели
⁃ Реализована раздельная установка LightAutoML - базовая установка, NLP, CV, отчеты, полная установка
Дополнительно:
⁃ Полностью обновлены туториалы, переработана структура репозитория для более удобной навигации
⁃ Добавлены CI/CD пайплайны
⁃ Исправлены многие выявленные баги
🔥🎓⭐️ Воу! Наступила осень🍁🍂, а значит состоялось подведение итогов первой Летней школы ODS.ai Summer of Code, где LightAutoML участовал в стриме OpenSource проектов.
Наши хакатоны были для сильных духом и нацеленных на плодотворную разработку и реализацию нетрививальных задач. Благодарим участников, которые довели свои задачи до конца.
Поздравляем победителей 🥇🏆 По условиям летней школы для победителей был выделен призовой фонд, который и достается контрибьюторам за 1 место и дополнительный призовой фонд за лучший проект!💰🤑
Победители и призы:
- 1 место в хакатоне "Дистилляция", грант на 80К + фирменный мерч - 🥇💰Андрей Никитин @asnikitin
- 1 место в хакатоне "Произвольная задача" + лучший проект SoC'21 LightAutoML, грант на 130К + фирменный мерч - 🥇💰Антон Михалев @Anton_Mikhalev
Для тех, кому интересно участовать в наших активностях и получать разные призы, подписывайтесь на Хаб и следите за новостями
Доброго вечера! Поздравляем с Днем Знаний.
Ловите запись с разбором решений нашего соревнования по Практическому курсу LightAutoML!
Большое спасибо победителям и участникам за предоставленные решений, получилось очень круто и интересно!
Уверены, какие-то хаки можно будет использовать в бою ⭐️🚀, как и LAMA!
Всем привет, коллеги!
Напоминаю, что сегодня вечером в 19:00 победители и призеры финального соревнования расскажут о своих решениях. Своими идеями и опытом поделятся Сергей Кутепов, Ринат Курбанов, Андрей Никитин, Михаил Кузнецов и Алерон Миленькин.
Также на правах автора датасетов и постановки задачи грандмастер Kaggle и мой коллега Антон Вахрушев расскажет, что на самом деле скрывалось в недрах задачи 🙈
Ждем всех на нашей ML-тренировке - будет интересно 🔥🔥🔥
Ссылку для подключения направим дополнительно.
!ВАКАНСИЯ Middle+ ML/DATA Engineers (SPARK)
Продолжаем тему с вакансиями в наши группы.
Мы приглашаем опытных ML/Data Engineers в Лабораторию искусственного интеллекта.
Наша цель – научно-практические исследования, имеющие широкий спектр применения в различных продуктах не только банка, но и его дочерних компаний, а в ряде случаев и вне экосистемы. Сбербанк делает большую ставку на научную составляющую технологий, а серьезные научные результаты требуют серьезных инженерных решений.
В Центр AI инструментов лаборатории, занимающийся разработкой в области технологий AutoML и инструментов для создания рекомендательных систем, требуется специалист, который поможет решить алгоритмические и технологические задачи, связанные с развитием и внедрением наших решений.
Чем вы будете заниматься:
- инженерная часть разработки (реализация распределенных версий пайплайнов инструментов, оптимизация инференса как классических, так и DL моделей, cоздаваемых в автоматическом режиме)
- взаимодействие с прикладными командами по внедрению разработанных инструментов (в том числе на платформе SberCloud)
Мы ожидаем от вас:
- хорошее знание Python (опыт программирования на C++ и знакомство с CUDA большой плюс)
- опыт работы с решениями экосистемы Hadoop, владение PySpark (Scala как плюс)
- высокая техническая грамотность (алгоритмический базис, опыт решения архитектурных проблем)
- желание заниматься инженерной и инфраструктурной стороной научных исследований, интерес к разработке технологий
- базовое умение поднимать и настраивать сервера, пользоваться Linux shell
- понимание базовых ML алгоритмов
- опыт проведения code review
- ML DevOps (Airflow, Docker, Kubernetes и прочее) как плюс
Условия:
- масштабные проекты, участие в международных конференциях
- высококвалифицированный коллектив
- конкурентный уровень компенсации
- участие в развитии опенсорс
- корпоративное обучение, льготные условия кредитования
- дмс
Писать: OYYanukovich@sberbank.ru с темой “Лаборатория ИИ. ML-инженер в команду AutoML”
Если будут вопросы, пишите под этим постом)