lightautoml | Unsorted

Telegram-канал lightautoml - LightAutoML framework

1884

Github: https://github.com/sb-ai-lab/LightAutoML Practicioners chat: https://t.me/joinchat/sp8P7sdAqaU0YmRi PyPI: https://pypi.org/project/lightautoml Docs: https://lightautoml.readthedocs.io/en/latest/

Subscribe to a channel

LightAutoML framework

Проекты с менторами из Sber AI Lab — реальность для наших магистрантов 🤩

Так, в сентябре 2022 года магистранты Константин Темплин и Кристина Желтова познакомились на Bootcamp с экспертом из индустрии Александром Рыжковым, руководителем команды разработки LightAutoML в Sber AI Lab. А после создали инструмент для упрощения развертывания моделей машинного обучения MLJET.

Как сейчас продвигается проект и какие новые фичи ребята успели внедрить — читайте на Хабре 👉🏻 clck.ru/34ctPJ

Хотите создавать такие же крутые проекты? Присоединяйтесь к онлайн-магистратуре 🚀

Читать полностью…

LightAutoML framework

Всем привет! рады сообщить, что в зоопарке open source решений AI Lab пополнение - либа eco2AI.

Она считает экв. объем CO2 эмиссии в процессе обучения моделей.

Зачем это нужно? Оказывается, углеродный след, как и энергопотребление, является хорошей единицей измерения для оценки эффективности моделей. Можно следить не только за качеством моделей, но и за ценой прироста этого качества в эквиваленте CO2.

Будет круто, если удастся потестить, поэкспериментировать. Будем рады услышать любую критику и предложения по доработке. В профиле либы на GitHub есть ссылка на статью для понимания того, как это все работает и примеры)

Наша либа отдельно номинирована в международном конкурсе WSIS в номинации Environment. Сегодня последний день голосования.

Поддержите плиз, по ссылке:
https://www.itu.int/net4/wsis/stocktaking/Prizes/2023/Nominated?jts=GIZE1R&idx=14&page=12#start

Читать полностью…

LightAutoML framework

Начиная с нескольких последних релизов в LightAutoML встроен функционал предсказания следующих значений временного ряда (forecasting).

Что он в себя включает:
0. Поддержка регулярных одномерных временных рядов с малым числом пропусков и дополнительными признаками.
1. Мультиатпут модели (и новые таски обучения) для предсказания сразу нескольких точек вперед одновременно, что отличает нас от аналогичных решений.
2. Простые пайплайны признаков (лаговые признаки + сезонности из дат) для фиксированного горизонта истории.
3. Модуль работы с аддитивным монотонным трендом.
4. Реализация сейчас не подразумевает тюн гиперпараметров по TS валидации.
5. Датасет должен содержать в себе колонку с таймстемпами в формате даты.

При этом сейчас мы можем работать одновременно с несколькими сегментами рядов, но только при сборке автомл пайплайна из блоков и без тренда. Айди сегмента подается как отдельный признак.

Мы также провели ряд численных экспериментов и увидели, что несмотря на крайнюю простоту подхода и простые признаки, в некоторых постановках задач LAMA работает на уровне или лучше других решений.
Обычно это:
А. Одномерные ряды среднего размера (от сотни наблюдений)
Б. В данных нет тренда, но встречается сезонность.
В. Горизонт предсказания не слишком длинный (порядка 7-20 точек).

Пример запуска на одном ряде, а также иллюстрации работы и численные результаты в комментариях к данному посту.

Читать полностью…

LightAutoML framework

🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что-то пошло не так;
- «Успех года с LightAutoML»: о том как Лама помогла вам ускорить свою производительность или добится существенного прироста качества за короткий срок;
- «Хакатон года с LightAutoML»: о том, как вы участвовали с Лама, с каким решением и какое место заняли, а может есть то, чего вам не хватило в Лама для победы?
- «Стахановец года с LightAutoML»: о том сколько пилотов вы сделали, внедрили моделек в пром с помощью Лама;
- «Просветитель года LightAutoML»: присылай ссылку на свою статью о том, как с помощью LAMA сделал что-либо полезное, или фреймворк тебе помог в нелегких буднях (возможно у тебя есть статья на Хабре или другом ресурсе)

Принимаем кейсы для конкурса в виде 2х красивых слайдов в pdf/pptx или ссылок на аналогичные материалы на почту ml.tools.center@gmail.com или lama_info@sberbank.ru до 30 сентября 2022 года.

Авторы лучших кейсов получат толстовки 🏆 от LightAutoML и Sber AI Lab.
Лучшие кейсы будут опубликованы в канале с согласия авторов!

Читать полностью…

LightAutoML framework

В преддверии завтрашнего семинара можно, во-первых, посмотреть статью коллег:
📄 Anton Vakhrushev, Alexander Ryzhkov, Dmitry Simakov, Rinchin Damdinov, Maxim Savchenko, Alexander Tuzhilin "LightAutoML: AutoML Solution for a Large Financial Services Ecosystem

Во-вторых, ознакомиться с кейсами нестандартного использования LightAutoML, которые Александр будет разбирать на семинаре:
📌 LightAutoML Pseudolabel NLP Baseline
📌 LightAutoML Adversarial Validation
Последний кейс подготовлен непосредственно для нашего семинара, и вообще Александр обещает, что завтра будет много нового контента про LightAutoML, так что не пропустите!

Читать полностью…

LightAutoML framework

Привет, коллеги!

Мы снова к вам с хорошими новостями с полей практического применения инструментов нашего центра AI Lab.

Некоторое время назад завершилось соревнование Autism Prediction, в котором на приватном ЛБ нам удалось занять 23-е место из 118 (поднялись на 12 мест относительно публичного ЛБ) с использованием LightAutoML (кернел с пруфом). Мы до конца верили в устойчивость своей модели и новые данные нас за это вознаградили - shake-up всего ЛБ оказался супер-драматичным: в топ-10 приватного ЛБ оказались участники, поднявшиеся на 20+ позиций по итогу пересчета. Отдельно хочу отметить, что нам удалось серьезно (на 0.7%) обогнать коллег из Prevision.io, которых пересчет опустил на 20 позиций и поставил на 30-ое место.

Также на текущий момент мы продолжаем участие в Tabular Playground Series с предсказанием значений для пропусков в датасете. Из последнего - опробовали на соревновании 2 технологии:
1) Пока все участники пробуют решают задачу в формате one-vs-all, наш коллега Антон Вахрушев (btbpanda) решил ее в формате multioutput при помощи собственной opensource реализации градиентного бустинга на GPU Py-Boost. Решение специально уложили в публичный кернел для удобства переиспользования в этой и других задачах и что важно - такой подход показывает лучший результат среди GBM семейства и находится на уровне нейросетевых подходов.
2) Мы продолжаем развивать сам LightAutoML и на текущий момент доступна девелоперская версия c нейросетевыми моделями для табличных данных. Из нововведений в ней - Добавятся новые модели, адаптированные для табличных данных, например, densenet, resnet. По своему желанию вы можете сильно кастомизировать обучение модели и ее архитектуру (передать лосс и другие параметры). При обучение есть возможность использовать SWA для улучшения качества, а также клиппинг градиентов для регуляризации. Среди таcков, помимо стандартных задач, поддерживается мульти-регрессия и мультилэйбл. Для тех, кто заинтересовался и хочет попробовать такую версию уже сейчас, есть пример установки и работы в этом публичном кернеле. Будем рады вашей обратной связи по реализованному функционалу 😎

P.S. Благодаря вашей активной поддержке наших решений на Kaggle и поддержке международного коммьюнити @RyzhkovAlex в итоге стал двухкратным грандмастером Kaggle - по соревнованиям и по кернелам. Таких людей всего 22 человека в мире, а если считать только тех, кто тоже смог в соревнования, то всего 10. Впереди остались ачивки за посты на форуме и за датасеты - как-нибудь тоже к ним подберемся ☺️

Всем мира и добра 🦙

Читать полностью…

LightAutoML framework

Всем привет!
Рады сообщить, что теперь LAMA: LightAutoML и ее сырцы доступны в новом репозитории 👉 по ссылке

Будем признательны, если ваши лайки хоть как-то помогут восстановить потерянное количество ⭐⭐⭐ старого репозитория❤️

Так же доступны другие решения от нашей группы:
- Библиотека-конструктор для RecSys
- Интерпретируемый AutoML
- быстрый градиентный бустинг на GPU для multioutput задач и не только

Читать полностью…

LightAutoML framework

Коллеги, добрый вечер!

Вы часто спрашиваете нас о научной составляющей нашего LightAutoML и о том, что находится внутри него - поделимся списком материалов, которые помогут разобраться в этой теме:
1. Вышло обновление нашей статьи на arxiv - если еще не успели ознакомиться, то она доступна тут
2. На ODS.AI доступна третья часть курса по LightAutoML, в которой рассказывается о подкапотной жизни ламы и возможностях кастомизации существующих пайплайнов

Будем рады ответить на возникающие вопросы, а также новым контрибьюторам в наше решение.

Всем добра! 🦙

Читать полностью…

LightAutoML framework

Всем привет, коллеги!

Давно не радовали вас хорошими новостями - несколько дней назад завершилось соревнование Netflix Appetency на Kaggle от Prevision.io, в котором нам удалось подняться на приватном лидерборде на 89 позиций и оказаться на итоговом 19ом месте (проигрывая первому месту менее 0.1% ROC-AUC). Дополнительно отметим, что решение, построенное на LightAutoML, оказалось лучшим из автоматически сгенерированных решений без ручных доработок. Код самого решения был открыт два месяца назад (еще пока соревнование было открыто) и доступен здесь.

Мы продолжаем улучшать наше решение для того, чтобы получать все более качественные модели для различных задач. Будем рады вашим отзывам о работе LightAutoML на ваших данных - как позитивным, так и негативным.

Всем добра! 🦙

Читать полностью…

LightAutoML framework

Добрый вечер всем, коллеги!

В пылу подготовки мы совсем забыли анонсировать наши завтрашние активности на стартовавшем сегодня AI Journey 21. Прикладываю ниже расписание наших докладов и секции AutoML, которую мы в том числе и модерируем:

🔥 Секция AutoML (11 ноября, 17:00 - 18:40)
1. Рыжков Александр, Натекин Алексей «Открытый бенчмарк AutoML решений на базе ODS.AI»
2. Вахрушев Антон, Иосипой Леонид «Стенд PyBoost для изучения бустингов»
3. Бондаренко Иван «AutoML и глубокое обучение для обработки табличных данных»
4. Николай Никитин «FEDOT – открытый фреймворк для эволюционного автоматического обучения композитных пайпланов»

🔥 Секция RecSys (11 ноября, 16:20 - 16:40)
1. Васильев Алексей, Натекин Алексей «Открытый бенчмарк рекомендательных систем RecSys»

🔥 Секция Workshops (11 ноября, 18:00 - 18:30)
1. Васильев Алексей, Тамм Ян-Мартин «RePlay - opensource фреймворк для создания офлайн рекомендаций»

Будем рады видеть вас на наших докладах и воркшопах - регистрация на конференцию доступна по ссылке https://ai-journey.ru/conference ☺️

Читать полностью…

LightAutoML framework

Доброе утро, коллеги!

На прошедших выходных завершился хакатон RaifHack DS, в течение которого участникам предстояло разработать модель оценки стоимости коммерческой недвижимости и поделить 700к призового фонда. В итоге было отправлено почти 5к сабмитов от 371 команды и опубликовано более 20 публичных решений бейзлайнов.

Нам конечно же хотелось бы отметить участников, которые использовали наш LightAutoML в качестве основной модели своего решения. Так, например, команда BigSberBosses с LightAutoML моделью вошла в топ-10 на приватном LB и заняла 9-ое место, а опубликованное на Github решение команды Япики было признано лучшим публичным решением и награждено призом в 75к. Что примечательно - для Япиков это был первый хакатон и сразу же попадание в топ-50 (на привате они 42ые) 🔥🔥🔥

Свои результаты в хакатоне раскрыли и еще несколько "LightAutoML участников" - Ринат Курбанов (25ое место), Сергей Кутепов (29ое место) и Андрей Никитин (118ое место). Почти наверняка их было больше - если вдруг кого забыл, делитесь своим результатом в комментариях под этим постом 🙈

Еще раз поздравляю победителей и призеров хакатона - вместе мы сможем строить модели быстрее и качественнее 😎

Читать полностью…

LightAutoML framework

​​Суббота получилась очень насыщенной, но сегодняшняя программа будет не менее интересной! 😉

Ждём вас в 10:00 (МСК) на Data Завтраке с Алексеем Натёкиным в нашем спейсе, а в 11:00 начнём подводить итоги Летней школы ODS #1.

Подробное расписание активностей 👉 тут. Присоединяйтесь!

📍https://live.ods.ai/, пароль: odscoursefest1

Читать полностью…

LightAutoML framework

​​В 17.30 (МСК) у нас запланированы вечерние посиделки в комнате SBER AI LAB BAR 🍸🍹.

Вас ждут рассказы о работе в Лабе искусственного Интеллекта Сбера: о командах лаборатории, выпускающих open source продукты Сбера, байки от Руководителя центра инструментов машинного обучения Лабы Максима Савченко за 12+ лет его работы в Сбере, узнаете о наших новинках в мире open source, наших вакансиях и пообщаетесь с Тим Лидами команд AutoML & RecSys. Раскроем секреты, как задачи банка и экосистемы превращаются в научные исследования и публикации на конференции A+, а потом трансформируются в «лопаты» для DS, упрощающие им ежедневный труд! И конечно, мы с радостью ответим на вопросы по нашему курсу LightAutoML. Всем мягких лам🦙!

📍https://live.ods.ai/, пароль: odscoursefest1

Читать полностью…

LightAutoML framework

Как и обещали, ссылка на подключение к ML-тренировке по финальному соревнованию тут. Начинаем через 10 минут...

Читать полностью…

LightAutoML framework

Коллеги, всем привет и спокойного окончания рабочей недели!

По просьбам трудящихся в четверг 26 августа в 19:00 пройдет вебинар, на котором выступят участники, призеры и победители финального соревнования по нашему курсу с презентацией своих решений.

Будем рады видеть всех!

Читать полностью…

LightAutoML framework

Привет, всем!

Мы активно набираем команду. Есть разные задачи в области automl, recsys: ml-инженерные, data-инженерные и на стыке классического МО и DL-подходов, в том числе модели на последовательных данных.

Ищем людей с пониманием внутренней работы алгоритмов машинного обучения и хорошими навыками программирования.

Уровень: middle/senior.
Обязательно присутствие в офисе несколько дней в неделю.

Будем рады вашим откликам.

Вакансии тут 👉 https://sberailab.huntflow.io/

Читать полностью…

LightAutoML framework

Всем привет, мы решили продлить до конца года сбор кейсов по использованию по LightAutoML. Присылайте материалы о вашем использовании LAMA: ml.tools.center@gmail.com, lama_info@sberbank.ru

С теми, кто уже ранее нам направил материалы, мы обязательно свяжемся!

Читать полностью…

LightAutoML framework

#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).

Читать полностью…

LightAutoML framework

Всем привет!
Вышла запись нашего вебинара в NoML Community. Постарались рассказать обо всем, что есть у нас в LAMA

Уложились по классике в ~3 часа 😇

📺 Александр Рыжков - LightAutoML: как строить ML модели быстрее

Читать полностью…

LightAutoML framework

В среду, 6 июля в 17:00 МСК встречаемся на семинаре NoML. Выступать будет
😎 Рыжков Александр, 2х Kaggle Grandmaster, Team Lead команды AutoML, Sber AI Lab

Аннотация:
“На семинаре расскажем про то, что такое AutoML и как пользоваться этой технологией для ускорения своей работы. На примере open source библиотеки LightAutoML разберем несколько туториалов и выясним, как правильно комбинировать усилия человека и машины для достижения наилучшего качества итоговой модели.”

Подключение по ссылке: meet.google.com/sba-wcab-ynd

Читать полностью…

LightAutoML framework

Коллеги, всем привет!
Недавно на Kaggle открылось соревнование от American Express по предсказанию дефолта клиентов на основе информации о них в нескольких временных срезах.
Если вы тоже хотите начать участвовать в этом соревновании, то предлагаем вашему вниманию подготовленные кернелы по использованию наших инструментов:
1) Кернел на основе Py-Boost GPU с реализацией быстрой метрики
2) Кернел на LightAutoML

Также вчера стартовало ставшее уже классическим соревнование Tabular Playground Series June 2022 в необычной постановке - в датасете необходимо предсказывать значения для заполнения пропусков. Для него мы также уже подготовили quick start notebook на LightAutoML, строящий 55 моделей регрессии 🤪

Будем рады, если подготовленные материалы окажутся полезными для вас при решении соревнований.

Желаем удачи!

Читать полностью…

LightAutoML framework

Всем приятного пятничного дня и будущих выходных!

Совсем недавно прошла конференция HighLoad++, на которой мы презентовали 2 новых пайплайна для нашего LightAutoML фреймворка: GPU и Spark пайплайны, позволяющие работать быстрее и использовать датасеты в миллиард строк для обучения моделей.

Мое выступление на OpenSource трибуне можно посмотреть тут с 7:12 до 21:59. Дополнительно прикладываю презентацию своего выступления. 📈

Будем рады вашим вопросам и отзывам о наших новых пайплайнах, а также контрибьюту в них нового функционала.

Всем мира и лам! 🦙

Читать полностью…

LightAutoML framework

👂🏻Важен ваш опыт❗️
Пост от коллег из SberCloud:

Всем привет!
Не секрет, что LightAutoML можно встроить в любую платформу. Например, библиотека является ядром сервиса AutoML в SberCloud.

SberCloud собирают фидбек в части улучшения клиентского опыта использования библиотеки LightAutoML и других сервисов на ее основе.

Расскажите, как пользуетесь библиотекой, какие задачи решаете - напишите пожалуйста @magkarina

Будем очень признательны вашей помощи! 🤝

Читать полностью…

LightAutoML framework

Коллеги, всем привет!

Open source решения Sber AI Lab
LAMA: LightAutoML - самый быстрый и точный фреймфорк AutoML на табличных данных
RePlay - фреймоврк для создания RecSys на PySpark

вышли в этап открытого голосования за звание лучшего open source решения в рамках конференции HighLoad++, где нам очень нужна ваша поддержка (голосование продлится до 26 февраля).

Проголосуйте за лучшее open source решение тут:
https://opensource.highload.ru/vote

Вы знаете что делать :))

P.S. На этой конфе мы планируем презентовать 2 новых пайплайна для LightAutoML: для GPU и для Spark - LAMA станет еще быстрее и эффективнее. Если вдруг вам интересно протестить их раньше остальных, то пишите в личку.

Читать полностью…

LightAutoML framework

#release_notes

Всем приятного пятничного вечера!

Впереди выходные, на которых обычно появляется свободное время для всего нового и интересного и мы спешим всех обрадовать - в PyPI только что было загружено глобальное обновление LightAutoML 0.3.0 🔥🔥🔥

Основное:
⁃ Добавлено решение AutoUplift для решения задач Uplift моделирования (см. туториал)
⁃ Реализованы методики интерпретации моделей через ICE и PDP (см. туториал)
⁃ Реализован новый функционал логгинга процесса обучения модели (5 уровней детализации)
⁃ Добавлена возможность получения текстового описания финальной модели
⁃ Реализована раздельная установка LightAutoML - базовая установка, NLP, CV, отчеты, полная установка

Дополнительно:
⁃ Полностью обновлены туториалы, переработана структура репозитория для более удобной навигации
⁃ Добавлены CI/CD пайплайны
⁃ Исправлены многие выявленные баги

Читать полностью…

LightAutoML framework

🔥🎓⭐️ Воу! Наступила осень🍁🍂, а значит состоялось подведение итогов первой Летней школы ODS.ai Summer of Code, где LightAutoML участовал в стриме OpenSource проектов. 

Наши хакатоны были для сильных духом и нацеленных на плодотворную разработку и реализацию нетрививальных задач. Благодарим участников, которые довели свои задачи до конца. 

Поздравляем победителей 🥇🏆 По условиям летней школы для победителей был выделен призовой фонд, который и достается контрибьюторам за 1 место и дополнительный призовой фонд за лучший проект!💰🤑

Победители и призы:

- 1 место в хакатоне "Дистилляция", грант на 80К + фирменный мерч - 🥇💰Андрей Никитин @asnikitin

- 1 место в хакатоне "Произвольная задача" + лучший проект SoC'21 LightAutoML, грант на 130К + фирменный мерч - 🥇💰Антон Михалев @Anton_Mikhalev


Для тех, кому интересно участовать в наших активностях и получать разные призы, подписывайтесь на Хаб и следите за новостями

Читать полностью…

LightAutoML framework

Привет. Сегодня с 11.00 до 12.00 подводим итоги Летней школы LightAutoML с ODS.ai

Читать полностью…

LightAutoML framework

Доброго вечера! Поздравляем с Днем Знаний.
Ловите запись с разбором решений нашего соревнования по Практическому курсу LightAutoML!

Большое спасибо победителям и участникам за предоставленные решений, получилось очень круто и интересно!

Уверены, какие-то хаки можно будет использовать в бою ⭐️🚀, как и LAMA!

Читать полностью…

LightAutoML framework

Всем привет, коллеги!

Напоминаю, что сегодня вечером в 19:00 победители и призеры финального соревнования расскажут о своих решениях. Своими идеями и опытом поделятся Сергей Кутепов, Ринат Курбанов, Андрей Никитин, Михаил Кузнецов и Алерон Миленькин.

Также на правах автора датасетов и постановки задачи грандмастер Kaggle и мой коллега Антон Вахрушев расскажет, что на самом деле скрывалось в недрах задачи 🙈

Ждем всех на нашей ML-тренировке - будет интересно 🔥🔥🔥

Ссылку для подключения направим дополнительно.

Читать полностью…

LightAutoML framework

!ВАКАНСИЯ Middle+ ML/DATA Engineers (SPARK)

Продолжаем тему с вакансиями в наши группы.

Мы приглашаем опытных ML/Data Engineers в Лабораторию искусственного интеллекта.
Наша цель – научно-практические исследования, имеющие широкий спектр применения в различных продуктах не только банка, но и его дочерних компаний, а в ряде случаев и вне экосистемы. Сбербанк делает большую ставку на научную составляющую технологий, а серьезные научные результаты требуют серьезных инженерных решений.
В Центр AI инструментов лаборатории, занимающийся разработкой в области технологий AutoML и инструментов для создания рекомендательных систем, требуется специалист, который поможет решить алгоритмические и технологические задачи, связанные с развитием и внедрением наших решений.
 
Чем вы будете заниматься:
- инженерная часть разработки (реализация распределенных версий пайплайнов инструментов, оптимизация инференса как классических, так и DL моделей, cоздаваемых в автоматическом режиме)
- взаимодействие с прикладными командами по  внедрению разработанных инструментов (в том числе на платформе SberCloud)
 
Мы ожидаем от вас:
- хорошее знание Python (опыт программирования на C++ и знакомство с CUDA  большой плюс)
- опыт работы с решениями экосистемы Hadoop, владение PySpark  (Scala как плюс)
- высокая техническая грамотность (алгоритмический базис, опыт решения архитектурных проблем)
- желание заниматься инженерной и инфраструктурной стороной научных исследований, интерес к разработке технологий
- базовое умение поднимать и настраивать сервера, пользоваться Linux shell
- понимание базовых ML алгоритмов 
- опыт проведения code review
- ML DevOps (Airflow, Docker, Kubernetes и прочее) как плюс
 
 
Условия:
-  масштабные проекты, участие в международных конференциях
- высококвалифицированный коллектив
- конкурентный уровень компенсации
- участие в развитии опенсорс
- корпоративное обучение, льготные условия кредитования
- дмс

Писать: OYYanukovich@sberbank.ru с темой “Лаборатория ИИ. ML-инженер в команду AutoML”

Если будут вопросы, пишите под этим постом)

Читать полностью…
Subscribe to a channel