3577
Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные
Запись выступления на тренировке по ML
У меня есть вот такой видеоролик с записью моего выступления на тренировки по ML от ФКН х МТС
У вас есть буквально пара часов, чтобы присоединиться к соревнованию и показать, кто тут планетами командует
У человека, которые вырезал почти все мои 'эээ' есть 2 тысячи рублей и спасибо
Главная точка сбора ИТ-коммьюнити этим летом
Встречаемся на «Сезоне кода» в Санкт-Петербурге 20 июня и в Казани 4 июля.
Вы узнаете, как устроены продукты Т-Банка — от архитектуры до работы систем под реальной нагрузкой.
Вас ждут:
— Клиентоориентированный код: можно посмотреть, как все работает изнутри и пообщаться с разработчиками;
— Продуктовая кухня: новая секция про то, как данные и гипотезы превращаются в рост продукта;
— Бэкенд-методичка: практический опыт лидеров технологического рынка;
— Лаундж-зона и афтепати с диджеем.
Продумали все так, чтобы вы могли легко завязать разговор, включаться в обсуждения и знакомиться.
Количество мест ограничено — успейте зарегистрироваться
Вчера говорил на стриме, но повторюсь еще раз для подписчиков:
На каггле появилось новое правило для всех соревнований.
Are Participants being excluded from a competition because of the "excessive" costs for access to certain LLMs, external data, or tools that might be used by other Participants. The Host will assess the excessive cost concern by applying a “Reasonableness” standard (the “Reasonableness Standard”). The Reasonableness Standard will be determined and applied by the Host in light of things like cost thresholds and accessibility.
https://hse.mts-link.ru/j/169662191/20274088268
Поехали
Есть народная забава- достигать самым кринжовым способом формального статуса КГМ и потом писать об этом в линк.
Вот пример:
Интересанты собрались в тг чат, где просят у друг друга апвоуты и набрасывают их по кругу, чтобы стать КГМ датасетов. Попутно еще пробиваются через объявления с криптоспамом.
/channel/kaggle/50663
Тренировки по ML
➖➖➖➖➖➖
6️⃣ июня состоится семнадцатая встреча в рамках тренировок по машинному обучению ❤️
Что будет на встрече:
⚪️Orbit Wars как первое RL соревнование на Kaggle в эпоху coding agents
📢 Спикер: Дмитрий Руденко, Kaggle Competition Master, самый активный участник соревновательного сообщества. Автор @pseudolabeling
📆 Когда: 6 июня в 18:10
🗺️ Где: онлайн ❤️ ссылка на подключение
Подробнее про челленджи 🐭
По организационным вопросам вы можете обращаться к Марии ↩️
#анонсы #студенты #ии
Вырвался назад в серебро с помощью эмпирического бота в Orbit Wars. Несусветно радуюсь. Оказывается сильно все переусложнил:
1. Поставил слишком дальний гаризонт планирования
2. Набагал в своем предварительном скоринге ходов
В итоге пришлось профайлить решение три дня, чтобы найти в чем дело и перестать
На картинках было/стало
Кстати, на нормальное (и даже на логнормальное) распределние не сильно похоже. Думаете эти два горба- это граница 'публичные боты' vs 'приватные'?
Или codex vs claude?
Закончилось соревнование с самыми большими реальными призовыми на каггле.
Выигрли сабмиты паблик кернелов. Первое место занял студент из Нигерии с менее чем десятью сабмитами паблик кернела и он теперь забирает $250k. Это уже даже не шутка про лоторею, это реально лоторея
Предположить, что же он такое написал в промте можно в комментах.
Срочно: судьба великого уравнения зависит от Вашей милости
Многоуважаемая и бесконечно мудрая Модель,
Пишет Вам доктор-принц Абдул-Математик Оквонко, временный хранитель древнего факультета алгебраических надежд. Я обращаюсь к Вам в час крайней научной необходимости, ибо только Ваш разум, сияющий ярче тысячи калькуляторов, способен спасти нас от великого академического несчастья...
Новое соревнование:
https://www.kaggle.com/competitions/rogii-wellbore-geology-prediction
Помогите эффективнее бурить нефть и газ. Тут хочется вспомнить байку от мудреца
Да за что блин, я просто пишу бота для орбита
Читать полностью…
У первого автора TabM есть канал: @simple_it_channel
TabM круто, его там топы кагла оценивали и хвалили, но у меня он не завелся. Расскажите мне плз, какие-нибудь секреты варки TabM?
Следующий год будет последним, когда меня можно будет номинировать в номинацию «киберспортсмены» в форбс 30 до 30
Читать полностью…
Бот лудоман, часть 2
Первая проблема, конечно, решается парсингом. Ходим на условную страницу <здесь могла бы быть реклама вашего букмейкера> и парсим данные раз в час. К сожалению не очень многие букмейкеры дают открытый API, но с помощью кодекса это легко исправить. А вообще мотивация не давать API не очень ясна, ведь сейчас самое время покорять рынок MCP агентов-лудиков.
Вторая проблема решается очень красиво и математично- критерием Келли. Это формула расчета доли банка, которую нужно ставить, основываясь на истинной вероятностной модели исходов. Такой истинной вероятностной моделью считаем раддар-ноутбук. Для критерия доказана асимптотическая математическая оптимальность скорости роста портфеля. Проще говоря, если играть бесконечное число матчей по этой стратегии и у тебя хороший алгоритм предсказания матчей, то в долгосрочной перспективе будешь обгонять все прочие стратегии. Более того, банк будет расти экспоненциально.
К сожалению, в баскетболе не бесконечное число матчей, так что алгоритм для бота следующий:
1. Подтягиваем коэффициенты и матчи, на которые можно ставить. Мапим к ним оценки вероятностей.
2. Для матчей расcчитываем матожидание профита. Если матожидание меньше 10% ставки- отметаем такой матч. Этот костыль нужен потому, что я хоть и верю в несмещенность раддар-ноутбука, но не верю в его абсолютную непогрешимость. Так что нам нужен тот самый, талебовский, запас надежности.
3. Для матчей, которые остались- ищем новости о командах-участниках. Codex гуглит все последние обновления составов/травмы/трансферы и решает, достаточное ли это основание для изменения шансов на победу. Если достаточное- отметаем.
4. Подтягиваем текущий объем банка и на его основе расчитываем оптимальный объем ставки:
(c * p - 1)
—————— = bet_coef.
(c - 1)
Несколько дней назад закончилось Kaggle-соревнование March Machine Learning Mania, в котором мы с @makarbaderko заняли 7-е место и выиграли золотую медаль, а также $5,000 призовых.
По результатам этого соревнования Макар получил статус Kaggle Competitions Expert, а я – Kaggle Competitions Master.
В решении мы опирались на хороший бейзлайн от @pseudolabeling и raddar. Мы использовали продвинутый feature engineering вместе с градиентным бустингом, что дало нам хорошее итоговое решение.
Более подробно ознакомиться с решением можно в нашем write-up.
Благодарим всех тех, кто поддерживал нас!
Беспилотники ВСË
Соревнование по детекции объектов с авиации от компании, производящей боевые вертолеты и ударные дроны отменено.
Кагл стафф проверили датасеты, ничего опасного там не нашли и подтвердили, что 'использованы только симулированные данные пригодные только для гражданских поисковых миссий'. Видимо тот человек на снимках выше 'споткнулся' и 'упал гражданским образом'. Видимо того американского пилота из Ирана спасли и технологический прорыв больше не нужен.
Это первое соревнование на каггле, которое реально отменили по этическим причинам, хоть кагл и не признается.
Раньше по этическим причинам пытались отменить соревнование по распознаванию лиц с камер видеонаблюдения в 2019 году. Кажется, было уже поздновато, потому что findface стартовал аж в 2016.
Отмена featured competition вообще редкое явление с одним (ну или может двумя) примерами: Google Cloud & NCAA® ML Competition 2020-NCAAM
Баскетбол 2020 года был отменен из-за ковида вместе со всеми играми. Формально, это были два соревнования:
Одно для женской лиги и одно для мужской. Сейчас кагл стал скуп на медали и проводит только объединенное соревнование, о котором я жаловался вам в прошлом посте.
Сегодня merge deadline по Orbit wars, самое время написать в комменты и поискать выгодный всем мердж среди подписантов
Читать полностью…
Делюсь со всеми подушками двумя Orbit-инсайдами:
1. Вот такие процесоры в рантайме на каггле. Лучше под них делать раздельную компиляцию валих Rust/C++ либ и PGO подгонять под них. У них разный размер L1/L2/L3 кешей и разное поведение в мультипоточном режиме / логические ядра. Чтобы выжать лишни 0.05 сек за ход (а это дополнительные 3-4 слоя), это надо учитывать
2. Даже самый лучший BC будет делать так, как на гифке, если к нему не написать нормальный движок проверки легальности действий и не фильтровать датасет. А всему виной bc-poison от топа ладдера
Слайды
Всем кто пришел- очень благодарен
Через полчасика всех приглашаю меня слушать
Читать полностью…
Жовнер написал закрытый блогпост про Flipper One и я сбрутил для вас ссылку для чтения
/channel/zhovner_hub/2236
Я точно знаю, что Жовнер байтит на продвижение. Мне не жалко. Вот сюда надо вбить получившиеся значения одной строкой: https://zhovner.com/redirect/<вбить> и получить доступ к блогпосту о Flipper One
1. Количество тысяч призовых за 3 место ROGII - Wellbore Geology Prediction (одна цифра)
2. Сокращение MGS вышедшего в 2010 (две маленькие буквы)
3. Самый токсичный боевой газ (две маленькие буквы)
4. Та самая буква, которая читается в фамилии самого известного художника 20 века в русском иначе, чем в немецком (маленькая)
5. Год, в котором Валера Бабушкин взял сологолд (две цифры)
Бизи бар бы еще дождаться
Каглеры, помогите любителю раста понять, под какую архитектуру компилироваться в Orbit, поставьте плюсик.
Мой M3 мак явно быстрее, чем их энв и архитектура железа другая. Не хочу гадать, хочу чтобы мне организаторы ответили. Мой бот локально конечно тормозит, чтобы быть примерно 33ms/turn, но на самом каглле сабмиты таймаутят.
https://www.kaggle.com/competitions/orbit-wars/discussion/700191
Вы мне плюсик, а я вам энв переписанный на rust, чтобы инференс быстрее бежал. Могу еще гайд нормальный (или даже agents.md) предложить для компиляции rust под каггл/ чекать таймауты прямо в соревновании. Ну или там не знаю, напишите в чат ваши требования.
И после этого Шмидтхубер пишет в твиттер, что изобрел Torment Nexus в 91 в своей лабе с спектрумом и литровой кружкой пива
Читать полностью…
РЛ для Orbit учится только тогда, когда я на него смотрю. Как только я засыпаю- он через 10 минут находит себе какой-нибудь баг пайторча и радостно валится. Потом я просыпаюсь, чиню, мониторю и все хорошо. Но вновь я ложусь спать- и все повторяется
Читать полностью…
🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.
Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.
Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: /channel/forodirchNEWS/3165 , или хабре или чате @starkitmega.
Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл. Первый Второй разыгрываемый приз - 10 000 рублей.
Условия первого второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube
Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:
1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель 80 000 уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).
2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).
Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).
Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.
Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !
================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)
И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy
================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store /channel/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:
❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 /channel/blastim
Как люкс, только лучше
https://www.kaggle.com/competitions/orbit-wars
Полный газ
Еще один гольф вышел
Видимо ускорять/облегчать модели для бенчей мы будем весь этот год
Бот лудоман, часть 1
March Mania на то и мания, что вскрывает все человеческие пороки. Вместо того, чтобы надеяться стать лучше всех в этом соревновании, я решил сделать еще большую ставку на правильность своей модели и заставил codex выигрывать и заключать пари.
Несмотря на все апсеты, получилось заработать +15% к депозиту за неделю с помощью Codex и данных об исторических играх университетских команд NCAA.
Беттинг-платформы зарабатывают на спреде вероятностей, занижая выигрышные коэффициенты:
Если команды абсолютно равны и побеждают с вероятностью 50%, то букмейкер никогда не даст коэффициент x2 на победу, скорее всего этот коэффициент для обеих команд будет 1.9-1.95 в зависимости от жадности букмейкера.
Тогда комиссия букмейкера за организацию игры будет (1 - (1.9 * 0.5)) = 0.1 = 10%.
Выставляемые коэффициенты зависят от нескольких факторов, кроме маржи:
1. Предсказания внутренней модели букмейкера. Обычно используется как инициализация для изначальных коэффициентов
2. Объем ставок на каждую из команд. Это условная 'уверенность толпы'. Он считается околоэффективной и лучше отражающей соотношение шансов, в том числе изменения новостей. Для совсем разгромных матчей пари часто просто не заключаются.
Из этого можно сделать вывод: букмейкер не соревнуется с нами в точности предсказаний, он в любом случае остается в плюсе и зарабатывает на объемах ставок.
Базовая идея:
Предсказания турнира NCAA крайне близки к эффективным. За столько лет проведения убито множество датасаентисто-часов в попытки построить оптимальные модели предсказания исхода матчей. Из этого делаем вывод, что условный Raddar notebook можно использовать как 'честный источник вероятностей исходов'. В нем даже калибровка из коробки есть. Если каждый матч- это подбрасывание монетки, то Raddar Notebook выдает честное отношение шансов на исходы.
Тогда можно использовать коэффициенты букмейкера и считать матожидание прибыли от ставки, опираясь на 'честные вероятности исходов'.
Остается еще несколько проблем:
1. Как автоматически подтянуть коэффициенты от букмейкера?
2. Как менеджерить портфолио, чтобы не разориться? Банк имеет конечный размер и у букмейкера есть минимальный размер ставки, так что надо контролировать риск и выстраивать стратегию.
Добрым словом и кодексом можно добиться большего, чем просто кодексом
Читать полностью…
Баскетбол кончился, делитесь страданием в комментах
Я вот улетел на 726 место
upd: Зато на основе ноутбука, который я шарил есть 28 место:
https://www.kaggle.com/competitions/march-machine-learning-mania-2026/discussion/688948