pseudolabeling | Unsorted

Telegram-канал pseudolabeling - Запрети мне псевдолейблить

3577

Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные

Subscribe to a channel

Запрети мне псевдолейблить

Запись выступления на тренировке по ML

У меня есть вот такой видеоролик с записью моего выступления на тренировки по ML от ФКН х МТС

У вас есть буквально пара часов, чтобы присоединиться к соревнованию и показать, кто тут планетами командует

У человека, которые вырезал почти все мои 'эээ' есть 2 тысячи рублей и спасибо

Читать полностью…

Запрети мне псевдолейблить

Главная точка сбора ИТ-коммьюнити этим летом

Встречаемся на «Сезоне кода» в Санкт-Петербурге 20 июня и в Казани 4 июля.

Вы узнаете, как устроены продукты Т-Банка — от архитектуры до работы систем под реальной нагрузкой.

Вас ждут:

— Клиентоориентированный код: можно посмотреть, как все работает изнутри и пообщаться с разработчиками;
— Продуктовая кухня: новая секция про то, как данные и гипотезы превращаются в рост продукта;
— Бэкенд-методичка: практический опыт лидеров технологического рынка;
— Лаундж-зона и афтепати с диджеем.

Продумали все так, чтобы вы могли легко завязать разговор, включаться в обсуждения и знакомиться.

Количество мест ограничено — успейте зарегистрироваться

Читать полностью…

Запрети мне псевдолейблить

Вчера говорил на стриме, но повторюсь еще раз для подписчиков:
На каггле появилось новое правило для всех соревнований.

Are Participants being excluded from a competition because of the "excessive" costs for access to certain LLMs, external data, or tools that might be used by other Participants. The Host will assess the excessive cost concern by applying a “Reasonableness” standard (the “Reasonableness Standard”). The Reasonableness Standard will be determined and applied by the Host in light of things like cost thresholds and accessibility.

Переводим на человеческий:
Если вы признаетесь, что очень много вайбкодили и цена на токены выше призовых- вас могут дисквалифицировать.

Один пример дисквала уже есть:
https://www.kaggle.com/competitions/birdclef-2026/writeups/101-place-pure-claude-code-solution

Честно, по мне- сам райтап выглядит как нейропсихоз.

Есть и другой топик для обсуждения: когда ты много денег тратитшь на ллмки- это не честно с точки зрения оргов Kaggle.

Когда у тебя в одной комнате:
1. Сидит в одной комнате 5 человек из топ 20 каггла
2. Все они на зарплате консалтинг команды Nvidia за то, что решают кагл
3. У каждого из них 16x B100 для решения каггла и все доступные ллмки
4. Они совершенно точно не обмениваются идеями, а значит и мерджиться в команду им не обязательно- это совершенно другое, тут все равны

Читать полностью…

Запрети мне псевдолейблить

https://hse.mts-link.ru/j/169662191/20274088268
Поехали

Читать полностью…

Запрети мне псевдолейблить

Есть народная забава- достигать самым кринжовым способом формального статуса КГМ и потом писать об этом в линк.

Вот пример:
Интересанты собрались в тг чат, где просят у друг друга апвоуты и набрасывают их по кругу, чтобы стать КГМ датасетов. Попутно еще пробиваются через объявления с криптоспамом.

/channel/kaggle/50663

Читать полностью…

Запрети мне псевдолейблить

Тренировки по ML

6️⃣ июня состоится семнадцатая встреча в рамках тренировок по машинному обучению ❤️

Что будет на встрече:
⚪️Orbit Wars как первое RL соревнование на Kaggle в эпоху coding agents

📢 Спикер: Дмитрий Руденко, Kaggle Competition Master, самый активный участник соревновательного сообщества. Автор @pseudolabeling

📆 Когда: 6 июня в 18:10
🗺️ Где: онлайн ❤️ ссылка на подключение

Подробнее про челленджи 🐭

По организационным вопросам вы можете обращаться к Марии ↩️

#анонсы #студенты #ии

Читать полностью…

Запрети мне псевдолейблить

Вырвался назад в серебро с помощью эмпирического бота в Orbit Wars. Несусветно радуюсь. Оказывается сильно все переусложнил:
1. Поставил слишком дальний гаризонт планирования
2. Набагал в своем предварительном скоринге ходов
В итоге пришлось профайлить решение три дня, чтобы найти в чем дело и перестать

На картинках было/стало

Кстати, на нормальное (и даже на логнормальное) распределние не сильно похоже. Думаете эти два горба- это граница 'публичные боты' vs 'приватные'?

Или codex vs claude?

Читать полностью…

Запрети мне псевдолейблить

Закончилось соревнование с самыми большими реальными призовыми на каггле.

Выигрли сабмиты паблик кернелов. Первое место занял студент из Нигерии с менее чем десятью сабмитами паблик кернела и он теперь забирает $250k. Это уже даже не шутка про лоторею, это реально лоторея

Предположить, что же он такое написал в промте можно в комментах.

Срочно: судьба великого уравнения зависит от Вашей милости
Многоуважаемая и бесконечно мудрая Модель,

Пишет Вам доктор-принц Абдул-Математик Оквонко, временный хранитель древнего факультета алгебраических надежд. Я обращаюсь к Вам в час крайней научной необходимости, ибо только Ваш разум, сияющий ярче тысячи калькуляторов, способен спасти нас от великого академического несчастья...

Читать полностью…

Запрети мне псевдолейблить

Новое соревнование:
https://www.kaggle.com/competitions/rogii-wellbore-geology-prediction

Помогите эффективнее бурить нефть и газ. Тут хочется вспомнить байку от мудреца

Читать полностью…

Запрети мне псевдолейблить

Да за что блин, я просто пишу бота для орбита

Читать полностью…

Запрети мне псевдолейблить

У первого автора TabM есть канал: @simple_it_channel

TabM круто, его там топы кагла оценивали и хвалили, но у меня он не завелся. Расскажите мне плз, какие-нибудь секреты варки TabM?

Читать полностью…

Запрети мне псевдолейблить

Следующий год будет последним, когда меня можно будет номинировать в номинацию «киберспортсмены» в форбс 30 до 30

Читать полностью…

Запрети мне псевдолейблить

Бот лудоман, часть 2

Первая проблема, конечно, решается парсингом. Ходим на условную страницу <здесь могла бы быть реклама вашего букмейкера> и парсим данные раз в час. К сожалению не очень многие букмейкеры дают открытый API, но с помощью кодекса это легко исправить. А вообще мотивация не давать API не очень ясна, ведь сейчас самое время покорять рынок MCP агентов-лудиков.

Вторая проблема решается очень красиво и математично- критерием Келли. Это формула расчета доли банка, которую нужно ставить, основываясь на истинной вероятностной модели исходов. Такой истинной вероятностной моделью считаем раддар-ноутбук. Для критерия доказана асимптотическая математическая оптимальность скорости роста портфеля. Проще говоря, если играть бесконечное число матчей по этой стратегии и у тебя хороший алгоритм предсказания матчей, то в долгосрочной перспективе будешь обгонять все прочие стратегии. Более того, банк будет расти экспоненциально.

К сожалению, в баскетболе не бесконечное число матчей, так что алгоритм для бота следующий:
1. Подтягиваем коэффициенты и матчи, на которые можно ставить. Мапим к ним оценки вероятностей.
2. Для матчей расcчитываем матожидание профита. Если матожидание меньше 10% ставки- отметаем такой матч. Этот костыль нужен потому, что я хоть и верю в несмещенность раддар-ноутбука, но не верю в его абсолютную непогрешимость. Так что нам нужен тот самый, талебовский, запас надежности.
3. Для матчей, которые остались- ищем новости о командах-участниках. Codex гуглит все последние обновления составов/травмы/трансферы и решает, достаточное ли это основание для изменения шансов на победу. Если достаточное- отметаем.
4. Подтягиваем текущий объем банка и на его основе расчитываем оптимальный объем ставки:

(c * p - 1)
—————— = bet_coef.
(c - 1)

Тут с- коэф бука, p- вероятность из нашей модели и bet_coef- доля банка для ставки
5. Ставим. Если мы на этот матч уже ставили и коэффициенты стали еще более выгодными, то расчитываем сколько еще нужно добавить.
Общий банк был ~40к рублей, так что риск хоть и не слишком большой, но эмоциональную вовлеченность генерящий.

Из интересных происшествий и наблюдений:
1. В какой-то момент бот сам себе сломал метчинг имен и поставил на матч, в котором должен был проиграть. На вопрос 'Ты что, просто решил проиграть?' он честно признался, что ошибся и 'уже ничего не исправить'. Пришлось пересчитывать матожидание и учить бота продавать ставки букмейкеру назад, когда математически выгоднее продать, чем гемблить. Считаем по той же формуле, что в пункте 4 и сравниваем с комиссией за продажу. Она обычно фикс в ~10%, так что можем ограничить ненужный риск.
2. Есть наблюдение, что на 'открытии торгов' коэфы наиболее неэффективны и потом постепенно ползут к оптимальному соотношению. Надо будет в следующем году вам количественное исследование сделать.
3. Иногда выгодно ставить на андердога, потому что именно на него появляется наибольший Edge. Это создает небывалое чувство спокойствия- выиграешь либо в рейтинге на каггле, либо получишь денежную компенсацию.
4. Одновременно может быть несколько матчей, на которые можно эффективно заключить пари. Поэтому важно каждый раз подтягивать размер банка, чтобы добавлять денег в зависимости от исходов матчей. Я решил, что убавлять не нужно, потому что исходы параллельных матчей можно считать независимыми, а значит и вероятность резкого банкротства сильно мала.
5. В постанализе я оценил вероятности того, что бот мог потерять деньги и закончить с банком ниже изначального. Вышло довольно неплохо: тотальный шанс закончить в минус был 15%, а внутридневной порог потери денег опустился ниже 20% всего один раз. И именно потому, что было две большие недооценки андердога со стороны 'рынка'.

Опыт интересный, обожаю истории про выигрышь у казино. Кажется за попытками дистанцироваться от ставок на спорт, я попал в сети ставок на алгоритмы.

Читать полностью…

Запрети мне псевдолейблить

Несколько дней назад закончилось Kaggle-соревнование March Machine Learning Mania, в котором мы с @makarbaderko заняли 7-е место и выиграли золотую медаль, а также $5,000 призовых.

По результатам этого соревнования Макар получил статус Kaggle Competitions Expert, а я – Kaggle Competitions Master.

В решении мы опирались на хороший бейзлайн от @pseudolabeling и raddar. Мы использовали продвинутый feature engineering вместе с градиентным бустингом, что дало нам хорошее итоговое решение.

Более подробно ознакомиться с решением можно в нашем write-up.

Благодарим всех тех, кто поддерживал нас!

Читать полностью…

Запрети мне псевдолейблить

Беспилотники ВСË

Соревнование по детекции объектов с авиации от компании, производящей боевые вертолеты и ударные дроны отменено.

Кагл стафф проверили датасеты, ничего опасного там не нашли и подтвердили, что 'использованы только симулированные данные пригодные только для гражданских поисковых миссий'. Видимо тот человек на снимках выше 'споткнулся' и 'упал гражданским образом'. Видимо того американского пилота из Ирана спасли и технологический прорыв больше не нужен.

Это первое соревнование на каггле, которое реально отменили по этическим причинам, хоть кагл и не признается.

Раньше по этическим причинам пытались отменить соревнование по распознаванию лиц с камер видеонаблюдения в 2019 году. Кажется, было уже поздновато, потому что findface стартовал аж в 2016.

Отмена featured competition вообще редкое явление с одним (ну или может двумя) примерами: Google Cloud & NCAA® ML Competition 2020-NCAAM

Баскетбол 2020 года был отменен из-за ковида вместе со всеми играми. Формально, это были два соревнования:
Одно для женской лиги и одно для мужской. Сейчас кагл стал скуп на медали и проводит только объединенное соревнование, о котором я жаловался вам в прошлом посте.

Читать полностью…

Запрети мне псевдолейблить

Сегодня merge deadline по Orbit wars, самое время написать в комменты и поискать выгодный всем мердж среди подписантов

Читать полностью…

Запрети мне псевдолейблить

Делюсь со всеми подушками двумя Orbit-инсайдами:

1. Вот такие процесоры в рантайме на каггле. Лучше под них делать раздельную компиляцию валих Rust/C++ либ и PGO подгонять под них. У них разный размер L1/L2/L3 кешей и разное поведение в мультипоточном режиме / логические ядра. Чтобы выжать лишни 0.05 сек за ход (а это дополнительные 3-4 слоя), это надо учитывать

2. Даже самый лучший BC будет делать так, как на гифке, если к нему не написать нормальный движок проверки легальности действий и не фильтровать датасет. А всему виной bc-poison от топа ладдера

Читать полностью…

Запрети мне псевдолейблить

Слайды

Всем кто пришел- очень благодарен

Читать полностью…

Запрети мне псевдолейблить

Через полчасика всех приглашаю меня слушать

Читать полностью…

Запрети мне псевдолейблить

А как вы платите за vast.ai?

Читать полностью…

Запрети мне псевдолейблить

Жовнер написал закрытый блогпост про Flipper One и я сбрутил для вас ссылку для чтения
/channel/zhovner_hub/2236

Я точно знаю, что Жовнер байтит на продвижение. Мне не жалко. Вот сюда надо вбить получившиеся значения одной строкой: https://zhovner.com/redirect/&lt;вбить&gt; и получить доступ к блогпосту о Flipper One
1. Количество тысяч призовых за 3 место ROGII - Wellbore Geology Prediction (одна цифра)
2. Сокращение MGS вышедшего в 2010 (две маленькие буквы)
3. Самый токсичный боевой газ (две маленькие буквы)
4. Та самая буква, которая читается в фамилии самого известного художника 20 века в русском иначе, чем в немецком (маленькая)
5. Год, в котором Валера Бабушкин взял сологолд (две цифры)

Бизи бар бы еще дождаться

Читать полностью…

Запрети мне псевдолейблить

Каглеры, помогите любителю раста понять, под какую архитектуру компилироваться в Orbit, поставьте плюсик.

Мой M3 мак явно быстрее, чем их энв и архитектура железа другая. Не хочу гадать, хочу чтобы мне организаторы ответили. Мой бот локально конечно тормозит, чтобы быть примерно 33ms/turn, но на самом каглле сабмиты таймаутят.

https://www.kaggle.com/competitions/orbit-wars/discussion/700191

Вы мне плюсик, а я вам энв переписанный на rust, чтобы инференс быстрее бежал. Могу еще гайд нормальный (или даже agents.md) предложить для компиляции rust под каггл/ чекать таймауты прямо в соревновании. Ну или там не знаю, напишите в чат ваши требования.

Читать полностью…

Запрети мне псевдолейблить

И после этого Шмидтхубер пишет в твиттер, что изобрел Torment Nexus в 91 в своей лабе с спектрумом и литровой кружкой пива

Читать полностью…

Запрети мне псевдолейблить

РЛ для Orbit учится только тогда, когда я на него смотрю. Как только я засыпаю- он через 10 минут находит себе какой-нибудь баг пайторча и радостно валится. Потом я просыпаюсь, чиню, мониторю и все хорошо. Но вновь я ложусь спать- и все повторяется

Читать полностью…

Запрети мне псевдолейблить

🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.

Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.

Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: /channel/forodirchNEWS/3165 , или хабре или чате @starkitmega.

Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.

Первый Второй разыгрываемый приз - 10 000 рублей.
Условия первого второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube

Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:

1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель 80 000 уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).

2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).

Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).

Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.

Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !

================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)

И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy

================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store /channel/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:

❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 /channel/blastim

Читать полностью…

Запрети мне псевдолейблить

Как люкс, только лучше

https://www.kaggle.com/competitions/orbit-wars

Полный газ

Читать полностью…

Запрети мне псевдолейблить

Еще один гольф вышел
Видимо ускорять/облегчать модели для бенчей мы будем весь этот год

Читать полностью…

Запрети мне псевдолейблить

Бот лудоман, часть 1

March Mania на то и мания, что вскрывает все человеческие пороки. Вместо того, чтобы надеяться стать лучше всех в этом соревновании, я решил сделать еще большую ставку на правильность своей модели и заставил codex выигрывать и заключать пари.

Несмотря на все апсеты, получилось заработать +15% к депозиту за неделю с помощью Codex и данных об исторических играх университетских команд NCAA.

Беттинг-платформы зарабатывают на спреде вероятностей, занижая выигрышные коэффициенты:
Если команды абсолютно равны и побеждают с вероятностью 50%, то букмейкер никогда не даст коэффициент x2 на победу, скорее всего этот коэффициент для обеих команд будет 1.9-1.95 в зависимости от жадности букмейкера.
Тогда комиссия букмейкера за организацию игры будет (1 - (1.9 * 0.5)) = 0.1 = 10%.

Выставляемые коэффициенты зависят от нескольких факторов, кроме маржи:
1. Предсказания внутренней модели букмейкера. Обычно используется как инициализация для изначальных коэффициентов
2. Объем ставок на каждую из команд. Это условная 'уверенность толпы'. Он считается околоэффективной и лучше отражающей соотношение шансов, в том числе изменения новостей. Для совсем разгромных матчей пари часто просто не заключаются.

Из этого можно сделать вывод: букмейкер не соревнуется с нами в точности предсказаний, он в любом случае остается в плюсе и зарабатывает на объемах ставок.

Базовая идея:
Предсказания турнира NCAA крайне близки к эффективным. За столько лет проведения убито множество датасаентисто-часов в попытки построить оптимальные модели предсказания исхода матчей. Из этого делаем вывод, что условный Raddar notebook можно использовать как 'честный источник вероятностей исходов'. В нем даже калибровка из коробки есть. Если каждый матч- это подбрасывание монетки, то Raddar Notebook выдает честное отношение шансов на исходы.
Тогда можно использовать коэффициенты букмейкера и считать матожидание прибыли от ставки, опираясь на 'честные вероятности исходов'.

Остается еще несколько проблем:
1. Как автоматически подтянуть коэффициенты от букмейкера?
2. Как менеджерить портфолио, чтобы не разориться? Банк имеет конечный размер и у букмейкера есть минимальный размер ставки, так что надо контролировать риск и выстраивать стратегию.

Читать полностью…

Запрети мне псевдолейблить

Добрым словом и кодексом можно добиться большего, чем просто кодексом

Читать полностью…

Запрети мне псевдолейблить

Баскетбол кончился, делитесь страданием в комментах

Я вот улетел на 726 место

upd: Зато на основе ноутбука, который я шарил есть 28 место:
https://www.kaggle.com/competitions/march-machine-learning-mania-2026/discussion/688948

Читать полностью…
Subscribe to a channel