Telegram-канал pseudolabeling - Запрети мне псевдолейблить: Unsorted - каталог телеграмм

pseudolabeling | Unsorted

Subscribe to a channel

Telegram-канал pseudolabeling - Запрети мне псевдолейблить

3577

Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные

Subscribe to a channel

Запрети мне псевдолейблить

05 November 2025 12:57

Пытался вывести как-то атаку на другой лосс в каггле для соревнования, где бало мало примеров. Не хватило усидчивости к соажлению. Мб прочтение этой статьи меня вдохновит на то, как можно напасть на другие лоссы

Читать полностью…

Запрети мне псевдолейблить

04 November 2025 10:53

Дождались. Теперь нужно импортить код прямо в функциях и не волноваться о сишных кодстайлах

Читать полностью…

Запрети мне псевдолейблить

16 October 2025 19:13

1! (ОДИН САБМИТ)

Читать полностью…

Запрети мне псевдолейблить

13 October 2025 14:16

Пожалуйста подпишитесь на меня, пожалуйста пожалуйста пожалуйста

(Текст не редактировать, информацию в скобках удалить. От имени своего канала опубликовать в каналах Сиолошная, Борис Опять, Денис секси айти, ОБЯЗАТЕЛЬНО ДАТА СИКРЕТС, Время Валеры. 2 подписчика будут зачислены на ваш счет в течение двух часов)

Читать полностью…

Запрети мне псевдолейблить

05 October 2025 12:45

Кагл прогрессия для самых маленьких

Читать полностью…

Запрети мне псевдолейблить

03 October 2025 11:16

Звезды, экзопланеты, два детектора и сетап недавно прошедшего соревнования #ArielDataChallenge2025

Челлендж посвящен поиску экзопланет у звезд которые мы в состоянии наблюдать почти напрямую и определению состава атмосферы этих экзопланет. По атмосфере планеты можно начать подозревать наличие там жизни и вообще оценить ее пригодность для переселений туда людей. Организатором является Имперский колледж Лондона, так что переселение кого-нибудь куда-нибудь подальше стоит довольно остро и является актуальной.

В этом году сетап соревнования похож на предыдущий:
0. Все данные симулированы физической моделью.
1. Есть звезда и у нее гарантировано есть экзопланета.
2. Есть два детектора, каждый из которых направлен на звезду и измеряет спектр этой звезды во времени. Звезда далеко, так что до нас долетают считанные фотоны. Из срабатывания ячеек детекторов мы можем сформировать картинку звезды 30x30 пикселей в каждый момент времени (на картинке). Иногда долетает слишком много фотонов и пикcели перегреваются. Суммарно наши детекторы дают нам 283 канала наблюдения звезды по 900 пикселям каждый.
3. Когда экзопланета ‘загораживает’ нам звезду, мы наблюдаем (или не особо) падение светимости звезды. По этому изменению светимости надо определить спектрограмму состава планеты, которая, сюрприз-сюрприз составляет 283 значения.

Из отличий этого года:
1. Теперь у нас у каждой планеты уникальная звезда. В прошлый раз у нас на все планеты были даны всего две уникальные звезды с уникальными спектрами светимости.
2. Физическую модель привели еще больше к реальной физике. Если в прошлый раз у нас затмение иммитировалось как ‘мимо круга пролетает квадрат’, то теперь у нас теперь симмуляция строится на двух кругах. Это отражается в данных как скругленное дно транзита (на картинке). А еще добавили новых видов шума, которые делают симуляцию более похожей на реальные данные.
3. Добавили новых атмосферных прототипов. Это условные коричневые карлики, газовые/ледяные гиганты, каменистые планеты почти без атмосферы и тд.
4. Теперь для некоторых планет доступны несколько наблюдений транзитов, которые возможно хитро предобработать и уточнить свои предикты

Как решать будете?
Ответы как всегда на @pseudolabeling

Читать полностью…

Запрети мне псевдолейблить

24 September 2025 17:33

Последний сабмит в соревнование сделал. Молимся Горку и Морку о удачном броске вверх и ждем ночной прокрас прайвета.

Вы можете присоединиться ко мне, а можете поставить клоунов, не помню как вам там больше нравится

Читать полностью…

Запрети мне псевдолейблить

12 August 2025 11:07

RecSys Challenge 2025.

Я уже рассказывал, что в этом году мы заняли четвертое место на RecSys Challenge. В июле подали статью на воркшоп соревнования, который проходит на самой конфе RecSys. Статью приняли! Мы доделали camera-ready версию, и с сегодняшнего дня подробное описание нашего решения можно почитать на arXiv.

От ревьюверов есть strong accept и комментарий “goldmine of practical insights” :)

Пригодится как разработчикам рексистем, так и участникам всевозможных соревнований по рекомендашкам.

Ссылочка — https://arxiv.org/abs/2508.06970

Читать полностью…

Запрети мне псевдолейблить

08 August 2025 11:14

E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

E-CUP 2025 — соревнование, где Everything as code. Решай ML-задачи в стиле Ozon Tech. Призовой фонд — 7 200 000 рублей 🔥

🗓 Регистрация: https://cnrlink.com/ecup25pseudolabel
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Призовой фонд — 7 200 000 рублей для девяти сильнейших команд.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Эксклюзивный мерч и подарки.
🔹 Питчинг — онлайн или очно на конференции E-CODE. Финалистам Ozon Tech предоставит билеты и оплатит поездку.

Регистрация открыта до 17 августа включительно

Читать полностью…

Запрети мне псевдолейблить

06 August 2025 17:39

Пока я мало пишу в канал про свои соревнования, позволю себе украсть вдохновение у @abacabadabacaba404 и предложить вам почитать классный блогпост про КФ. Автор дважды брал золото IOI и в этом году взял серебро:
https://codeforces.com/blog/entry/142591

Отправьте своим школьникам и первокурсникам, если они хотят быть лучшими

Читать полностью…

Запрети мне псевдолейблить

03 August 2025 17:10

Папищики, бесплатная реклама Rust тулзами:
Вместо того, чтобы использовать по большим файлам grep, можно установить себе

ripgrep

и пользоваться мультитредингом, чтобы искать по патерну в N раз быстрее 😡

А то мне тут понадобилось поискать по логам на 200 гб в формате txt и это оказывается может быть долго


!rg -Fi 'keyword1' my_big_dump.txt -j8 > search_result.txt

И теперь у вас уже 8 тредов, вместо одного. А можно ведь и больше тредов поставить

Читать полностью…

Запрети мне псевдолейблить

17 July 2025 00:20

Видимо единственный способ избежать бутылки- это занять третье место

Читать полностью…

Запрети мне псевдолейблить

08 July 2025 13:51

Топ-2 в #BirdClef2025
В этот раз опытне птичники, у которых в команде чел с первым местом в 2022 и 2023 годах!

📊 Данные
Использовали данные из прошлых соревнований, что собственно и помогала в прошлые года +
Подтянули дополнительно записи из Xeno Archive.
Тут помог баг, который был обнаружен еще в 2023: API Xeno Archive выдаёт максимум 500 семплов на вид — большинство команд этого не учли. Багу два года, и его никто не чинит. Кто знает- тот знает

🎛️ Предобработка
Для обучения берём первые 7 секунд каждого файла и рандомно вырезаем 5 секунд.

Баланс между разнообразием данных и интуицией: голос птицы чаще слышен в начале записи.

🛠️ Архитектура и оптимизация
tf_efficientnetv2_s + RAdam
eca_nfnet_l0 + AdamW

Обе модели тренировали 50 эпох
Loss: Focal + BCE
Scheduller: Cosine LR

⚖️ Веса семплов
Учли с весами, чтобы компенсировать дисбаланс классов:


python
sample_weights = (
    all_primary_labels.value_counts() / 
    all_primary_labels.value_counts().sum()
) ** (-0.5)

🚀 Ключевые бусты
1. Предтренинг на всём Xeno Archive
Вычистили низкочастотные классы и текущее тесто-трейн
Предобучили на задаче классификации и получили бекбон с глубоким пониманием спектрограмм записей животных

Результат: 0.84 → 0.87

2. Псевдолейблинг (запрещенная техника)
Предсказываем на неразмеченных данных → pseudo1
Оставляем только скоры > 0.5 → pseudo2
Зануляем слабые метки (< 0.1): pseudo2[pseudo2 < 0.1] = 0
Обучаем модель на таргет pseudo2 и повторяем цикл
После двух итераций: 0.87 → 0.89 → 0.91 (третий круг не даёт профита)

3. TTA
Сдвигали записи в Test time augmentation на 2.5 секунды влево и вправо, а потом усредняли предсказания.
0.91 -> 0.922

В общем опыт прошлых соревнований доовольно сильно решает, особенно если помнишь интересные баги связанные с источниками данных

Читать полностью…

Запрети мне псевдолейблить

08 July 2025 11:40

Вчера все верно догадались: Кагл убрал дискашны насовсем. Теперь осталась только ачивка Kaggle Legacy discussion Master/GM. А еще он убрал Novice/Contributor и оставил просто Unranked/Expert/master/GM

И это отлично. Каглу уже давно пора воровать элементы вовлечения у другого популярного сайта и толкать аналитику катализируюшую гиперфокус. Только не за подписку, а ради вовлечения пользователей и удержания. Теперь можно посмотреть, как менялся ваш рейтинг во времени. Верю, что ASI построят все равно кагглеры, а не резерчеры.

Из открытий- ранкинг не так быстро падает, как я ожидал. Все еще есть смысл концентрироваться на циферках.

А еще теперь апвоуты ноутбуков считаются только от экспертов и форк ноутбуков автоматически ставит на него палец вверх.

Читать полностью…

Запрети мне псевдолейблить

07 July 2025 18:37

Теперь на каггле дают 'предупреждения' за то, что выкладываешь даталик в паблик.
Два предупреждения- бан
https://www.kaggle.com/competitions/neurips-open-polymer-prediction-2025/discussion/588565

🤡️️️️🤡️️️️🤡️️️️

Читать полностью…

Запрети мне псевдолейблить

04 November 2025 10:53

Python Steering Council unanimously accepts "PEP 810, Explicit lazy imports" (Score: 150+ in 13 hours)

Link: https://readhacker.news/s/6ENUr
Comments: https://readhacker.news/c/6ENUr

Читать полностью…

Запрети мне псевдолейблить

22 October 2025 15:13

Мои друзья из White Circle делают единственный в мире прибыльный стартап по AI safety и ищут инженеров.

Ребята, вероятно, лучшие в мире по RL-ингу, чтобы одни модели редтимили (ломали) другие.

Фан факт: их СЕО когда-то учился в ФКН ВШЭ на курсе где я преподавал. Оказалось хорошей нетворкинговой стратегией переподавать там где студенты умнее тебя. В общем, лично знаю ребят и могу ручаться.

Важно: нужно много работать. Зато готовы платить 80 - 150k USD.

Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse

2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас

📨 CV → https://docs.google.com/forms/d/e/1FAIpQLSftxgbzzz2xz5ng0tYqiuGfuMtTRJYX0W2IgL8dhu9RHgBBhw/viewform

(текст в скобках удалить, репост ваших мемов про доту и 15 рублей поступят на указанный счет)

Читать полностью…

Запрети мне псевдолейблить

14 October 2025 12:03

Челлендж для тру гранд-мастеров- влететь в золото с решением на COBOL
Думаю под силу только @abacabadabacaba404

Вообще пока видел золотые решения с кодом на:
Python 2/3
R
Rust
C
Кажется что-то когда-то видел на Matlab

Мб кто-то еще вспомнит экзотику?

Читать полностью…

Запрети мне псевдолейблить

09 October 2025 11:07

9 место в NeurIPS - Ariel Data Challenge 2025

Два грандмастера, а именно Dieter и CPMP. Два чела, которые получают зп за то, что решают кагл. СPMP буквально Director competitive ML, а Dieter это текущий топ 2 на платформе и бывший топ 1.

Прерпроцессинг довольно обычный:
1. Взяли топ паблик препроцессинг, сделанный на основе кода организаторов
2. Добавили к нему фильтр на космические лучи (выборсы по сигналу сразу на нескольких частотах), тоже из паблик кернела. Кстати паблик кернела победителя этой соревы.
3. Починили баг, который допустили организаторы во время кодирования данных из 3D (высота x ширина x время) в 2D (сигнал x время)
4. Отцентрировали сигнал, откинув 'бесполезные' края транзитов экзопланет
5. У оригинального детектора, который снимал 3D данные было большое разрешение, но из-за того, что звезда всегда в центре, почти все выкидывали 'темные' пиксели, потому что в них мало информации да и организаторы в своем бейзлайне так делают. Грандмастера хитро посмотрели на распределение того, где есть светимость, а где нет, и сделали чуть более умное маскирование (схема на картинке)

Дальше уже был дата саенс:
1. Взяли детектор транзитов из паблик кернела и им разделили данные на фазы транзита
2. Для краев транзита использовали полином второй степени, чтобы предсказать тренд светимости звезды отдельно от планеты и его вычитать как offset
3. Использовали Бетмен-модель Bad-Ass Transit Model cAlculatioN, чтобы с помощью нее определить размер планет и звезд
4. Ту же модель зафитили на данные только с FGS детектора
5. Ту же модель зафитили для бинаризованных на 18 частот данных
6. На бинаризованных данных зафитили еще и Gaussian Process, чтобы шум пофильтровать и дополнительно сгладить выбросы

Ну и постпроцессинг:
1. MLP, который все это дело приводил к единой размерности и стакал
2. Еще один MLP, который калибровал результаты

И все, вот оно 9 место. Судя по активности на лб, которую мы наблюдали- мужчины не особо кранчили, зашли отметились просто.

Читать полностью…

Запрети мне псевдолейблить

04 October 2025 12:02

Кстати, Lux 4 быть. Есть желающие начать готовиться заранее и настраиваться на победу? В прошлый раз эксперименты топ 1 команды занимали по 12 дней обучения, так что соревнование ML-Heavy.
План подготовки примерно такой:
1. Рекапнем вместе курс Stanford по RL
2. Поразбираем глубоко решения прошлого года и попишем свои
Цель: лейт сабмишн бота, который побьет топ 1 прошлого года. Мб даже железо проспонсирую на тренировку.

Пишите в лс канала, если хотите поучаствовать, ставтье клоунов если нет

Разбор и сетап прошлого Lux 3 стоит смотреть примерно отсюда

Читать полностью…

Запрети мне псевдолейблить

25 September 2025 12:22

Сильно, но хитро поднялись на прайвете. Риск был калькулированный, была интуиция что минимум четверо из золотой зоны резко опустятся, но не было уверенности, что это будем не мы.

Стало быть, второе золото нафармлено, взят второй ариел в ряд и третий год подряд будет invited talk на neuralIPS от вашего любимого блогера.

Честно скажу, без команды ничего бы не вышло.

На 5 месте кстати наш ВМКшный коллега, который вообще через физику решал соревнование. Выложат райтапы- разберу вам самое лучшее с этого года.

Эмодзи клоуна доступна, мб этим постом обновим предыдущией рекорд в 39 штук

Читать полностью…

Запрети мне псевдолейблить

20 September 2025 19:31

Ну раз H1b больше не получишь, придется вам тоже фармить кгм и надеяться получить о1 визу

Читать полностью…

Запрети мне псевдолейблить

12 August 2025 11:07

Еще немножко соревновательного контента

Читать полностью…

Запрети мне псевдолейблить

07 August 2025 19:39

А я думал что вот это было грязно

Читать полностью…

Запрети мне псевдолейблить

05 August 2025 00:21

Волчат уволили из Газпром медиа. Потешно, что за год никто не заметил разницы, но это скорее говорит о самом работодателе, чем о работниках. Хотя я уже давно заметил, что лучшие наймы- это когда ты знакомых с прошлых работ кандидата спросил про то, какой он человек и инженер. Always has been

/channel/rockyourdata/5344

А еще Дуров включил принудительные платные лайки и мне это не нравится. Теперь они отображаются даже если их никто не поставил. Слишком навязчиво.

Читать полностью…

Запрети мне псевдолейблить

22 July 2025 21:10

Пора создать канал в мессенджере, где можно вычислять ставящих клоунов по госуслугам?
Да 😍
Нет 🗿

Читать полностью…

Запрети мне псевдолейблить

13 July 2025 12:04

Топ-1 в #BirdClef2025 от Никиты Бабича запретите ему псевдолйблить

Никита всё соревнование доминировал — был на первом или втором месте. Я лично не видел его ниже чем на втором.

Данные
Дополнительные птицы
Докачал из архива Xeno ещё 5 489 записей по тем же классам, что и в трейне.

Дополнительные лягушки и насекомые из других таксонов
17 197 записей насекомых и амфибий, в том числе не входящих в лейблы для соревнования. Амфибии и насекомые имеют высокую частоту повторяющихся специфичных звуков, что сильно отличается от птиц — отлично прокачивает модель на низкочастотных и “других” классах.

SED-модели (Sound Event Detection).
Прошлые участники тоже их использовали, но я хотел именно тут объяснить что за SED такой.
Классическая классификация говорит «что это за звук», а SED ещё и «где он начинается и где кончается».
На шумных данных, где вокруг слышно несколько видов на одной записи, это был ключ к успеху вместе с псевдолейблингом.
По сути это мост от per-sample к per-frame разметке, похожий на MIL-задачу. Сильно мне напоминает MIL модели, которые делают что-то похожее, но на картинках
На картинке пример инференса SED: как и почему он помогает на шуме.

Валидация
Нормальной валидации не нашлось, поэтому Никита валидировался по ЛБ. :chad:

Многоэтапное обучение
Бейзлайн
15 эпох, Cross-Entropy, AdamW, Cosine Scheduler
backbone’ы: EfficientNet-0 + RegNetY-8
LB: 0.872

Псевдолейблинг I + MixUp
Генерим псевдолейблы на неразмеченной части.
Смешиваем MixUp: настоящие лейблы + псевдолейблы (малый вес последних).
Добавляем StochasticDepth (drop whole conv-блоки, p=0.15). StochasticDepth- это когда у нас есть дропауты, которые выкидывают целые блоки из бекбона и глубина получается недетерминированной.
Тренируем 25–35 эпох.
LB: 0.872 → 0.898

Power Scaling + псевдолейблинг II
Просто в лоб вторая итерация давала слишком шумные псевдолейблы, которые нельзя было повторно переиспользовать.
Решение:
new_preds_i = preds_i^(1/power_c) / sum(preds_j^(1/power_c))
Это позволило пройти 4 раунда псевдолейблинга с улучшением качества.
LB: 0.898 → 0.930

Отдельный пайплайн для насекомых и амфибий
Тренируем классификатор на этих данных.
Берём предикты по нужным классам из трейна и заменяем ими результаты в основном ансамбле.
LB: 0.930 → 0.933

В конечно итоге собираем ансамбль:

EfficientNet-l0, B4, B3 (3 раунда псевдолейблинга)

RegNetY-016 (2 штуки, 4 раунда)

RegNetY-008 (1 штука, 1 раунд)

Отдельный EfficientNet-B0 для классификации насекомых и амфибий

Из этого решения наверно для себя самыми горячими идеям вынесу:
1. PowerTransform для псевдолейблов, чтобы идти в несколько раундов. Идея будто даже похожая на жесткие псевдолейблы чем-то
2. SED как способ уточнить разметку на псевдолейблах

Читать полностью…

Запрети мне псевдолейблить

08 July 2025 11:44

Без багов кстати не обошлось:
Из-за изменения системы учета лайков на ноутбук, циферки теперь расходятся. В профиле я бывал максимум 283, а судя по графику бывал и повыше

Читать полностью…

Запрети мне псевдолейблить

07 July 2025 19:25

А еще, видимо из-за наплыва индийских грандмастеров в дискашнах, медальки в дискашнах исчезли. Надеюсь, навсегда

Читать полностью…

Запрети мне псевдолейблить

06 July 2025 12:22

У вас вообще появились продакты потому, что Мэнти Кейган написал о том, какие они полезные в книге »Inspired«. При этом он опирался на свой десятилетний опыт работы инженером в HP с 1980 по 1990. После этого он еще 10 лет совмещал роли CTO и CPO в Netscape и Ebay. И в 2002 (за 15 лет до публикации), он ушел в консалтеры и продает свой ценнейший опыт за почасовую оплату. Смог бы ваш продакт буквально придумать объекто-ориентированное программирование в лабе HP? Надеюсь, да

Скелетрон пока не вернется, я так книжки не успеваю быстро читать

Читать полностью…

Subscribe to a channel