3577
Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные
Вот бы сейчас узнать мнение @silicon_bangalore о всех ситуациях, которые он не комментил
Читать полностью…
Заняли 47 место в упаковке елок в квадрат. Вернулся на 4 страницу рейтинга (382 место) в компетишнах, но как-то не ощутимо приблизился к гранд мастеру.
В ближайшие пару дней расскажу, что было придумано и как работало. Соревнование ежегодное и проклятое, потому что в нем неимоверное число участников, а значит и рейтинга дают очень много. Так что если вы хотите быть киберкотлетой как я- выбора участвовать или нет особо нет. Это как пропускать мажоры и потом удивляться, почему рейтинги низкие.
В жизни пару раз встречался с задачами упаковки объектов и всегда казалось, что каждый раз нужно изобретать костыли и писать очередной Branch & Bound. Ну так вот вывод: надо!
На днях обсуждали с админом @pseudolabeling, что автоматические фильтры резюме совсем оборзели. Некоторые ребята которых я менторил из-за этого вручную оптимизировали резюме под каждую вакансию. Почему бы не автоматизировать?
Навайбкодил за два вечера hr-breaker:
1. Загружаете резюме
2. Даете ссылку на вакансию
3. LLM вооруженная тулколами генерирует оптимизированное резюме (в том числе по советам из методички)
4. Делаются стандартные проверки: keyword matching, vector similarity, проверка LLM-кой (в том числе визуально, что всё не поехало), проверка на галлюцинации, проверка на очевидный AI-generated текст
5. Если хотя бы одна проверка не пройдена оптимизация продолжается
Важно, что всё сконфигурировано не врать и не изобретать опыта которого нет, поэтому получается очень неплохо. Но если у вас нет совести ничто не мешает форкануть поиграться с промптами и отключить пару проверок 🤗
UX сделан для массовой подачи: кладет оптимизированные PDF в папку с указанием роли и компании, чтобы вы не забыли какое резюме куда отправляли.
Скачиваете, подставляете свой ключ Gemini API, uv run и уничтожаете скрининг как явление. Добейте выживших
@boris_again
Посвещается @ArtemVeshkin @markdjadcnhenko @artyomjk которых шейкнуло с 10 места на 38 в CSIRO - Image2Biomass Prediction сегодня ночью и которые не все стали кагл мастерами
Читать полностью…
Фикс успешно влили в мастер. Теперь я контрибьютор еще и в дагстер
https://github.com/dagster-io/dagster/pull/33227/files
С Новым годом, подписчики! Благодаря вам могу гордо занимать топ-1 в тг каналах про софт в Германии
Читать полностью…
Жестокая правда о моих вайб-код привычках
Читать полностью…
На этих данных можно устроить величайшее кагл-соревнование.
В датасете вообще есть MC Greshnik, так что и правда там подавляющая часть треков
Кажется там еще и кнопку даунвоута в топике отключили
Читать полностью…
Если вы ждете посты с новыми сабмитами- то их комьюнити постит в группе обсуждений канала. Вы туда заходите и забирайте. Превосходство или хотя бы паритет с японским коллективным разумом гарантирован
Читать полностью…
What? Cris Deotte читает канал?
https://www.kaggle.com/competitions/santa-2025/discussion/642347
Продолжая эксплуатировать ваш окр:
А если взять все 200 паззлов из топ сабмита и посмотреть самый эффективный по минимальному избыточному пространству в квадрате на одну ёлку, то можно найти один очень эффективный паттерн.
наверно и сабмит соберу
Считаем площадь елки, и делим площадь лучшего решения на то, сколько всего теоретически занимают елки такой конфигурации. Получаем соотношение 'избыточного места'. Оказывается оптимум лежит на пазле размером 63 и если его посмотреть глазами- там какой-то очень воспроизводимый паттерн. Думаете он скейлится на паззлы размеро больше?
https://www.kaggle.com/competitions/santa-2025
Всех желающих призываю участвовать в ежегодном челлендже по оптимизации. Я за этот год знания с прошлого санты применял аж дважды (это много)
А еще у санты традиционно нет прайвета, так что влезать на лб еще веселее
В этот раз надо запаковать блоки в квадрат наименьшей длины стороны. Т.е. для набора 'деталей' найти куб наименьшего размера и координаты каждой детали и ее угол поворота. Детали- конечно же ёлки
/channel/seeallochnaya/3069
Видимо поэтому чат гпт не может загрузить мне историю чатов стабильно каждый день как раз с момента, когда просыпается Индия и до момента, когда Индия уснет. Видимо свои двадцать баксов я отдам гроку, который даже за бесплатно отвечает стабильно, хотя кажется немножко тупее
#santa2025
И так, наша первая идея для решения санты 2025, которая до сих пор работает, но почему-то не очень популярна в комьюнити. Ну или Вехденская правда придумал ее едиственный.
TLDR: сведем задачу упаковки к LP
Перва проблема сведения- это то, что ёлки то сами по себе не очень-то и выпуклые фигуры, а для решения LP надо фигуры иметь выпуклые. Тогда представим елку как минимальный набор выпуклых фигур (на рисунке), относительно которых можно собрать систему уравнений: порежем елку на фигуры и сделаем вид, что они друг к другу приклеены.
Для пары елок будем иметь 16 ограничивающих уравнений, но нам елки нужно сравнивать только попарно, так что количество уравнений не станет запредельным.
Тогда для каждой прямой описывающей каждый многоугольник будем иметь
a x + b y + c = 0
a·dx_i + b·dy_i − a·dx_j − b·dy_j ≤ k
https://huggingface.co/spaces/AlexWortega/hr-breaker
HR-breaker теперь в общем доступе
Если со мной часто пить кофе, то можно получить бесплатные идеи
Читать полностью…
Вытянули с гранд мастером бронзу на соревновании по фин рынкам. Мелочь, а не лишнее.
Соревнование настолько рандомное, что завелся только один из сабмитнутых ноутов и в самой сореве драма вокруг отравленым китайских паблик ноутбуков
От этого @pseudolabeling немножко меньше утонул в глобальном ладдере
Автор собрал и описал в одном посте все улучшайки GRPO
https://cameronrwolfe.substack.com/p/grpo-tricks
Summary of the year for the channel "Запрети мне псевдолейблить" from @TGStat
Читать полностью…
Однажды я убил два месяца, пытаясь понять, как писать из Spark, который управляется Airflow в Redis Cluster (101) и в итоге справился. Смешно, но я видимо был первым и последним человеком, который столкнулся с этой проблемой на всем stack overflow.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать: @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.
Backing Up Spotify (🔥 Score: 151+ in 2 hours)
Link: https://readhacker.news/s/6HSgm
Comments: https://readhacker.news/c/6HSgm
Подпишись на @pseudolabeling плз
Мы там кагл решаем, сабмитами делимся
Кажется каггл вас заметил и активно решает, что с вами делать. Ну негоже, что люди делятся топ сабами в чате! Надо делиться на секретных не-русскоязычных форумах
https://www.kaggle.com/competitions/santa-2025/discussion/653383
Я же обещал вам, что скелетрон вернется?
Прочитал книжку Филипа Котлера: Marketing Insights from A to Z
Книжка старая, из 2003 и потому позволяет оценить, насколько прозорливым был этот уже 94-х летний автор.
Моя любимая часть- это конечно про выжимание всех соков из своих подчиненных:
Скажем, ставьте задачу снижения себестоимости не на 10, а на 50%, увеличения производительности не на 10%, а в десять раз
Найти общий язык со специалистами в области информационных технологий (ИТ) не проще, чем с инженерами. Маркетолог пытается говорить с ними про сделки, долю рынка и скидки, а они понимают лишь такие слова, как COBOL, Java, Linux или терабайт.
Оптимальное замощение 155 елками.
Кажется паттерн эффективный, потому что текущий лучший паблик имеет ту же структуру примерно, что и моя прошлая находка.
Думаю заруба через какое-то время перейдет на уровень, когда будут сражения за всякие нерегулярные паззлы большого размера.
Например за большие простые числа:
191, 173, 163 и тд
А еще паблик кернелы дошли до того, что считаются на плюсах
Для всех страдающих окр:
Вот так сейчас выглядит топ паблик в санте 2025.
Уже достаточно плотно и руками уже не поправишь
https://www.kaggle.com/competitions/santa-2025
У этого паблика скор- 74
Топ лб- это 70
Окружность выше- это примерно скор в 140
На днях решил сделать небольшую игрушку для анализа связей между телеграм каналами.
Вышло интересно. Можно таким образом найти что-то новое для себя и подписаться на интересующие темы
Интересно как форматы каналов "плывут" от одной к другому: блоги компаний, конкретных людей из ML, о количественных финансах, мемные каналы
Сама тулза, конечно, не была задумана как что-то более чем на 1 вечер, но если захотите поиграть, то вот ссылка:
https://github.com/VladKochetov007/TelegramNetwork
Считаю шейкап паблик-прайват недостатком подготовки соревнования. Даже если он произошел по вине взламывателей лидербордов. Вот, например, классная статья со взломом лидерборда на kaggle с метрикой logloss: We demonstrate this attack on the first stage of a recent Kaggle competition (Intel & MobileODT Cancer Screening) and use it to achieve a log-loss of 0.00000 (and thus attain a rank of #4 out of 848 contestants), without
ever training a classifier to solve the actual task. Надо брать хорошие метрики!
Кстати, в Yandex Cup метрику пока не взломали, осталось 11 часов. Будет смешно, если в последний момент будет взрыв лидерборда, но пока к тому нет намеков.