Telegram-канал boris_again - Борис опять: Unsorted - каталог телеграмм

boris_again | Unsorted

Subscribe to a channel

Telegram-канал boris_again - Борис опять

12936

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

08 Mar 2025 19:48

Благодаря Сиолошной узнал, что Толока в феврале выпустила очень подробный блог пост про сравнение Deepseek R1 и o1.

https://toloka.ai/blog/r1-is-not-on-par-with-o1-and-the-difference-is-qualitative-not-quantitative/

Делюсь потому что:
1. Пост хороший!
2. Приятно видеть как бывшие коллеги делают крутые вещи! Я когда-то там ~~всех достал~~ очень продвигал тему с внешними блог-постами.

Читать полностью…

Борис опять

08 Mar 2025 12:51

Mesa-optimisation

(кат)

Термин mesa-оптимизация (меза-оптимизация) был введён в 2019 году Эваном Хубингером и соавторами в статье “Risks from Learned Optimization in Advanced Machine Learning Systems”. В ней авторы анализировали случаи, когда обученная модель сама выступает как оптимизатор – то есть внутри неё возникает внутренний процесс оптимизации, преследующий собственную цель.

Однако, здравствуйте.
Меня долго не было, но у меня накопилось начитанного, и я врываюсь обратно. Сегодня - с обзорным лонгридом про современный стейт идеи меза-оптимизации - под катом. Кто не знаком с концепцией - не ссать - там про объяснение с примерами тоже есть)

Читать полностью…

Борис опять

07 Mar 2025 11:49

https://github.com/exo-explore/exo

Читать полностью…

Борис опять

04 Mar 2025 11:46

💸 Сколько ты зарабатываешь на Data Science?

👉 Пройди опрос сейчас, не откладывай на потом❗️

🤔 Вы можете примерно оценить вилку на вашей позиции благодаря вакансиям из каналов, где они публикуются. Тем не менее вилки довольно широкие и одни работодатели недоплачивают или платят строго по низу вилки, другие наоборот переплачивают и выходят за ее пределы. Вам в свою очередь нужно на собеседовании или при повышении назвать одно число, ровно столько вам будет платить довольно продолжительный период времени.

📊 Запускаю опрос, который в будущем поможет подписчикам сопоставить свой набор навыков с рынком труда. Прошу вас ответить на вопросы про ваш опыт, текущую роль в компании, ваш уровень удовлетворенности и планы на будущее. Чем прозрачнее будет рынок труда, тем выгоднее будет обоим сторонам, ведь дата сайентисты не будут смотреть в лес рынка труда.

🔖 Результаты опроса буду порционно публиковать в канале Нескучный Data Science @not_boring_ds.

😉 классические вопросы с популярных интервью тоже включены)

P.S. при публикации статистики дам ссылки на каналы поддержавшие опрос.

Читать полностью…

Борис опять

02 Mar 2025 19:17

В общем, в какой-то момент я сдался. Финальное состояние вы можете видеть в репозитории:
https://github.com/btseytlin/sane-coco/tree/main

Получился какой-то неконсистентный код, с которым непонятно, что делать. Вроде бы что-то есть, но улучшения относительно pycocotools не чувствуется.

Если при обычном кодинге ты начинаешь с чего-то и постепенно приближаешься к желаемому, то здесь такого ощущения прогресса не было. Один шаг вперед, два назад. Или скорее, в непонятную сторону. Не покидало ощущение, что проще стереть и начать с нуля.

Возможно было бы лучше, если бы я сам сначала продумал интерфейсы, написал тесты, а затем дал бы агенту в один проход всё реализовать и отдебажить. Так же явно можно применять какие-то трюки. Например, помогло в какой-то момент спросить его самому придумать 10 дизайн принципов которым должна удовлетворять библиотека (получилось хорошо), а затем изменить код, чтобы она им соответствовала. Но я, если честно, не хочу этим заниматься. Какие-то костыли и танцы с бубном. На текущем этапе проще написать самому.

Этот бенчмарк оно не проходит, но в целом прикольный опыт. В редкие моменты когда оно будто правильно понимает твой вайб действительно ощущается как магия. Ещё попробую в более узком случае когда есть готовый проект и надо добавить понятную фичу.

Программисты - НЕ ВСЁ, код ассистенты пока что не могут сделать библиотеку из трех Python файлов.

Читать полностью…

Борис опять

02 Mar 2025 19:05

Ещё одна проблема: излишняя инициатива. Модель реализовала и покрыла тестами несколько больших штук, о которых я её не просил и не собирался. Например утилитарные методы для копирования всех сущностей. Или метод .count() для каждой коллекции, например для изображений и аннотаций. Который вообще непонятно зачем нужен, если есть нативный len().

Получается, что с одной стороны модель не делала того, что я хотел, а с другой делала то, что не надо, а потом сама же по моим указаниям это выпиливала.

Читать полностью…

Борис опять

02 Mar 2025 18:58

Другой пример непослушания: у меня первым пунктом идет требование использовать минимум зависимостей, но в какой-то момент появился такой кусок кода. Здесь вообще прекрасно всё.

Читать полностью…

Борис опять

02 Mar 2025 18:55

Началось неплохо. Очень быстро набрасывает большой объем кода. Буквально за десять минут был готов скелет библиотеки и тесты.

Однако чем дальше, тем больше было ощущение парного программирования с чрезмерно усердным интерном с шизой.

Читать полностью…

Борис опять

02 Mar 2025 18:48

# Vibecoding vs pycocotools

Есть такая Python библиотека, pycocotools. По сути код, чтобы читать датасеты в формате COCO и считать метрики по детекции и сегментации.

Для меня это эталон плохого кода. Библиотека как будто специально сделана неудобной, неинтуитивной и переусложненной. Несмотря на то, что она делает очень простые вещи. Однако это можно понять: релиз был 11 лет назад.

Тем не менее периодически я с ней сталкиваюсь так как когда хочется посчитать какие-то типичные метрики для детекции возникает искушение взять готовую библиотеку, да и COCO формат всё ещё встречается. И каждый раз я страдаю, а потом думаю написать свой pycocotools здорового человека. Но мне лень.

Сегодня меня посетила мысль: может отдать эту задачу LLM? Перекладывать JSON из одного формата в другой, переписать старую библиотеку в удобный вид, четкая задача и надо поменять всего пару файлов: именно такую работу я бы хотел скидывать на AI.

Нельзя сказать, что получилось плохо. Но можно сказать, что не получилось вообще. Сейчас расскажу подробнее.

Читать полностью…

Борис опять

01 Mar 2025 13:26

Книга, наконец-то, стала доступна на Амазоне

Читать полностью…

Борис опять

28 Feb 2025 15:04

Тем временем у Yandex Cloud два новых релиза которые могут быть интересны MLE.

Первый про инференс. В Foundation Models (сервис Yandex Cloud, объединяющий инструменты для GenAI моделей) добавили выделенные эндпоинты для инференса LLM моделей по запросу. Причем доступна не только ожидаемая YandexGPT, но и опенсорс (Qwen, Mixtral, DeepSeek, LLaMa).

Главная продающая идея здесь - это возможность делегировать облаку вопросы инфраструктуры и получить инференс и мониторинг из коробки.

Вторая - это LoRA адаптеры для YandexGPT 5 и LLaMa. LoRA - это современный стандарт для создания специализированного решения под свою задачу и данные на основе предобученной модели. Обещают, что для небольших датасетов весь процесс дообучения с помощью LoRA может занять всего 10 минут.

Уже есть кейс, когда компания сделала разметку с помощью YandexGPT Pro версии, затем обучила LoRA адаптер YandexGPT Lite на этих ответах и получила практические такое же качество, но с гораздо большей скоростью и меньшей стоимостью.

Читать полностью…

Борис опять

27 Feb 2025 23:58

По релизу GPT4.5 от OpenAI можно заметить, что новая модель стала намного лучше в задаче разводить людей на деньги (и практически больше ни в чем). Это говорит о взрослении индустрии и переходе OpenAI к действительно прибыльным способам применения ИИ 👀

Читать полностью…

Борис опять

26 Feb 2025 19:47

https://www.ben-evans.com/benedictevans/2025/2/17/the-deep-research-problem

Читать полностью…

Борис опять

25 Feb 2025 13:37

Claude Code

Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.

Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.

За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.

Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.

Читать полностью…

Борис опять

23 Feb 2025 14:38

В общем, коротко: SigLIP 2 это лучший на текущий момент CLIP.

К нему приделали все идеи из разных self-supervised методов современного CV и получилось хорошо:
1. Self-distillation при обучении как в DINO/DINOv2. Модель-ученик видит только локальный кроп изображения, модель-учитель (ema от обучаемой модели) глобальный кроп. Так что модель учится по деталям получать те же репрезентации, что и по всей картинке. Это, например, заставляет модель видя нос собаки мысленно "достраивать" всю собаку.
2. Маскировка патчей, что ставит некоторую задачу реконструкции, как в MAE (который Masked Autoencoders от FAIR).
3. Декодер. Прямо при обучении заставляют модель генерировать подписи, ббоксы и подписи к ббоксам. Это, по идее, самое важное: напрямую учат модель связи деталей изображения и текста.

Все это должно полечить вечную проблему клипов, что они хорошо понимают на уровне изображения и плохо понимают детали. Таким образом прошло долгожданное объединение contrastive learning и self supervised подходов.

Ещё подвезли версию устойчивую к разным разрешениям и размерам изображений, а так же мультиязычность.

Это конечно Франкенштейн с несколькими лоссами и стадиями тренировки, так что bitter lesson еще придет, но очень круто.

Короче если нужны какие-то эмбеддинги изображений и текстов берем с полки SigLIP2.

Так же ждем прокачанные энкодеры изображений во всех VLM.

Читать полностью…

Борис опять

08 Mar 2025 16:02

Разбавим набившее оскомину AI-думерство. Вот неплохой, достаточно короткий и не слишком душный тейк о том, почему из текущих LLM не получится никакого AGI.

https://www.lesswrong.com/posts/oKAFFvaouKKEhbBPm/a-bear-case-my-predictions-regarding-ai-progress

Правда автор все равно дает нам примерно до 2030 👍

Как по мне весь аргумент не очень сильный сам по себе, но автор может оказаться прав.

Читать полностью…

Борис опять

07 Mar 2025 14:50

Я поставил личный рекорд: еще никогда так долго не прокрастинировал написание двух параграфов текста 👀

Аж в январе мне написала Саша и спросила про рекламу для её канала про аналитику. Меня настолько зацепила ламповость её канала, что я пообещал поделиться им бесплатно, потому что такой контент нужно продвигать.

Саша работает аналитиком в Авито и пишет про собеседования, карьеру и самозванство, работу, а так же много личного. Меня особенно зацепило, что она написала про переговоры о зарплате через призму теории игр, как и я в своей методике. Но в отличие от меня она действительно что-то понимает в теории игр, потому что работала в лаборатории ВШЭ и может похвастаться статьей 👀.

А ещё Саша рисует научпоп комиксы

Словом очень ламповый канал, поглядите. 👀

Читать полностью…

Борис опять

06 Mar 2025 18:31

https://mistral.ai/news/mistral-ocr

Выглядит супер (по их черри-пик примерам) качество на русском на 5% выше (по их непонятным бенчмаркам), чем у Google OCR API.

Когда появится в доступе закину ему рукописное свидетельство о рождении из РИ, посмотрим

Читать полностью…

Борис опять

03 Mar 2025 01:10

Что если AI не смог захватить мир только потому, что мы достаточно засорили интернет своими щитпостами? 🤔

Читать полностью…

Борис опять

02 Mar 2025 19:10

Наконец, шиза.

Ощущение будто ты сидишь в чате с программистом, но в случайные моменты времени на его место подключается новый человек и видит код впервые. Потому что по факту так и происходит.

Ладно ещё, что куски кода в разных местах получаются в абсолютно разном стиле. Реальные проблемы начинаются когда агент теряет нить того, а что мы вообще тут делаем.

Например, переписывая по моему требованию подсчет метрик на более хороший, агент начал поддерживать обратную совместимость с функциями, которые сам только что написал.

Но вишенка на торте это когда агент начал запускать свои тесты и понял, что регрессионные тесты не проходят. Поэтому он решил их просто стереть и заменить на сообщения "API изменился"! 🧠🧠🧠

Читать полностью…

Борис опять

02 Mar 2025 19:03

Следующая проблема это просто плохой код. Непредсказуемо плохой.

Причем Claude Sonnet 3.7 определенно умеет писать хороший код. Но только если ты явно ему скажешь, что это значит.

Получается, что в этом вайб-кодинге модели нехватает понимания вайба. Если бы я работал с джуном, то мне бы не приходилось объяснять ему, что если я хочу питон классы вместо диктов, то положить дикт внутрь класса и сделать проперти для доступа к ключам дикта это минус вайб. Просто не вписывается в вайбы проекта.

У меня так и не получилось донести до модели нужный вайб. Я старался по мере подобных ситуаций добавлять пояснения в CLAUDE.MD и заставлять его перечитывать этот файл почаще, но это не помогало: результат слишком непредсказуемый. В одном месте оно может код, который попадает в мою идею хорошего, а потом в другом месте вот эти импорты внутри функций, геттеры/сеттеры, переусложнение.

Читать полностью…

Борис опять

02 Mar 2025 18:57

Самая банальная проблема в том, что оно не слушается. Это можно увидеть по моему CLAUDE.MD файлу где я сто раз повторяю не писать комментарии. В какой-то момент модель забывает об этом и о прямых напоминаниях в промпте и всё равно пишет вот такие жизненно необходимые коментарии, одновременно делая код хуже, тратя мои деньги и нагревая планету почем взря.

Но дело не только в комментариях. В целом добиться от модели того, что ты хочешь, достаточно нетривиально и пока нет уверенности, что тебя правильно поняли, и что это понимание не изменится когда контекст чуть сдвинется.

Например, несмотря на указния редактировать только тесты, модель всё равно с шансом 50/50 сразу лезла делать какую-то реализацию.

Читать полностью…

Борис опять

02 Mar 2025 18:53

Claude Code действительно просто и клево использовать. Установил, залогинился и поехали. Пользовательский опыт самого инструмента супер как по мне.

Я решил поступить как умный вайбкодер и не стал просто просить LLM сделать лучше. Я создлал новый проект, положил туда репозиторий pycocotools отдельной папкой и описал свои желания в CLAUDE.MD файл. Включил туда, чем мы тут занимаемся, и каким ключевым принципам должна удовлетворять новая библиотека. Далее я попросил агента сделать файл с регрессионными тестами, где сравнивается вывод старой библиотеки и новой. Причем для новой надо было лишь придумать интерфейс, но не реализовывать. Сначала напишем тесты, определимся с тем, какие классы, функции и методы хотим получить, а затем останется лишь попросить агента реализовать.

Читать полностью…

Борис опять

01 Mar 2025 19:28

Скотт как всегда выдает базу

https://www.astralcodexten.com/p/why-i-am-not-a-conflict-theorist

Читать полностью…

Борис опять

28 Feb 2025 16:44

Встречаемся на прямом эфире уже через 15 минут!

Читать полностью…

Борис опять

28 Feb 2025 12:24

Напоминаю, что Open Talks с неким Борисом в AI Talent Hub уже сегодня в 19:00 по Москве!

Будет про карьеру MLE от научной роты МЧС до eBay, а так же про ML и книгу. Возможно обсуждение моделей мира и прочие спекуляции.

Читать полностью…

Борис опять

27 Feb 2025 12:22

CoT Claude 3.7 🙄

https://x.com/lefthanddraft/status/1894392127066706128/photo/1

Читать полностью…

Борис опять

25 Feb 2025 18:05

27 февраля в 19:00 ребята из Школы Высшей Математики, которые недавно запускали курс по LLM, проводят вебинар: "Применение ИИ в e-commerce"

Моя тема!

Спикеры:
🔹Артем Бочкарев – Head of Data Science в AliExpress
🔹Александр Лыков – кандидат физико-математических наук, академический руководитель Школы Высшей Математики и ShadHelper.

Что будет:
➖ Сценарии применения ИИ в разрезе типов моделей, трудозатрат и пользы для бизнеса.
➖ LLM - где применяется, где планируется и где не взлетело.
➖ Проблемы до которых пока не дотянулись, но есть потенциал.

Записываться здесь

Читать полностью…

Борис опять

24 Feb 2025 19:36

https://www.anthropic.com/news/claude-3-7-sonnet

Anthropic наконец-то выпустили свою reasoning модель!

Читать полностью…

Борис опять

22 Feb 2025 20:30

Ребята из Google DeepMind выложили SigLIP2, надо обязательно будет глянуть, с учетом того, что первая версия была достаточно успешной.

Из интересного на что сразу упал взгляд:
1. Две версии моделей: обработка изображений фиксированного / динамического разрешений.
2. Мультиязычность.

Статья
HuggingFace

#paper

Читать полностью…

Subscribe to a channel