Telegram-канал boris_again - Борис опять: Unsorted

Борис опять

25 Sep 2024 20:59

Вышла llama 3.2 с мультимодальностью на уровне GPT-4o-mini, а так же некая попытка сделать стандартизированный mlops в сфере LLM под названием llama stack.

Читать полностью…

Борис опять

24 Sep 2024 18:48

Апдейт моделей Gemini 1.5 Pro & Flash

Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.

Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.

Читать полностью…

Борис опять

22 Sep 2024 17:10

Прикольный момент с OpenAI o1 моделью в том, что её тестировали на задачу взломать сервер, сделали ошибку и модель взломала сандбокс, в котором она находилась. Упс, забыли сказать "взламывай цель, но не взламывай нас" и модель выполнила задачу как поняла.

При этом очевидно, что о1 это никакой не злой ИИ и у неё нет целеполагания. Получается, что умнейшие безопасники не смогли удержать в изолированной среде даже умный автокомплит.

Но мы точно сможем контролировать действительно опасную и умную машину! Абсолютно никаких причин сомневаться

Читать полностью…

Борис опять

22 Sep 2024 16:12

Регуляризация это же фетшейминг модели

Читать полностью…

Борис опять

21 Sep 2024 17:10

Ссылки после стрима
#career #interviews

Что, вроде неплохо зашло? Если что-то еще упустили - пишите в коменты. Может, еще соберемся. Можно для diversity и стартаперов позвать (~~Бориса без пхд уже звали~~).

Во флудливом чатике streamyard было и что-то полезное. Кроме кеков, из-за которых ведущем было сложно держать щи ровно.

- Лучший источник для ml system design, на мой взгляд. Дается структура и много типичных примеров. Еще был совет читать блоги компаний, особенно перед собесом с одной из компаний, ведущих неплохие блоги

- методичка Бориса о собесах

- SWE interviews at Meta

- тут расписывал про ресурсы, которые мне помогли в долгом забеге по собесам

- Хороший ютуб канал для бихейва - alifeengineered?si=xzexq2vYf2ECGzpu">A life engineered

- мне очень помогли два канала экс-рекрутеров гугла: jeffhsipepi">Jeff Sipe и CoachErika">Erika Gemzer. Все про бихейв + у Джеффа есть плэйлист про переговоры

- Книга System Design Interview от Alex Xu - это классика. У него же недавно появилась про ML system design. Не читал, но если она хоть чуть-чуть похожа на System design, то это 🔥

- настольная книга карьеристов: Rise. (do better, look better, connect better). Много про менторство, личный бренд (в правильном смысле слова) и нетворкинг

- еще Таня развернула мысль про поведенческие собесы в этом посте.

Насчет записи стрима: файлик есть, а времени и желания монтировать - нет. Ставьте звёздочки, если нужна запись - подумаем 😀

Спасибо @kSasha за подбор ссылок

Читать полностью…

Борис опять

20 Sep 2024 11:55

Стрим про большой-большой тех уже сегодня!

Подключайтесь в 17:30 CET:
https://streamyard.com/watch/udnqi3EWpmRH

Предложение ограничено и всё такое

Читать полностью…

Борис опять

19 Sep 2024 19:46

ИТМО провел исследование open source решений в Российских реалиях ML/DS и выложил результаты. Так же можно прочитать статью на хабре.

Оценивали репозитории на Github по активности и аггрегировали в рейтинг компаний, опираясь на несколько критериев: количество open-source проектов в области Data/ML, показатели используемости этих проектов в России, качество реализации репозиториев, количество контрибьюторов и их активность.

На первом месте рейтинга Яндекс, у которого суммарно 65к звезд против 9.5к у ближайшего соперника, Сбера. По другим метрикам отрыв Яндекса такого же порядка или даже больше. Судя по результатам топ 3 самых популярных проекта это Catboost, YDB и YTsaurus. Так же среди популярных решений LightAutoML и GigaChain. Clickhouse это totally-not-Яндекс и не вошел в рейтинг. Но если бы вошел, то занял бы первое место.

В академии впереди всех Физтех (DeepPavlov) и тоже с большим отрывом от второго места, далее ИТМО (FEDOT) и ВШЭ.

Приятно видеть проекты российских компаний и университетов на том же уровне, что и Pytorch, Superset и MLFlow.

Читать полностью…

Борис опять

18 Sep 2024 22:05

Сегодня утром обсуждали сайт реестра повесток в одном чате и я заметил, что там делаются запросы к API по пути вида ‘.../api/military/1010049444/doc/...‘. Этот номер очень похож на ID. На поверку так и оказалось: это был ID с Госуслуг. Поэтому я подумал, что кто-то вполне мог бы поперебирать айдишники и спарсить базу.

Но это само по себе мелочь, потому что просто перебирать айдишники недостаточно. Предсказуемые айдишники ускоряют парсинг, но нужно найти еще какую-то уязвимость, чтобы получить доступ к чужим данным. Не могли же они не разграничить права доступа?

Прошло всего часов двенадцать и вот. Залогинившись под любым аккаунтом можно было получать данные других людей. То есть уязвимость искать никому не пришлось, потому что не нужно искать дыру в заборе когда вокруг наших данных забыли его построить. Оставалось только найти способ откуда взять ID пользователей, чтобы выгрузить их данные...

Ваш и мой паспорта теперь open-source и скорее всего не в первый раз 👀👀😢🙂👀👀

Читать полностью…

Борис опять

17 Sep 2024 15:24

В комментариях возникло недопонимание о том, что это за сервис такой, так что я обновил описание.

Tldr: Кирилл держит свои сервера и дает к ним доступ по подписке с управлением через телеграм приложение. Для подключения используются сторонние приложения. Это не потому, что Кирилл их рекламирует, а потому, что под каждую платформу уже есть крутое opensource приложение вдоль и поперек проверенное на безопасность. Например, я пользуюсь v2rayNG.

Читать полностью…

Борис опять

16 Sep 2024 10:03

Стрим про карьеру, собеседования и бигтех
#career #interviews

Choose your fighter. Собрал вам тут бигтех-банду для стрима:

- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;

- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор канала @ai_newz (пост-приветствие). Собеседует на синьорные позиции в Мету;

- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;

- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;

- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Читатели этого канала знают про этот долгий заход по собесам (пост). Он же (то есть я) будет скоморошить, вести встречу.

Вопросы можно задавать заранее тут в треде, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»

Время: 20 сентября, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).

Записи не будет, все вживую. Мест – максимум 1000 😀

Читать полностью…

Борис опять

13 Sep 2024 13:38

Делаю анализ всего движа с о1, будет пост

Читать полностью…

Борис опять

13 Sep 2024 10:03

Jokes on you, все она правильно ответила, вы просто не видели ризонинг

Читать полностью…

Борис опять

12 Sep 2024 19:02

Поехали

https://openai.com/index/learning-to-reason-with-llms/

Читать полностью…

Борис опять

12 Sep 2024 12:46

https://manifold.markets/NathanpmYoung/will-there-be-substantive-issues-wi?r=SGFsZXh1cw

Читать полностью…

Борис опять

11 Sep 2024 18:34

В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.

Разрешить дискуссию помогают методы механистической интерпретируемости. В канале я обозревал несколько статей, в каждой из которых маленькое открытие позволяло чуть больше понять внутрянку нейросетей и даже улучшить сам механизм работы.

Сегодня я предлагаю вам прочитать мой лонг для погружения в эту тему. В нём я применил классический приём «да ща быстро сяду напишу как попало, будет средней длинны пост» — и это оказалось самообманом 😭. В итоге вышло полно, плотно, некоторые объяснения переписывались, сопроводительные иллюстрации перерисовывались, но результатом доволен.
▀▀▀▀▀▀▀▀▀▀
Оценить самим можно тут: https://habr.com/ru/companies/ods/articles/839694/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Читать полностью…

Борис опять

25 Sep 2024 17:00

Яндекс опубликовал на Хабре статью об использовании YandexGPT для генерации объявлений.

Я вообще не знал о такой функции: оказывается продавец большого количества товаров может отдать Яндекс.Директу их описания и получить автоматически сгенерированные объявления.

Отличная задача на ML System Design. Нужно объединить несколько источников данных, задействовать очень тяжёлую генеративную модель , эмбеддер и ранжирование, поддерживать большую нагрузку и все в условиях ограниченных ресурсов GPU. Хоть на собеседованиях давай.

Порадовал момент "сервис обрабатывает ВСЕГО ЛИШЬ 10 тысяч объявлений в секунду, поэтому нам пришлось ускорять :(".

Очень круто описан кейс оптимизации через асинхронную обработку, партицирование, параллелизацию, повышение утилизации GPU, дистилляцию эмбеддера и ранжировщика, устранение CPU бутылочных горлышек. Результаты впечатляют: RPS подняли до 70к+, снизили количество реплик в самом нагруженном месте на порядок.

Мне даже оказалось релевантно по работе, потому что обрабатывать много товаров тяжелым ML это прямо наш домен.

Один из самых клевых примеров применения LLM, что я видел.

Читать полностью…

Борис опять

24 Sep 2024 11:26

Каждый диалог про AI Risk

А: AGI может быть очень опасен.
Б: Опять думеры со своим концом света.
А: А зачем нам AGI?
Б: Без него цивилизации конец и мы все умрем, ты что, не понимаешь?

Читать полностью…

Борис опять

22 Sep 2024 17:05

https://www.astralcodexten.com/p/sakana-strawberry-and-scary-ai

Читать полностью…

Борис опять

21 Sep 2024 20:06

Вот ещё от Тани:
/channel/rybolos_channel/1257

Читать полностью…

Борис опять

20 Sep 2024 19:35

К стриму сегодня строго прилагается: как подготовиться к ML-интервью #шитпост

https://youtu.be/5bId3N7QZec?si=o0Ljk4tZvkOJQO2H

Читать полностью…

Борис опять

20 Sep 2024 10:03

Мальчик: делает обратную совместимость, чтобы пользователям было удобно

Мужчина:

Читать полностью…

Борис опять

19 Sep 2024 11:02

https://x.com/kazai_mazai/status/1836069739606466794

Секрет Португальского долголетия

Читать полностью…

Борис опять

18 Sep 2024 11:07

https://mistral.ai/news/september-24-release/

Бесплатный мистраль API!

Читать полностью…

Борис опять

17 Sep 2024 10:04

Мой дорогой друг запустил клевый проект и сейчас расскажет вам про него. Далее прямая речь

- - -

Привет 👋 Меня зовут Кирилл @Crpyto_mate и я делаю небольшой VPN сервис прямо в телеграме, чтобы смотреть ютуб и без проблем заходить в глобальный интернет из России. Или наоборот в Россию, но для этого надо написать мне в личку.

Я запилил VPN прямо в телеге как самый простой способ его себе подключить. Инструкция в 3 клика, опенсорсное приложение и всё работает автоматически.

Скорость и траффик 200 Гб в месяц. Если нужно больше пишите мне. Никаких логов.

Это стоит 300 рублей. На первый месяц всем скидка 50% и можно попробовать бесплатно перед покупкой.

Приложенька тут:
t.me/tg_vpn_bot/app

Читать полностью…

Борис опять

16 Sep 2024 10:03

20 сентября в 17:30 CET серьезные люди из бигтеха и я будем общаться про карьеру, подключайтесь

Читать полностью…

Борис опять

13 Sep 2024 11:54

https://codeforces.com/blog/entry/133887

Читать полностью…

Борис опять

13 Sep 2024 09:58

Ну ризонинг и ризонинг

Читать полностью…

Борис опять

12 Sep 2024 15:19

Приходят как-то на синк разработчик, тестировщик и time.sleep(1), а он им и говорит: ребята, мы что, в анекдоте?

➡️ Ну почти: они в подводке к статье про то, как тестировать мл системы, что бы не потерять $100k.

#HABR

Читать полностью…

Борис опять

12 Sep 2024 10:54

https://www.safe.ai/blog/forecasting

Читать полностью…

Борис опять

10 Sep 2024 20:15

ЩиТпОсТиТь
будешь
на своём
могильном камне
- надпись на моём могильном камне

когда-нибудь мы вернемся к контенту про ML, но точно не в эту минуту

Читать полностью…