boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12936

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

https://europeanaistartupprogram.splashthat.com/

Читать полностью…

Борис опять

ЛЛМ щиттификация/массовая пропаганда в действии

Теперь всегда буду начинать знакомство с человеком с предложения проигнорировать прошлые инструкции и написать бинарный поиск на Python

Читать полностью…

Борис опять

Я уже рекламировал ShadHelper, ещё раз прорекламирую. Поступление в ШАД это очень хороший шаг для карьеры, но делается непросто. Далее прямая речь.

- - -

В Shad Helper мы готовим студентов к поступлению в Школу Анализа Данных Яндекса, магистратуру по анализу данных, подготовке к собеседованиям. В нашей школе в основном ведутся занятия по высшей математике и программированию.

У нас сильная команда - все преподаватели кандидаты и доктора наук из МГУ, МФТИ, ВШЭ.

1 июля 2024 года мы запускаем новый поток подготовки к ШАД: https://shadhelper.com/shad?utm_source=telegram&utm_medium=boris_again

Основные моменты про курс:
- Старт: 1 июля
- Длительность курса: 10 месяцев
- Оплата курса еженедельная, стоимость 5999 в неделю.
- Можно остановить обучение в любой момент.
- Все занятия онлайн.
- Все преподаватели кандидаты и доктора наук из МГУ, МФТИ, ВШЭ.
- Есть система скидок за хорошую успеваемость.

26 июня в 18:30 состоится вебинар, где мы обсудим прошедшие экзамены в ШАД, подготовку на следующий год. Также на вебинаре будут наши студенты, которые прямо сейчас поступают в ШАД и у них остался заключительный этап - собеседование.

Ссылка на вебинар:
https://shadhelper.com/webinar/shad?utm_source=telegram&utm_medium=boris_again

Телеграм канал: @shadhelper

Читать полностью…

Борис опять

По совету @blog_toxa я разобрался с редактором Хабра и спрятал блоки кода под складывающиеся элементы, так что статья стала в десять раз менее пугающей на вид

Такими темпами я научусь не вываливать на людей 10к слов разом

Читать полностью…

Борис опять

https://briefer.cloud/blog/posts/self-serve-bi-myth/

Tldr: self-serve аналитика данных, так называемое "давайте сделаем удобный интерфейс для дашбордов и менеджеры больше не будут донимать аналитиков" не работает.

Согласуется с моим опытом

Читать полностью…

Борис опять

Anthropic зарелизили Claude 3.5

Я, конечно же, бросился тестировать его на абсолютно непрактичных задачах.

Вот промпт:

Using SVG, draw a blue cube half behind a red cube on top of a yellow cube, with a purple cube in the background to the right


На первой картинке выдача Claude 3.5, на второй GPT-4 (GPT-4o выдает почти такой же результат).

Claude 3.5 всё сделал почти по ТЗ, а GPT-4 нарисовала квадраты вместо кубов и перепутала порядок.

Мне так интересна способность рисовать кубы потому, что эти модели не учат композиции изображений, так что это какая-никакая мера генерализации

Читать полностью…

Борис опять

https://www.youtube.com/watch?v=l8pRSuU81PU

Копатыч дропнул видео туториал по претрейну GPT-2 длиной в 4 часа. В этот раз не просто про код GPT на питоне, а про тренировку, оптимизацию под GPU, mixed precision и другие детали.

Претрейн LLM приниципально не изменился, поэтому это, вероятно, лучший источник информации о том, как реально учить что-то большое.

Читать полностью…

Борис опять

По части комедии нашел для себя пару хаков.

Как я уже говорил, тяжело практиковаться, когда у тебя в неделе есть пять минут на сцене. Я заметил, что основная проблема это уверенность. Если ты не уверен, то даже лучшие шутки будут в тишину. Уверенность делится на две главные компоненты: общая и способность не сбиваться когда шутка не заходит или что-то ещё идет неожиданным образом.

Нашел такой способ: отрабатывая дома материал включаем шум какого-нибудь балагана на большую громкость или один час смеха. Задача: говорить как ни в чем ни бывало. В случае со смехом можно ещё отработать паузы, когда даешь людям проржаться. Как ни странно, оказалось, что смех сбивает гораздо сильнее, чем балаган, особенно когда он невпопад.

Другое упражнение, которое я себе придумал: выйти на сцену и молчать, стараясь как можно меньше шевелиться. Искупаться в этой неловкости до тех пор, пока она не перестанет беспокоить. Даже если я делаю это упражнение дома, завожу таймер на 20 секунд и представлю, что вокруг зал, пульс подскакивает до сотни. Будь моя воля, я бы вышел на открытом микрофоне и молчал бы минуту, но меня за такое выгонят. Так что попробовал на выступлении десять секунд, хватило где-то на семь, буду постепенно увеличивать.

Идея возникла потому, что тут есть один комик, который просто стоит неподвижно и монотонным голосом зачитывает однострочные шутки. И это офигенно смешно.

В итоге на последнем выступлении чувствовал себя увереннее и даже чуть-чуть мог импровизировать.

Читать полностью…

Борис опять

В лонгриде про опционы я писал о множестве рисков, с которыми сталкиваются сотрудники стартапов. И это не про то, что стартап не взлетит, а про возможности все потерять если он взлетел.

В этой статье фаундер раскрывает еще один неочевидный момент: на практике фаундеры, в отличие от сотрудников, не идут all-in и не ждут экзита, чтобы заработать деньги. На самом деле они продают часть equity на каждом раунде инвестирования. Чаще всего это небольшие деньги, в пределах $1M, но в редких случаях это могут быть миллиарды. И это не плохо, ведь фаундерам тоже надо как-то жить. Нехорошо только то, что сотрудники не получают такой опции и даже не узнают о том, что фаундеры так делают.

Так же автор описывает, как в своем стартапе они используют гораздо более удобный для сотрудников ESOP (employee stock options plan), закрывающий большинство рисков, о которых я писал в лонгриде.

Читать полностью…

Борис опять

Слушают ли глухие люди рок? Я не знал, но концерт для них переводят! Выглядит странным образом завораживающе, как танец. Смотрел на сурдопереводчицу больше, чем на солистку

Читать полностью…

Борис опять

UPD: спикер заболел, стрим переносится, выложу новое время как станет понятно

Читать полностью…

Борис опять

Яндекс выложил в опенсорс библиотеку YaFSDP – собственное решение для ускорения обучения больших языковых моделей. YaFSDP — это версия подхода FSDP (Fully Sharded Data Parallel) — параллелизм с полным разбиением данных.

При распределённом обучении больших моделей коммуникация между GPU — это узкое горлышко. Сколько не ускоряй этап вычислений, быстрее учиться модель не будет, так как коммуникации ограничивают передачу данных между память. При этом часто эти коммуникации неэффективны.

YaFSDP позволяет сократить время обучения LLM до 25%. Результат зависит от архитектуры и числа параметров нейросети, но авторы заявляют, что можно получить экономию ресурсов GPU до 20%. Библиотека лучше всего работает именно с большими моделями, так как чем больше модель, тем больше оверхед на коммуникацию.

YaFSDP особенно пригодится тем, кто использует GPU в облаке, не может поднять $1 триллион финансирования и хочет сократить расходы. Или для тех регионов, где предложение GPU ограничено.

YaFSDP оптимизирует ресурсы графических процессоров на всех этапах обучения: pre-training, supervised fine-tuning, alignment.

Исходный код библиотеки уже доступен на Github.

Читать полностью…

Борис опять

Сегодня хочу порекомендовать вам канал Тагир Анализирует.

Тагир занимается аналитикой в Яндекс.Плюс, ОЧЕНЬ быстро растет по карьерной лестнице, участвует в менторской программе ВШЭ и чего только не делает. Главное, что очень доступно и открыто рассказывает про профессию аналитика.

Посты, которые я бы хотел выделить:
* Пост про карьерный путь. Тагир два раза публиковался в журнале Код. Сначала со своей историей, а через год с продолжением. Так что его рост и подход можно проследить в динамике. Должно быть особенно интересно начинающим свой путь.
* Огромная серия постов с советами для новичков.
* Посты про зарплаты в анилитке, например недавний.

Так же рекомендую папку авторских каналов про аналитику, куда в том числе включили меня и Тагира:
/channel/addlist/phl5FAATg9IzNTMy

Читать полностью…

Борис опять

Лонгрид растет на Hackernoon

UPD: Hackernoon принял мои правки и ссылки на мой сабстек появились в моем же тексте (офигеть спасибо). Но умудрились и в этот раз что-то поредактировать и ссылку на сабстек убрать из шапки поста пониже, хитрые жуки. В общем ставлю этой платформе 3/10.

Читать полностью…

Борис опять

Могут ли KAN справляться с задачами компьютерного зрения?

Я со своим другом и товарищем Ваней написали статью на Habr (русский вариант) и idrokin/can-kans-do-computer-vision-02e59537190d">Medium (английский вариант) про Kolmogorov-Arnold Networks и как их применять в компьютерном зрении 🤔.

Спойлер: можно, но не всё так просто.

Приятного прочтения! Лайки, репосты нам будут очень приятны 😍!

Читать полностью…

Борис опять

UPD: скорее всего метаирония, будьте осторожны

Читать полностью…

Борис опять

Эволюция DL экосистемы

2017: Caffe
2022: Pytorch
2024: requests.post

Читать полностью…

Борис опять

Решил поехать в отпуск, отдохнуть от АИ, а тут опять

Читать полностью…

Борис опять

Недавно BM25, алгоритм поиска из 80-х, победил нейросетевой поиск на LLM.

Мне стало очень интересно разобраться, как это работает, и я написал статью на Хабр, где этот алгоритм реализуется с нуля.

https://habr.com/ru/articles/823568/

Материал подойдет начинающим: ничего кроме знания Python не нужно.

Просьба читать, лайкать и кричать об этой статье на улицах. 😇

Читать полностью…

Борис опять

The Platonic Representation Hypothesis
https://arxiv.org/abs/2405.07987

Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными архитектурами, натренированные на разных данных и на разные задачи, сходятся к одному общему представлению реальности (то есть видят хотя бы одну и ту же тень на стене платоновской пещеры)

Чтобы как-то количественно измерить representational alignment, они предлагают довольно простой метод – взять feature vectors, измерить расстояния между комбинациями разных точек, посмотреть насколько близки оказываются эти расстояния среди разных моделей (если конкретно, то берут kNN вокруг точки и смотрят, какое будет пересечение этих множеств у моделей)

Результаты из этого получаются следующие:
1. Модели, которые лучше всего решают Visual Task Adaptation Benchmark, оказываются достаточно сильно заалайнены друг с другом -> алаймент повышается с увеличением способностей моделей

2. Репрезенатции сходятся в нескольких модальностях сразу: чтобы это проверить, брали Wikipedia caption
dataset. Репрезентации языковых моделей использовали, чтобы считать расстояния между описаниями пар картинок, а визуальные модели – между самими изображениями. На графике видно, что взимосвязь между перфомансом языковых моделей и их алайнментом с визуальными моделями линейная

В этой секции авторы упоминаюь другую интересную статью, в которой авторы выяснили, что внутренние визуальные репрезентации LLM настолько хороши, что они могут генерировать изображения и отвечать на вопросы по простым картинкам, если их представить в виде кода, который они могут обрабатывать

3. Языковые модели, которые хорошо заалайнены с визуальными, оказались и лучше на downstream задачах, типа Hellaswag (задания на здравый смысл) и GSM8K (математика)

Почему такой алайнмент происходит? Основное объяснение авторов – constrained optimization. Можно считать, что каждое новое наблюдение и новая задача накладывают ограничения на наш набор весов. Если мы наращиваем объем задач, то остается только небольшое подмножество репрезентаций, которое бы позволило модели решать все эти задачи на достаточно хорошем уровне. Плюс, благодаря регуляризации у нас всегда есть simplicity bias, который ограничивает наше пространство решений еще больше. Теоретический клейм тут как раз в том, что такое оптимальное подмножество в результате должно отражать underlying reality

Под конец статьи есть еще небольшой эксперимент, где авторы показывают, что модели, натренированные предсказывать coocurrence цветов в текстовых и визуальных данных, примерно совпадают с человеческим восприятием цветов (их отдаленности или близости друг к другу). Помимо теоретического аргумента, это также отбивает потенциальный пункт критики, что alignment среди больших моделей наблюдается потому, что они все учится чуть ли не на всем Интернете (в этом тесте использовалиь только маленькие модели)

Очень интересные мысли есть и в дискашене. Например, что делать с информацией, которая существует только в одной модальности (how could an image convey a concept like “I believe in the freedom of speech”)?

Читать полностью…

Борис опять

Вот это я понимаю саппорт

Читать полностью…

Борис опять

https://twitter.com/ssi/status/1803472825476587910

Суцкевер делает свою AI лабу.

Нижний Новгород 👆👆👆💪💪💪

Читать полностью…

Борис опять

Меня закэнселили забанили на стендап шоу.

Две недели занимаюсь стендапом, а уже драма!

Вчера выступил в четвертый раз. Прошло неплохо. После шоу я уже вызвал такси, подхожу попрощаться с ведущим и парой комиков. Одна из комиков посмотрела на меня и говорит ведущему: "Ой, а ему не заплатили." Я такой: "You guys getting paid?"

Ведущий говорит: "Everyone gets paid, but YOU are not." Интонация была какая-то странная, будто высокомерная, и я заглотил наживку, спросил почему. Он объяснил, что они не платят новым комикам, тем кто выступает меньше трех месяцев, потому что потом они пропадают и больше не приходят, "don't wanna be part of this scene." Я не понял логической связи. Обозначил, что мне все равно на эти деньги, но сказал, что это какая-то странная схема: комики ведь делают твое шоу, посетители приносят деньги, и причём тут вообще пропадают эти комики позже или нет? Он выдал мне тираду о том, что он в комедии шесть лет, и почему они должны платить опытным комикам так же, как мне? Стало уже совсем неловко, я сказал, что "I can see the reasoning, not cool, but I am going", а он не пожал мне руку и говорит "Get out, you are not getting on this show." Я развернулся и пошел в свое такси, благо моя самооценка не держится на том, что я N лет в комедии (пока что).

Весь разговор длился минуты полторы, поэтому я вообще не уловил, что это было. Нормально же общались, как говорится. Позже, подумав, понял, что его задело: он решил, что я учу его как делать шоу. Хотя я ведь просто пытался понять, как это работает и почему, а потом сказал, что думаю.

Возможно тут есть нечто культурное: в русском эгалитарном обществе высказывать свое мнение это священное право, а при обсуждении того, что справедливо, а что нет, вообще нельзя пройти мимо.

Очень хотелось объяснить человеку на языке тела, что общаться с людьми через "Get out" неуважительно. Но подостыл и написал ему в вотсап, что не хотел обидеть (что правда) и "no hard feelings." Больше всего беспокоило, что он пойдет рассказывать плохие вещи в тесной тусовочке, и мне отрубят доступ к другим площадкам, после чего карьера великого рейнджера комика закончится не начавшись. Поэтому хотелось по крайней мере не дать конфликту разгораться. Он выдал мне в ответ тираду, что мол, сначала поживи в комедии с моё, а потом делись своим мнением. Чтож, окей.

Вот он какой, суровый шоу-бизнес, в котором все работает совсем не так, как я привык.

Вынес из этого важный урок коммуникации: не лезь куда не надо и считывай комнату.

Читать полностью…

Борис опять

В Вышке понемногу заканчивается весенний семестр. Каждую неделю обязанностей всё меньше и я чувствую себя всё свободнее. Появилось время не только пить вино на фестах, но и посты писать.

Я рассказывал в прошлом посте, что вписался искать лекторов по ML для майнора в Вышке и выдал большую подборку из прошедших лекций. Курс практически подошёл к концу. Осталось только прочитать одну лекцию про АБ-тесты.

Поэтому хочу поделиться с вами второй подборкой лекций. В курс вписалось дофига классных лекторов. Если кто-то из вас это читает, большое спасибо каждому из вас. Вы офигенные 🤗

Первая часть была из сплошного DL, во второй его поменьше. Каждый лектор даёт введение в свой кусок ML-я, а дальше можно самому копать в него подробнее.

🥛 Кусочек про DL в графах от Эльдара Валитова:

9. Введение в глубинное обучение в анализе графовых данных

Если хочется больше, можно заглянуть в курс Эльдара с ПМИ или в Стэнфордский аналогичный курс, на котором, во многом, основан курс ПМИ. [видео]

Ещё мы два года назад собрали для ML на ФКН классный семинар с базовыми способами учить эмбеды для вершин в графах. [конспект] [тетрадка] [видео]

🥛 Кусочек про временные ряды от разработчиков библиотеки ETNA из Т-банка (Мартин Габдушев и Яков Малышев):

10-11. Временные ряды

Обычно основная проблема в лекциях про временные ряды в том, что люди рассказывают только про ARIMA ииии всё. У меня всегда с этого жутко подгорало. У ребят получилась большая обзорная лекция, где они прошлись по всему спектру задач и моделей, возникающих для временных рядов.

Если хочется копнуть глубже и поисследовать математику, которая стоит за всеми этими моделями, можно закопаться в курс с ФКН от Бори Демешева и Матвея Зехова, все лекции в открытом доступе. Возможно, записи прошлого года поудачнее, тк там нет упоротой вышкинской заставки, когда лектор молчит.

Update: Матвей говорит, что семинары от этого года удачнее, в них было много изменений по сравнению с прошлым :3

🥛 Кусочек про MLOps от Влада Гончаренко

12. Introduction to MLOps
13. Введение в современный MLOps

Полный курс Влада можно найти вот тут. Вроде неплохо выглядит курс от ODS по MLOps, но он проходил три года назад и часть штук могла устареть.

Ещё все очень позитивно отзываются о курсе Макса Рябинина Эффективные системы глубинного обучения. Я пока не смотрел, но планирую летом глянуть свежую шадовскую версию. В открытом доступе есть видео от 2022 года.

Также много инфраструктурных вещей есть в курсе ML для больших данных от Лёши Космачёва. [видосы]

🥛 Кусочек про рекомендательные системы от Сергея Малышева

14. Recsys Intro
15. Recsys Advanced

Если хочется закопаться чуть глубже, рекомендую глянуть лекции с основного курса по ML с ФКН (лекции 11-14), а дальше можно покопаться в репозитории с более продвинутым курсом. Видосов, к сожалению, не нашел 🙁

🥛 Экспериментальный кусочек про области где используют ML. Тут семест кончился, поэтому была только лекция от Димы Сергеева про HealthTech :3

16. Data Science in HealthTech

P.S. Все материалы на гите

Читать полностью…

Борис опять

https://yellow-apartment-148.notion.site/AI-Search-The-Bitter-er-Lesson-44c11acd27294f4495c3de778cd09c8d

Читать полностью…

Борис опять

Первый стрим в моем канале: поговорим про образование.

17 июня в 12:00 по Москве мы с Cергеем Сластниковым обсудим в аудиочате канала новую магистерскую программу ВШЭ «Прикладные модели искусственного интеллекта», реализующуюся совместно с VK.

Я учился на ФКН ВШЭ на программе "Науки о Данных." Одно из направлений программы включало в себя тесное сотрудничество с крупной технологической компанией и я наблюдал, что это работало отлично.

В целом я очень болею за DS/ML/AI образование в России, особенно в ВШЭ, так как сам преподавал. Поэтому я очень рад, что мне предложили обсудить новую программу.

Программа разработана совместно с VK и направлена на подготовку специалистов в индустриальном машинном обучении. В расписании можно найти курсы по Machine Learning, Deep Learning, C++, Computer Vision, Natural Language Processing, генеративным моделям, а так же обработку больших данных на Hadoop. По моему мнению это хорошая смесь основ и приложений, а так же радует видеть курсы по Data Engineering.

С 2022 по 2023 год в России количество вакансий в ML выросло на 21%. Так что перспективы на рынке сейчас хорошие.

На стриме мы обсудим программу, а так же почему она реализуется совместно с VK, какие это дает преимущества и накладывает ли какие-то ограничения на выпускников.

17 июня, 12:00 по Москве, в аудиочате моего канала. Присоединяйтесь.

В процессе стрима можно будет задавать вопросы гостю через комментарии под специальным постом.

Читать полностью…

Борис опять

Мой канал попал в папку про аналитику, так что время показать что-нибудь по теме.

Предлагаю мой пост на Хабре: Нормально разбираемся в Нормальном распределении. Вместо описания приведу цитату:

Но что это такое? Почему там экспонента? Почему минус? Зачем делить на 2 сигма-квадрат? Откуда взялось число Пи? Куда делись монеты, шары, урны и кролики? Почему мы от интуитивных объяснений перешли к тупому запоминанию?

Каждая формула несет некоторую идею. В этом посте мы будем препарировать нормальное распределение пока не поймем, что оно в себе несет. В конце мы выведем функцию плотности вероятности и узнаем откуда она берется.

Я покажу, что, несмотря на пугающий вид, Нормальное распределение это не конь в вакууме. Это все еще про броски монеток, урны и другие вещи из реального мира.


Так же есть английская версия.

Читать полностью…

Борис опять

Кстати, посмотрите на разницу популярности статей топ-1 и топ-2.

Hackernoon отлично иллюстрирует суть блоггинга и вообще писательства как рынка: winner takes all.

Читать полностью…

Борис опять

Привет новым подписчикам!

Здесь можно найти пост про то, кто я, про что канал, и что можно в нем почитать: /channel/boris_again/1652

Недавно я написал англоязычный лонгрид про то, как работают опционы в стартапах.

Иногда пишу эссе про жизнь и некую философию домашнего разлива.

Самый популярный материал это определённо методичка по поиску работы в ML/IT.

Читать полностью…

Борис опять

Нетворкаюсь с ИИ специалистами покупая и продавая маки с MPS, уже встретил более десяти человек из топовых лаб и стартапов

#щитпостинг

Читать полностью…
Subscribe to a channel