UPD для разработчиков: лимит запросов для GPT-4-Turbo существенно повысили, до 10,000 запросов в сутки (было 200). Лимит сохранился для vision-модели, обрабатывающей изображения.
За новость спасибо Богдану @bogdanisssimo
Co-Author 3/3: How?
Как работает Co-Author? Это простой streamlit-сервис, где ты можешь вписать какую задачу нужно создать (подходит сырая формулировка запроса от студентов), он выписывает ключевые уроки которым мы хотим научить, далее мы прокликиваем в каком домене и какой сложности хотим задачу, какого она типа (одношаговая "one-shot" задача / задача-challenge / длинный квест / и т.д.) – и Co-Author сперва декомпозирует задачу на шаги, затем пошагово генерирует каждый шаг (суммаризуя предыдущие страницы), включая решение, требования к решению и тесты в проверяющей системе для решения.
Пока это работает на уровне драфта и нуждается в большом объёме последующей редактуры, но костяк, фундамент задачи это уже закладывает, поэтому дальше – легче. Ребята (как непосредственные пользователи) сами находят, в чём им сейчас Co-Author неудобен, где хочется перейти в ноушен или ChatGPT, и сами же совершенствуют этот инструмент (что является вполне боевой практикой работы с LLM).
P.S. Через пару-тройку месяцев мы расскажем, как поживает наш AI-инструмент, вероятно со временем он из генерации контента эволюционирует в copilot-помощника для контент специалистов. Нам будет интересно почитать и ваши пробы пера с LLM внутри EdTech'ов, делитесь опытом в комментариях.
#LLMOps
Co-Author 1/3: Why?
Один из навыков, которому Меня научила книга Валеры и Арсения, – это "видеть лес за деревьями": смотреть на систему целиком (в контексте, а не в вакууме); думать о дизайне системы (и это касается не только ML-сервисов); да и вообще, документировать дизайн систем, с которыми работаешь или которые строишь. В частности, перенос этих знаний так или иначе происходит на менеджмент.
Я развиваю Симулятор ML почти 2.5 года, за это время мы с командой младших авторов (@avalexey @unipply0 @redpf) и project-менеджерами успели перестроить процессы несколько раз, попробовать много разного и прийти к некому более-менее устоявшемуся флоу, которого придерживаемся по сей день, и который продолжаем совершенствовать. Об одном недавнем кардинальном улучшении Я не могу умолчать...
Значит, решили мы в августе систематизировать весь процесс разработки контента от идеи до релиза. Мы написали Мастер-Документ на 7000 слов, который содержит, например:
• Какими принципами мы руководствуемся при написании задач? Каким мы дизайним опыт (UX) для студента?
• По каким метрикам мы определяем качество продукта? – у нас есть целая иерархия метрик от верхнеуровневых денег / костов – до числа багов, разнообразия по доменам и проектам, проходимости, качества текста / картинок / числа отсылок задач друг к другам (к слову, конкретно к этому подтолкнула глава книги "Loss functions and metrics");
• Какая анатомия задач? Какие подвиды задач? – чтобы вы понимали, задачи состоят из истории (мы в таком-то продукте, вот такая проблема, сходи туда, выгрузи то, подумай какую модель применить здесь), теории (и ссылок), требований к решению, решения и самой проверяющей системы, и наконец, картинок в нашем уникальном стиле;
• Как формируем и приоритезируем беклог спринта? Где берём идеи для новых задач? (часть предлагают студенты в нашем Upvoty, часть придумываем мы);
• Какой у нас Definition-of-Done? Как/когда мы релизим? Что делаем после? Где собираем баги?
...и многое другое.
P.S. В комментариях делюсь парой лайфхаков.
#management
Эмоциональный интеллект (EQ). Что для Вас означает эмоциональный интеллект, какой смысл Вы вкладываете? Как бы Вы оценили свой эмоциональный интеллект от 0 до 10? Как он менялся с течением времени? Над каким его аспектом, Вы думаете, Вам нужно больше работать?
Читать полностью…LOGBOOK
Читаю Logbook по OPT-175B – документ, состоящий из сырых ежедневных заметок, которые писали инженеры по мере обучения модели. Он содержит статус-апдейты, возникшие проблемы и принятые решения по их починке, неожиданные находки, рекомендации и т.д.
Для понимания, тренировка модели заняла порядка 3 месяцев и длилась с 20 октября 2021 по 6 января 2022.
https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/OPT175B_Logbook.pdf
Logbook ценен с многих точек зрения:
1. Во первых, он отвечает на вопрос, а что такого сложного в обучении LLM (после того как архитектура модели зафиксирована)?
2. Во вторых, он даёт адекватное понимание, чем наполнены будни инженера из топовых персентилей. Вообще, было бы клёво иметь подобные логи по разработки разного типа и масштаба систем. Но их почти никто не ведёт. 🙃
3. В третьих, интересна сама дисциплина документировать всё что делаешь и логировать решения которые принимаешь (прямо как NPC в игре Sims – в углу экрана всегда видишь, а о чём он сейчас подумал, а куда он сейчас решил пойти, что сделать). Насколько Я знаю, в серьёзных местах вроде того же OpenAI и Anthropic эта практика весьма распространена.
Это позволяет другим быстро понять, а что было сделано, уловить контекст, понять, какие гипотезы попробованы, что лежало в основе тех или иных решений в дизайне системы (аналогично, можно вести логи менеджерских решений).
____
Сам Я последнее время (пока для себя), стал тоже всё чаще вести логи того, что делаю, какое препятствие встретил, в чем, как думаю, проблема, какая гипотеза по её решению и т.д. Это помогает входить в поток, одновременно проясняя разум, и в конце дня – оставляет артефакт прогресса который ты сделал за день. Логи веду в Session (приложение для трекинга времени, суммарно подобными штуками пользуюсь последние лет 6 на ежедневной основе). Заметки открываются прямо во время начала сессии, сразу удобно накидывать мысли.
Так, а вы балуетесь подобным?
Вчера вечером перед сном читал блог Грега Брокмана –сооснователя и президента OpenAI (ранее CTO в Stripe). Некоторые его называют главным кодером в OpenAI.
Рекомендую прогуляться и вам:
• Его проекты до/в OpenAI (+ полезные ссылки)
• Его блог (часть постов в соавторстве с Ильёй)
#OpenAI
MAKER'S SCHEDULE, MANAGER'S SCHEDULE
Наткнулся на старенький пост Пола Грэма "Maker's Schedule, Manager's Schedule". Пол Грэм – это сооснователь Y Combinator и один из людей, оказавших наибольшее влияние на Сэма Альтмана, наравне с Илоном Маском (Сэм – СEO в OpenAI и бывший президент Y Combinator)
В посте вводятся Maker Schedule и Manager Schedule. Позже этот концепт в книге "Deep Work" некто Cal Newport опишет как Deep Work vs Shallow Work.
Maker – это инженер, писатель, программист, дизайнер и любой другой "ремесленник", работа которого требует глубокого и длительного погружения в один контекст (Deep Work). Как правило, такая работа происходит в одиночестве, хотя есть исключения (пример: командный брейншторм). Такая работа требует держать в голове большой контекст с разными взаимосвязями, чтобы очень точно что-то выполнить, создать или починить – и смывается в унитаз от малейшего отвлечения (сообщения, звонка, проверки новостей и т.д.).
Когда Maker планирует день, он смотрит в первую очередь "а сколько непрерывных часов работы у Меня есть до такого-то времени?" – нам желательно выделять по 4, лучше по 6-8 часов подряд, потому что нельзя сделать что-либо серьёзное, если у тебя всего 2-3 часа... скажем, между звонками. Ведь любая Deep Work сессия требует войти в поток. Чтобы только "войти в поток", т.е. вспомнить / открыть / собрать воедино в своей голове весь нужный для задачи "контекст", нужно минимум 40-60 минут.
P.S. Когда Я пишу сотруднику и он недоступен, Я даже радуюсь – значит, он по-настоящему работает. 😘
FLOWMODORO
Заметки, как Богдан фокусируется на работе, упакованные с помощью ChatGPT. Обсудим технику Flowmodoro: как Vision превращается в стратегию, стратегия в план, план в задачи, задачи в подзадачи, подзадачи в "помидорки", помидорки в "поток", а поток – в долгосрочный momentum.
#MyProtocols
Eliminate inauthentic goals and desires with these six questions:
1. Do I actually desire this? Or do I just desire what it looks like?
2. What’s the core work involved, and can I see myself doing that work every day for years?
3. If I ended up hating this, what would be the reason?
4. Is there something external that prompted this desire? (e.g., a tweet thread, book, influencer, podcast)
5. Am I suffering from recency bias? (You recently saw something that inspired the desire, and because it’s recent it feels more authentic)
6. If someone gave me a billion dollars right now, would I still pursue this? If not, what would I do instead?
smatla">– Sam Matla
Если бы вас попросили выбрать один единственный самый важный софт-скилл, какой бы вы назвали?
Читать полностью…3. Инструменты:
• black – автоматическое форматирование кода (any color you like, as long as it's black); очень помогает не париться и не спорить насчёт того, какое форматирование сделать в вашем проекте, когда есть источник непреложной истины, сам форматирующий всё в единый стиль.
• pre-commit – автоматически делает что-то с вашим кодом перед коммитом (например, прогоняет тот же black, линтеры, сортирует импорты, проверяет что все файлы короче 4096 токенов 🤡 и т.д.)... дисциплинирует.
• typing (а для самых извращенцев, mypy) – хоть Python и язык с динамическое типизацией, но не писать типы у функций и параметров – это какое-то неуважение к своим коллегам и к своему коду, игра в угадайку. Нормальное наименование
• pylint / flake8 / sonarlint – линтеры это штуки которые автоматически находят баги, опечатки, нарушения PEP8 и другие проблемы, понижающие качество кода. Все линтеры доступны как плагины в VSCode. Если есть возможность, ставьте SonarQube – так у вас на каждый коммит в merge request будет прилетать портянка замечаний, возможных уязвимостей кода, местах со сложной логикой и т.д.
Напишите в комментах, какие ещё знаете приёмы карате или годные источники на тему.
Вчера был DevDay от openai, где представили несколько новых любопытных обновлений. Главное из них — GPT-4 Turbo! Еще более умная версия 😎
1. Размер контекста GPT-4 Turbo увеличили в 16 раз по сравнению с предыдущим. Для сравнения Сэм сказал, что это примерно 300 книжных страниц
2. В API завозят json mode аутпуты. То есть теперь не нужно будет выцеживать нужную информацию из текстового ответа, можно ее просто явно запросить
3. Знания модели не будут ограничены 2021 годом, сейчас модель знает про мир до апреля 2023го. И разработчики пообещали поддерживать модель актуальной
4. В API теперь можно будет прокидывать картинки (а не только url как было раньше), в GPT-4 turbo будет интеграция с DALLE-3. Кроме того, обещают скоро открыть Whisper v3, в котором будет еще больше языков
5. Откроют gpt-4 для файнтюнинга в экспериментальном режиме. Заверили, что на данных которые юзеры используют для дообучения они не учатся. Анонсировали b2b дообучение моделей под нужды клиента
6. Повысили лимиты токенов в минуту, сделали более приятный прайс. Если нужны еще более высокие лимиты, можно отправлять запросы
The legend scientist shaping our world. A deep thinker, a designer of the future and a source of inspiration for many of us.
https://youtu.be/9iqn1HhFJ6c
Co-Author 2/3: What?
Дописав мастер-документ, смотрю, значит, на него, перечитываю и такой: "блин... да ведь это же план!"
Когда ты описываешь любой бизнес-процесс целиком, то сразу замечаешь несовершенства, узкие места, паттерны, проблемы. Тут же приходят идеи что можно улучшить и автоматизировать.
В задачах Симулятора, в которых Я выступал исключительно в роли менеджера, самым проблемным местом были идея, план и драфт задачи. Долгое время мы пробовали работать в сетапе 1 человек = 1 задача. Позже (за идею спасибо Адаму Елдарову) мы перешли на сетап когда за разные части задач отвечают разные люди.
Я взял на себя часть с декомпозицией задачи на шаги и первым шагом с завязкой (напомню, задачи в виде многошаговых квестов, после каждого шага ты продолжаешь историю и узнаёшь больше) – она была для ребят самой сложной, занимала больше всего итераций ревью, и была блокером для последующей разработки задачи.
Тут Я пришёл к мысли. На самом деле, то, в чём Я помогаю ребятам, это, хоть и (Мне лично) не сложно, но всё равно занимает время. Эти начальные части задачи (план + завязка) требуют 2 ингредиента: (1) насмотренности в машинном обучении и ML-продуктах, (2) навыков письма. Как известно, ChatGPT умеет писать текст и имеет common knowledge, достаточные для того, чтобы научить новому – не только студентов, но и самих младших авторов. Так они по мере обучения студентов, учатся новому сами (как они признаются, они работают в Симуляторе ML не ради денег, а ради опыта).
Co-Author. Уже месяц как мы тестируем и улучшаем внутренний продукт, который уже сокращает время разработки контента уже на 20-30% для задач уровней Intern и Junior (не говоря уже о том, что он убирает из цепочки Меня). Ожидаемо, что эту долю (в ходе пошаговых улучшений и интеграции с Notion API) нам удастся увеличить, консервативно, до 50%, оптимистично, до 80%.
Показываю демку месячной давности.
#management
INTENT
Продолжаем в свободное от работы время баловаться с LLM. На этот раз поговорим о ещё одном паттерне LLM-систем.
При создании LLM-продуктов, особенно важно добиваться бескомпромиссно простого и интуитивного взаимодействия с пользователем. Для этого интерфейс должен быть максимально простым с одной, максимум, двумя точками входа. Но как запихать много разного полезного с таким жёстким требованием? Вариант с десятью кнопками отпадает сразу, глаза будут разбегаться и лишние фрикции в UX убьют продукт. Ведь через месяц кнопок придётся делать 11, а через год уже 20. Вариант не масштабируемый от слова совсем.
В блоге "LLM под капотом" прочитал про такую штуку как классификация интентов. Богдан человек простой: узнал новое – бегом пробовать. Сегодня затестил интенты.
Классификация интентов – это буквально чтение мыслей пользователя. Идея тривиальная: "давайте пользователь будет нам писать обычные сообщения, как он писал бы живому человеку, а бот сам разберётся" – на входе будет стоять LLM, которая поймёт, о чем он просит, и перенаправит запрос на нужный специализированный модуль (где, скажем, стоит отдельный RAG под свою задачу).
Очень напомнило Traffic Router (маршрутизатор трафика) в арбитражных платформах, который по IP тебя вычислит и перенаправит ("приземлит тебя") на нужный лендинг.
P.S. Прикрепил пример как может выглядеть промпт для такого LLM-маршрутизатора: мы банально перечисляем все доступные на текущий момент режимы работы (c XML-тегами) и просим классифицировать запрос пользователя. Затем if "<intent>" in response
и поехали.
Батут работает.
#LLMOps
SLEEP DEBT
Взялся восстанавливать сон. Скачал приложение RISE (раньше уже пользовался, был доволен как слон). Кроме анализа сна, приложение прогнозирует твои пики энергии в течение дня, даёт советы, какое время лучше выделять под Deep Work (с учётом сна и времени пробуждения), а какое под Shallow Work. Учитывает прием кофе, мелатонина, тренировки; даёт план как нормализовать сон и сдвинуть подъём к желаемому времени (говорит, во сколько согласно плану лучше сегодня готовить ко сну, с какого времени избегать кофеин). В общем, ещё много других полезных фишек.
В основе приложения лежит исследование, главный вывод из которого в том, что самый важный предиктор того, насколько хорошо мы будем перформить в течение дня, это не число REM фаз или что-то ещё, а банально Sleep Debt (буквально, "займ сна" или "нехватка сна"). У каждого человека есть необходимое время сна, которое можно померить. Чем ты больше от него отклонялся за последние 7 дней, тем хуже реализуешь свой энергетический потенциал.
На их сайте RISE есть целый Sleep Guide, который будет ценен и без приложения. Приложение уже геймифицирует процесс поддержания гигиены сна и персонализирует советы на основе собираемых данных о тебе. Highly recommended, не могу не поделиться таким золотом. Отдельное внимание заслуживает дизайн, с точки зрения UI/UX редко когда встречаю такие приятные игрушки.
P.S. Не удивляйтесь, если вскоре вслед за одним старшим главным начальником начну писать посты про матрасы.
RASMUSSEN SYSTEM MODEL
Например, в одном месте Грег делится ссылочкой на лекцию о том, как он мыслит о сложных системах со словами "I think this is the best (and only, really) framework I've seen on how to think about running a complex system". Лекция короткая, на 19 минут, и будет полезна любому инженеру и техническому менеджеру.
Идеи из лекции:
Сложная система адаптивна: её состояние в каждый момент времени "танцует" между тремя границами:
1. окупаемость (хватает ли нам денег её поддерживать?),
2. поддерживаемость (хватает ли нам рук её поддерживать?)
3. работоспособность (выдерживает ли нагрузку? учащаются ли ошибки, поломки, проблемы?)
Мы стремимся сделать систему дешевле (экономически эффективнее), отодвигая от границы окупаемости – и "автономнее", чтобы починка багов не отвлекала от добавления нового функционала. Обе эти оптимизации не даются бесплатно и ведут состояние системы – ближе к границе работоспособности (соответственно, система работает "на пике", значит, выше риск проблем).
Что же делать? Очерчивать пунктиром красные линии для допускаемой работоспособности? Вводить новые регламенты и субъективные ограничения перед физическими ограничениями?
Нет. Как сказано в начале, мы строим адаптивные системы, которые несмотря на желание сократить косты у менеджеров и на лень инженеров – на удивление работают и даже... относительно редко падают. Что обеспечивает эту адаптивность? – Люди.
Здесь мы приходим к важности мониторингов, алертов, опережающего реагирования, наконец, нашего собственного обучения по мере работы с системой. Это контрастирует с идеей, что достаточно наперёд просчитать на салфетке все нефункциональные требования, собрать систему по лекалу и закрыть сервера в бункере, чтоб никто не трогал.
P.S. Впрочем, не исключено, что через пару лет мы придём к практике навешивать пару-тройку LLM-агентов, завязанных на мониторинги и алерты, для оперативных починок и корректив наших систем, и тогда точно можно закрывать в бункерах!
https://www.youtube.com/watch?v=PGLYEDpNu60
Highly recommended.
Manager работает в совсем другом режиме: ему нужно быстро переключаться между большим количеством разных контекстов (разные отделы, разные задачи, разные люди). Его расписание может быть сильно более гранулярное и фрагментированное: 1 час в календаре = 1 час работы. В книге Cal Newport такая работа (где большая доля коммуникации, общения, обмена информацией) называется Shallow Work. Это не означает, что если вы руководитель, у вас 100% – это shallow work, так, когда вы занимаетесь написанием стратегии или подготовкой к конференции, то вы переключаетесь на роль Maker.
Самая частая проблема коммуникации между Manager и Maker происходит тогда, когда мы забываем, что мы живём и работаем в разных стилях. Так, одного получасового созвона в середине дня достаточно чтобы выбить инженера из колеи и перечеркнуть его план на день.
[Бонус] Мой персональный хак, который придумал буквально на днях: разбивать календари на два: один бесцветный (чтобы сливался с фоном), второй цветной (для deep work). Так ты сразу видишь, где цельные блоки глубокой непрерывной работы, а где остановки на коммуникацию (shallow work тоже важна, но в расписании Maker она должна занимать до 20%).
Ещё пара релевантных ссылок:
https://www.youtube.com/watch?v=ykNcnrNvpTI
https://www.youtube.com/watch?v=xJYlhhT7hyE
Новый месяц – новый дайджест итогов Симулятора ML! В сентябре у нас вышло целых три новых задачи, которые могут помочь подтянуть навыки для работы мечты. Давайте расскажем о них подробнее!
Читать полностью…Напоминаю канал Генки, где вы можете найти для себя ещё больше практических знаний по всему что касается софт-скиллов, коммуникации, разборчивости в людях и многого другого:
/channel/MySocialCircle
Soft-skills, связи, нетворкинг – вот это всё…
Два года назад, на свой юбилей, Я пригласил 15 друзей: каждый из них имеет свои уникальные черты, каждый спец в своём специфичном направлении. Было большое удовольствие перезнакомить их между собой и наблюдать, как они находят чем поделиться друг с другом.
Из них, с Игорем и Женей Я вас уже знакомил. Настала очередь Генки.
Генки – это человек, который уже инстинктивно знает, как находить подход к людям, независимо от их типажа, статуса и обстоятельств встречи – и умеет простым, доступным языком объяснить что произошло в каждую секунду коммуникации.
В прошлом он успел поработать партнёром event-агентств, арт-директором, UX дизайнером (помню, как-то мы приходили к мысли, что в дизайне для синьорного уровня тоже важнее уже не хард-скиллы, а оценивать эффект через A/B, понимать пользователей). В 23 он основал и затем продал модельное агентство [не знаю, как ему это удаётся!]. Позже поднял бюджетик на NFT и сейчас у него свой бизнес.
Словом, Генки из опыта знает, как работать с людьми, что такое построение доверительных отношений, партнерство, соц.круги, BizDev и грамотная коммуникация. Недавно он завёл телеграм канал, где делится своими наблюдениями и помогает развивать soft-скиллы другим.
Но на этом хорошие новости не заканчиваются. В эту субботу, в 18:00 по Москве мы проведём эфир «Софт-скиллы, связи, нетворкинг – вот это всё…», где обсудим как подходить к вопросу развития своих софт-скиллов, что становится всё более актуально сейчас, с появлением LLM, когда хард-скиллы всё меньше становятся бутылочным горлышком, а понимать людей (коллег, пользователей, партнёров) – всё больше.
Пишите в комментарии вопросы, которые вы бы хотели, чтобы мы с Генки обсудили во время эфира.
Вышла девятая глава книги «Machine Learning System Design with end-to-end examples» Валеры Бабушкина и Арсения Кравченко, Error Analysis, в написании которой ваш покорный слуга принимал участие, и по мотивам которой написана недавняя статья на Хабре.
В главе вы узнаете, в какой момент пора бомбить датацентры, в также как вашей ML системе стать LessWrong.
По ссылочке можно получить ранний доступ к уже вышедшим главам и оперативно получать новые по мере их публикации: https://www.manning.com/books/machine-learning-system-design
Про читабельный код 2/2
Чтобы не тянуть кота за хвост, сразу же брошу пару-тройку рекомендций, пока они у Меня в голове. Особенно будут особенно полезны начинающим специалистам, но может и матёрым волкам что-то из этого пригодится.
1. Выступление автора библиотеки Keras, "The Secrets of Productive Developer Tools"
Идея: писать код, фокусируясь на том, кто его будет использовать и как; думать о UX, который ты задаёшь своим кодом (какой workflow?); параметры и наименования должны отражать что пользователь твоего кода получает, а не как этот код реализован (мысль тривиальная, но...)
2. Книга Егора Бугаенко, "Elegant Objects"
Идея: "уважать" объекты, воспринимать их как автономные сущности с которыми можно и нужно взаимодействовать, а не как набор переменных, сброшенных в одну кучу (откуда всегда можно что-то взять или положить через сеттеры и геттеры); когда мы что-то хотим получить от объекта, мы должны попросить (делегировать), а не микроменеджерить объекты, вмешиваясь в их логику работы и отдельно диктуя что с чем сделать.
В частности, автор пропагандирует, что все процедуры должны быть глаголами (действиями), а все функции (когда что-то возвращается) – существительным или существительным с прилагательным. Почему? Названием функции мы описываем что пользователь получит.
Аналогия: что когда мы приходим в ресторан, мы говорим, "Мне, пожалуйста, латте" (latte
) – называешь, что хочешь получить. Мы не говорим "заварите Мне латте" (brew_latte
) или "принисите Мне латте" (get_latte
). N тем более мы не идём на кухню, диктовать баристе в какой питчер заливать молоко. Это было бы странно. Но в среднестатистическом коде подобное встречается тут и там.
Собственно, даже если вы пишите MVP на коленке, говнокодя как последний подонок, хотя бы заботьтесь о внятном именовании с понятной логикой. Нормальные именования – это уже залог 80% читабельности кода.