Vibe is all you need
P.S. Про разницу между Retention и Rolling Retention можно прочитать здесь: https://gopractice.ru/product/nday-retention-rollling-retention/
Одно из самых полезных применений нового StructuredOutput в OpenAI API – это использование Enum в intent classification (с чем отлично справляется gpt-4o mini). Раньше были не редки случаи, когда при всех требованиях порой gpt нет нет, да и придумает новый тег. Теперь конкретно здесь галлюцинации исключены технически. Радует.
#LLMOps
Очень крутая таблица из фреймворков мышления для стартапов/бизнесов разных стадий от Лейлы Хормози (жена и бизнес-партнёр Алекса Хормози)
https://www.youtube.com/watch?v=JiV347H7vNQ
1. $0-$1M годовой выручки (<$100K monthly revenue):
• фокус на 1 аватаре пользователей, 1 продукте, 1 канале привлечения
• консистентность и поиск PMF (строить то, что люди хотят, Алекс называет это "найти starving crowd", голодную толпу – категорию людей, у которых просто горит от какой-то боли; в нашем случае это молодые парни и ежедневный вопрос "что ей написать / что ответить?")
• продажи-продажи-продажи
2. $1-$10M ($100K-$1M MRR):
• наращивать LTV, Retention
• увеличивать маржу, сокращать косты
• тестировать другие каналы дистрибьюции
3. $10M-$50M ($1M-$10M MRR):
• приводить операционку в порядок
• ставить всё что можно на конвейер
• нанимать таланты и т.д.
#startup
Знай своих конкурентов, или рубрика "Почему я не знал об этом раньше?"
Certainly, coming up with new ideas is important, but even more important is to understand the results
– Ilya Sutskever
Focus Routine
Не самая продуктивная Моя неделя, но что круто, доля deep work (70%) выросла более чем в 2 раза по сравнению с прошлой неделей (на графике тёмно-пурпурный – shallow work, ярко-пурпурный – deep work)
Помогает рутина из 5 шагов:
1. Закрыть все источники отвлечений (Telegram, Instagram, dating apps).
Я использую Opal для блокировки сайтов и приложений (включая время сна), что круто, можно настраивать не blacklists, а whitelists, например, для какой-то активности Мне нужны 2-3 приложения на телефоне, а остальное блочит с прикольными мотивационными фразами.
2. Включить в наушниках Endel, режимы Focus, Dynamic Focus или Deeper Focus.
Вообще, музыка довольно эффективный способ приучить мозг к нужному состоянию ума.
3. Начать сессию работы в Session, выбрать задачу (intent) и период работы (time blocking) – период может растягиваться.
4. Открыть задачу в Linear, декомпозировать на подзадачи (можно только первые 3-5 шагов).
5. Начать логировать в Notes в сессии в Session, что делаю, в среднем каждые 20-30 минут – видишь прогресс и сразу обрашаешь внимание сколько минут на что просрал; легче входить в поток.
———
Ближайшие цели: поднимать что общую цифру (до 80+), долю deep work (до 80%), а также уменьшать дисперсию по дням недели 🤗
#LifeOps
Implicit Feedback
Одно из маленьких, но важных преимуществ приложения по сравнению с ботом – то, что ты можешь сильно больше ловить действий пользователя и получать сильно "плотнее" фидбек.
К примеру, в боте для сбора фидбека о том, какие ответы плохие, а какие хорошие, под каждым ответом стоят 👍 и 👎. Люди редко ставят лайки и дизлайки, это требует дополнительного действия вне основного флоу использования. К тому же, лайк ставят только когда бот дал ну совсем ебовый ответ.
В приложении в этих кнопках нет необходимости: в нём при нажатии на ответ, он копируется (и это можно трекать, понимая, какой ответ пользователь взял в бой). В боте тоже можно копировать сообщения при нажатии, если оно оформлено моноширным шрифтом
, но телега не даёт возможности трекать такие действия.
Есть такая небольшая книжечка, Learning to Rank From Implicit Feedback, которой со Мной как-то давно поделился Саша Сахнов (прикладываю PDF), она рассказывает о том, как строить рекомендательные и поисковые системы, как их валидировать, как собирать фидбек от пользователей.
В ней как раз вводится разделение на explicit и implicit feedback:
• Explicit Feedback – требует от пользователя (или эксперта) действий вне стандартного использования сервиса, например, поставить лайк/дизлайк, пройти опрос, оценить от 1 до 5 и т.д. Это даёт более сильный сигнал, но его собирать крайне сложно (малый % пользователей захочет на это отвлечься).
• Implicit Feedback – это неявные признаки заинтересованности пользователя, например, сколько действий он сделал, до какого места досмотрел видео, перешёл ли по ссылке или на страницу рекомендованного товара, скопировал ли ответ Vibe, переслал ли другу. Отдельно взятый сигнал менее надёжен, однако эти "следы" оставляют практически все пользователи в большой количестве, значит, данных больше и на этом можно обучать/валидировать модели точнее.
Общий вывод, что implicit – круче и на объёме сильно достовернее, хоть и требует большей изобретательности (в то время как explicit сильно разрежен и на него трудно учиться).
Так, в нашем случае, как сказал, сигналом будет копирование ответа и будущая цель, во-первых, чтобы на каждый запрос пользователя был хотя бы 1 ответ, который пользователь скопирует (в поиске и e-commerce это называют Success Rate или CTR), во-вторых, чтобы порядковый номер первого скопированного ответа был минимален (Mean reciprocal rank).
В целом, в любом сервисе (да, в принципе, и в любой работе с людьми) нужно искать способы улавливать предпочтения клиента по косвенным признакам, чтобы максимально упростить себе и пользователю передачу обратной связи.
Как бороться с абьюзом?
За этот пост Меня будут ненавидеть пользователи…
Если у вас LLM-продукт и подписочная модель, есть риск, что на небольшом числе пользователей юнит-экономика не сходится
Среди этих пользователей есть как те, кто пользуется часто, в рамках нормы («активные пользователи»), а есть те, кто буквально спамит запросами («гиперактивные пользователи»), в нашем случае, кидая в Vibe каждый профиль на сайте знакомств и каждую переписку)
Гиперактивных у нас 1%, но денег они раньше ели прилично относительно стоимости подписки, по ним мы были в сильном минусе… пока мы не воспользовались старым советским приемом: временно переводить их на 4o mini, если они сделали больше, чем N запросов за последние M часов. Я бы назвал это «введением мягких лимитов»
Сервис всё ещё остаётся доступен, жестких лимитов на сообщения и кредитов всё ещё не вводится. Да, качество ответов частично падает (хоть и скорость растет). Но для ребят кто хочет «брать количеством», на Мой взгляд, идеальный вариант, который не бьет по нашему кошельку.
И овцы целы, и волки сыты.
Решение, конечно временное, в будущем когда модели будут дешеветь и дальше, в этом отпадёт необходимость.
Но пока нормальная рабочая схема, как срезать косты не обижая 99% пользователей.
Больше фишек по работе с LLM по тегу #LLMOps
У Меня для каждого из вас маленькац просьба (которая займёт не больше 1 минуты) – особенно для тех, кто уже давно со Мной
В этом блоге Я открыто показываю свой карьерный, а теперь и предпринимательский, путь, делюсь находками, извлечёнными уроками, показываю, как Я мыслю
Все полезные посты Я сопровождаю тегами для удобства вашей навигации:
#LifeOps – организация жизни, продуктивность, дисциплина, образ жизни
#LLMOps – о создании AI продуктов, техники, приемы, инструменты
#Startups – о построении и росте стартапов, Мой опыт из серии «почему Я не знал об этом раньше?»
#VIBE и #iOS – история и эволюция нашего продукта, Vibe
(он при нажатии на тег открываются только посты этого тега)
Теперь сама просьба: найдите ровно 1 пост, который был для вас полезен больше всего и поставьте столько звёзд, во сколько вы оцениваете для себя полученные из него знания (это может быть как 1 здезда, так и 200-500)
Это поможет Мне объективно понять, за что вы больше всего любите этот блог, и каких постов здесь должно выходить сильно чаще
Спасибо, что читаете 💫
Запись эфира с Ником Берёзой
https://youtu.be/ylIHg4Q1z78
Мы поговорили про:
• Путь Ника из EdTech в крипту – из крипты в венчур
• Как работает Unimatch AI, как происходит скоринг стартапов?
• Как собрать команду чемпионов? Как мотивировать людей?
• Как поднять Pre-Seed раунд инвестиций при оценке в $5M?
• Чем отличается образ мышления C-level и фаундера?
и о многом другом
Подписывайтесь на блог Ника, там много полезного
Напоминаю, что сегодня в 20:00 по Москве эфир с Ником Берёзой, фаундером Unimatch.AI
Читать полностью…Поймал себя на мысли, что Мне по вайбу мир стартапов напоминает "Тёмный Лес" у Лю Цысиня
Читать полностью…Весной 2023 мы с командой трансформировали Симулятор Data Science из практикума по ML – в настоящий "инкубатор" AI-стартапов на минималках.
Теперь кроме задач-квестов по всем популярным индустриям и продуктам (кстати, мы доросли уже до 800+ студентов и 100+ задач), ребята уже с первого дня получают возможность присоединиться к одному из командных проектов. Все проекты уникальные и разрабатываются в open-source, поэтому каждый из участников может добавить его в своё резюме, рассказать, за какую часть лично он отвечал в проекте, сопровождая метриками по реальным пользователям, и работодатель сможет увидеть твой вклад в проект и твою консистентность, дисциплину по истории коммитов – настоящая меритократия.
Недавно мы решили пойти на эксперимент и, учитывая что желающих много, начать запускать проекты парами: 2 команды по 3-5 человек, проекты решают ± одну и ту же проблему, но разными подходами, какие выберут в ходе брейншторма и экспериментов сами студенты. Это добавляет соревновательный аспект в обучение, увеличивает вовлечённость, добавляет челлендж. Такой Хакатон-like вайб, но на 1-2 месяца и с целью получить рабочее MVP, с которым можно взаимодействовать, а не просто красивую презу для жюри.
Ранее у нас была пара проектов CyberTolya и KarpovAI, оба из которых помогали находить ответы на свои вопросы по видео с выбранного YouTube-канала. Один на основе TF-IDF/BM25, другой на основе RAG. Как не трудно догадаться, обкатывались оба сервиса прямо на karpovcourses/videos">karpov.courses.
А в начале этой неделе мы запустили 2 проекта: MoodMeter vs. VibeCheck. Оба сервиса решают одну и ту же боль: понимать, как меняется настроение / здоровье / вайб группового чата по дням, неделям и месяцам. Кстати, идею (sentiment score) косвенно подсмотрел на одном из слайдов у Ника Берёзы, с которым у нас в пятницу совместный эфир (см. закреплённый анонс).
Кто ЦА: админы чатов и коммьюнити менеджеры, тимлиды и их рабочие чаты сотрудников, фаундеры с чатами пользователей, авторы онлайн-курсов и чаты студентов.
Собранные сентименты и их динамику в последствие можно выводить на дашборд вместе с разными инсайтами (в какие конфликтные темы периодически скатывается чат? какие топ-N ключевых слов?), на их основе можно кидать алерты (бот может говорить, мол, "чуваки, слишком высокий градус токсичности, а ну завязывайте") и предоставлять закрытую аналитику для админа чата (например, кто из команды или из пользователей чаще всего накидывает на вентилятор в чате? с кем нужно поговорить тет-а-тет?).
Самому интересно, что придумают ребята. Обе команды начали в понедельник, но обе уже написали первичную версию ML Design документа, кто-то уже сделал прототип модели и начинает оборачивать самую сырую версию в Docker. В частности, любопытно, как решат вопрос с User Privacy и как будут минимизировать косты.
Что сами думаете про такого рода сервис? Был ли бы он полезен вам? Делитесь в комментариях.
Присоединиться к Симулятору DS можно уже сегодня, перейдя по ссылке
Фаундер должен суметь сделать три вещи:
1. Найти / придумать бизнес - модель с необходимым венчурным масштабом и сформулировать ясный вижен, где находится плодородная земля и как там в будущем
2. Обеспечить стартап необходимым кол-во денег и ресурсов для реализации этого вижена, чтобы корабль доплыл
3. Собрать и объединить выдающихся людей в одну команду с общей культурой, ценностями и вайбом, каждый из которых дополняет, усиливает и вдохновляет друг друга.
Договориться с каждым из этих людей, создав внутри отношений ясность ролей, пути, вознаграждений и не мешать им реализовать свою миссию и предназначение
Эфир с Ником Берёзой
С весны читаю блог Ника Берёзы. Ник – опытный фаундер (за плечами несколько бизнесов). Сейчас он фаундер и CEO стартапа Unimatch AI, "тиндера для фаундеров и инвесторов" (от Unicorn + Match) – уже поднят раунд по оценке в $5M. Вообще, сильно резонирует его восприятие мира стартапов, его подход к найму, менеджменту, организации. Что-то сразу беру на вооружение.
Например, в апреле уже репостил его список убеждений. Советую прогуляться по блогу, там довольно много ёмких формулировок, как собирать сильную команду, кто и как получает много денег в найме, или про цикличные петли роста стартапов. Рекомендую уделить как минимум пару вечеров, там много ценного.
Приглашение Ника на эфир-интервью для Меня имеет конечно же корыстные цели: Ник очень опытный фаундер и интересный гость. Я фаундер пока начинающий и для Меня это возможность показать друг другу свои Notion задать много интересных вопросов о том, как он мыслит в контексте роста стартапа, какой фреймворк выработал для управления командой и создания стратегии, изучить, как он нанимает, как поднимает инвестиции, как в самом Unimatch ИИ выставляет рейтинг для стартапов (и как его оптимизировать), наконец, какие качества отличают успешного фаундера (+ как Ник их развивал сам).
В свою очередь, у Ника появится чуть больше читателей блога, среди которых, уверен, найдутся как фаундеры-пользователи его стартапа, которые ищут инвестиции или таланты, так и разработчики, включая AI-разработчиков, непосрественно в команду Unimatch.
Ждём всех в пятницу, 20:00 по мск
[10 am по Калифорнии]
Здесь, в BOGDANISSSIMO
Ссылка на Google-календарь, чтобы не пропустить
P.S. Кстати, пишите свои вопросы к Нику в комментарии!
Режим дня и недели
Мой целевой распорядок, к которому Я стремлюсь. Реальный расходится на 2-3 часа, но мы над этим работаем
06..07: подъем, душ, уход за лицом, выпить протеин, сесть в такси (12 минут на дорогу)
07-17: кофе, deep work (две сессии по 6 и 4 часа), приезжаю в одни и те же кафе (все по соседству), удобно что там же можно пообедать + триггер в голове что если в кафе, то работаешь, если дома, отдыхаешь
17-18 тренировка, зал в 5 минутах пешком от тех кафе
18-20..21 shallow work: созвоны, кастдевы, разная административная суета
20..21 иду домой пешком (40-50 минут), общаюсь с ChatGPT в Voice Mode, анализирую день и общий прогресс, например, как текущее расписание отличается от идеального (этот модифицированный пеший 1:1 с ChatGPT последние 1.5 мес делаю без исключений, клевая привычка)
22..00 душ, face care, протеин, кондиционер на 18°, сон (в идеале, телефон далеко от кровати; будильник не ставлю)
———
По понедельникам Shallow Work Day, поэтому вместо deep work сессий, сюда накидываю разные активности по тюнингу своего LifeOps, разные созвоны, weekly и другое
Бывают ещё исключения когда нужно как на этой неделе в середине дня ездить в банк, открывать счета и т.д. В такие недели прощаю себе что будет мало часов deep work 🤭
#LifeOps
Бенчмарк новой GPT-4o 2024-08-06 - немного глупее и заметно дешевле
У OpenAI есть привычка. Сначала они выкатывают мощную, но дорогую модель. Потом они делают модель сильно дешевле за счет небольшой просадки в качестве. Потом они начинают работать над качеством.
В долгосрочной перспективе их модели становятся дешевле и лучше.
Такое случилось и с новой версией GPT-4o (gpt-4o-2024-08-06). Она в два раза дешевле топовой GPT-4o v1/2024-05-13 и немножечко глупее, чем новый Gemini Pro 1.5 от Google. Заняла четвертое место.
В итоге у нас получается очень неплохая модель по соотношению цена-качество. Это самая дешевая модель из TOP-8! 🚀
А еще с этой моделью включили поддержку constraint decoding. Они ее называют Structured Outputs. Теперь можно заставить модель всегда отвечать с JSON в определенном формате. Это не делает модель умнее, просто гарантирует формат ответов.
Простейший пример реализации такого подхода я демонстировал в "Как сделать так, чтобы Mistral 7B всегда отвечал на русском". Но OpenAI сделала это нормально и встроила прямо в клиента.
Кстати, Structured Outputs включили и во многих других моделях. Это не требует изменения модели - просто добавления "обвязки" на сервере.
А еще, похоже, у OpenAI усились опасения из-за чудесной интеграции Claude Chat с режимом генерации UI кода. Поэтому они в своей статье выделили главу про автоматическую интерфейсов при помощи Structured Outuputs.
В общем, получилась очень удачная модель по соотношению цена/качество.
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про рывок Gemini Pro 1.5 v0801. См другие бенчмарки по категории #bench
Karpathy: RLHF is just barely RL
Karpathy выкатил длинный твит с размышлениями о RLHF:
• RL - мощно, RLHF - не так мощно
• он приводит в пример AlphaGo - модель тренировалась с RL, и в итоге научилась обыгрывать людей. Если бы её тренировали на RLHF, то люди бы оценивали какое состояние доски или какая последовательность действий лучше - по факту модель, аппроксимировала бы среднее поведение людей. И это не смогло бы привести к модели, которая превосходила бы людей
• Причины две - "какой вариант тебе больше нравится" не всегда коррелирует с вариантом, который ведёт к победе в игре; и модель может поломаться на ранее невиданных вариантах
• Его в целом удивляет/впечатляет то, что RLHF работает - ибо по факту оптимизируется на правильное/лучшее решение, а которое больше нравится асессорам. И в целом модель может быстро научиться эксплойтить.
• При всем при этом, RLHF работает и является полезным. Как минимум потому, что людям не надо создавать вариант с нуля - они выбивают что-то из предложенного.
• И есть большой аргумент в пользу RLHF - использовать его для оценочных задач типа "хорошая ли шутка, хорошо ли суммаризирован текст" легко. А вот для RL не понятно, как дизайнить reward function.
И в целом он называет RLHF "vibe check" :)
Tweet
#datascience
Что там с рынком акций?
6:40, Я приехал в кафе – самое время написать пост
Так сложилось, одной из тем, которую мы много обсуждали с ChatGPT последние дни, была тема пузырей, экономических циклов и кризисов, произошедших за последние пару десятков лет (ипотечный кризис, доткомы и т.д.). Мой интерес усилился когда Я спонтанно пересмотрел "Игру на понижение"– и начал допрос ChatGPT по всем финансовым инструментам, которые были задействованы, чтобы разобраться в нюансах. До жопы интересно!
Попробую вкратце раскидать, что происходит сейчас:
1. Как работают экономические циклы? Рекомендую к просмотру легендарное видео Рэй Далио, собравшее 40 млн просмотров. Вкратце,
• Размер экономики = сколько люди тратят денег (отсюда ВВП)
• Кредит = потрать сегодня, заплатив за это завтра
• Процентная ставка = на сколько % больше нужно будет вернуть от суммы взятого кредита (либо сколько % получишь от суммы депозита на счету)
• Ключевая ставка = процентная ставка в ЦБ ("банке для банков"), прямо влияет на ставку в банках для физлиц/юрлиц
• Рост: низкие процентные ставки делают кредиты доступнее → люди берут много кредитов → рост потребления и инвестиций → экономический рост
• Пик: слишком быстрый экономический рост → инфляция (когда деньги "дешевеют", т.е. за ту же сумму ты сможешь позволить меньше товара)
• Сокращение: ЦБ повышает ставку → люди берут меньше кредитов (боятся не вернуть) → люди меньше тратят → экономика замедляется
• Спад: высокие ставки → рецессия (низкая экономическая активность, сокращение потребления и рабочих мест) → снижение инфляции
Затем цикл повторяется один в один. ЦБ разных стран стремятся к инфляции в 2% (инфляция – как быстро дешевеют деньги за 1 год), чтобы стимулировать рост экономики, но без значительного роста цен.
2. Текущий спад начался с банков Японии (см. графики в комментариях)
• В Японии с 1999 была zero interest rate policy (ZIRP), ключевая ставка 0%.
• В 2006 ставку повысили до 0.25%, в 2007 до 0.5%. В 2008 опустили до 0.3%, в 2009 до 0.1%, в 2011 снова до 0%.
• В 2016 ЦБ установил отрицательную ставку в -0.1%, что по сути "штрафовало" если деньги банков просто "лежали без дела" и стимулировало давать кредиты.
Т.е. в японских банках вот уже 17 лет ставка снижается и многие финансовые организации часто берут кредиты ("дешёвые деньги") под инвестиции из японских банков (скажем, в US мог взять кредит под инвестиции на 6.5%, а Японии под 1.5%), переводят йены в usd и вуаля... Тем более, что йены последние 25 лет, за вычетом небольших подъёмов, держались на одном уровне или даже дешевели по отношению к доллару.
Точную цифру Я не нашёл, но в разных источниках пишут, что в районе 10% инвестиций в stock market США взяты на деньги из японских банков.
3. В марте этого года ЦБ Японии впервые за 17 лет повышает ставку, сразу с -0.1% до +0.1%. Казалось бы, терпимо. Никаких больших перемен не произошло.
Дальше лучше: 5 дней назад ЦБ Японии снова повышает ставку за тот же год, повторюсь, после 17 лет монотонного убывания – на этот раз до 0.25%. Это происходит на фоне того в Японии выросла инфляция до 3% (стимуляция экономики-то происходит, вот только не своей экономики).
4. В последние 30 дней японская йена по отношению к доллару выросла более чем на 10% (в том числе на фоне слухов о ещё большем увеличении ставки ЦБ, которые действительно подтвердились).
Т.е. ты взял кредит в йенах, а теперь кроме роста ставки, тебе нужно на самой конвертации потратить на 10% больше, чтобы его вернуть. 🤡
5. После этих новостей, многие инвесторы, инвестиционные фирмы, фонды, финансовые институты, которые полагались на японские банки вдруг начали экстраполировать "а вдруг будет ещё повышение?" – т.е. надо пересматривать текущие и будущие инвестиции.
Например, Уоррен Баффет 40% своих акций держал в Apple, с марта продал половину своих акций Apple. Совпадение?
Индекс волатильности VIX (иногда называемый индекс страха) сильно подскочил (например высокими считаются значения 30 и выше, последние дни на уровне 40-55, см. комменты).
P.S. Кстати, что лично вы думаете будет через неделю / через месяц / к концу года?
Прикольно, у Apple на iOS-устройствах есть CoreML, в котором, например, есть тот же OCR. Обрабатывает за 200ms, причём по картинке в полном разрешении, как загружает пользователь, а не сжатом для передачи по сети виде. Есть нормальная поддержка русского (попробовал много open-source OCR-ок, все или говно по качеству, или страшно медленные)
https://developer.apple.com/documentation/vision/recognizing-text-in-images
Приятная находка
#iOS