Нашел техническую ошибку из-за которой результаты первого A/B можно считать не валидными
Скоро перезапустим 👆
Не как, а что
По совету Богдана перестал надрачивать проводить много интервью и начал пилить базовый продукт. Да, кодинг с Replit все еще выглядит как управление начинающим программистом. Только он может полноценные приложения собирать, а я нет. Пока не знаю, осилю ли MVP в одиночку, но делать это чертовски интересно.
И если инструменты создания таких приложений будут улучшаться, то главным вопросом очень скоро станет не "как мне сделать софт", а "какой софт делать".
«It was plus vibe activity». Марк Эйдельштейн перед Оскаром прокатился на ковре и сказал ведущей, что это плюс вайб — ролик завирусился в ТикТоке и теперь все американцы узнали, что такое этот ваш плюс вайб.
Да, плюс и минус вайб — это чисто русский слэнг на английском языке, который только сейчас благодаря слонам узнали за пределами России ¯\_(ツ)_/¯
GPT-4.5, A/B тест №1
Значит, сожгли трёхзначную сумму (в долларах) на A/B тест длительностью в 5 дней для GPT-4.5 в роли базовой модели
Стат.значимого отличия не обнаружили, хотя внутренне я болел за GPT-4.5. VibeBench, считай
Что могло повлиять? Гипотезы:
1. язык, по ощущениям в датасете 4o и 4.5 примерно одинаковое количество русского языка, хотя когда тестировал gemini 2, то сильно лучше понимает интернетные мемы, свободнее выражается и т.д. на мелкой подвыборке только с английскими ответами довольно хороший (не стат значимый на текущем объеме) перевес в пользу 4.5, но пока спишем на шум. вот проведем на большем объёме, сделаем выводы
2. задержка, запрос 4o/gemini выполняется за 1.5-2 сек, в 4.5 за 3-4 сек, могло повлиять, поэтому в какой-то момент, ближе к концу теста, сделали искусственную задержку для группы А. после этого на *второй части теста* GPT-4.5 вырвался в лидеры, но c куда меньшим перевесом чем в случае с языками
В общем, ждём следующие снэпшоты 4.5 в API, надеюсь будут стоить не как крыло самолёта. Будем проводить повторный А/Б. Пока рано делать однозначные выводы
P.S. А спонсором А/Б теста был наш любимый @seeallochnaya 🏖❤️
Обновил алгоритм подбора твоего идеального ответа в Вайбе, самое время попробовать: https://onelink.to/get-vibe
Читать полностью…В ChatGPT Plus подвезли 10 запросов Deep Research в месяц. Первый рисёрч, который сделал, скинул материал статьи из СМИ про теорию Крапивина, где он предложил в январе 2025 новый алгоритм построения хеш-таблиц. Мне было интересно, это хайп и журналистский булшит, или международное научное сообщество реально въедливо проверило новую теорию и серьезно восприняло.
Оказалось, что 40-летняя теория (гипотеза (утверждение) Яо 1985 года, уже давно имеющая теоретически доказанные оценки в худшем случае) оказалась опровергнута и действительно 2 предложенных метода, Funnel Hashing и Elastic Hashing. DeepResearch объяснил интуицию за обоими, показал теоретические оценки для среднего и худшего случая, привел выкладку с расчётами, снабдил всеми ссылками на источники
Где это пригодится? Да везде: обращение к базам данных (индексы), поиски в словарях (особенно больших key-value хранилищах), кеширование сайтов и кеш сервисы (тот же Redis), маршрутизация пакетов по сети и многие другие примитивы современных приложений.
На основе предложенных методов Крапивина другие команды придумали Bathroom Model, который берёт идеи Elastic Hashing и делает его еще оптимальнее. В общем, ближайшие годы там знающие ребята сделают нам все хорошо, а сейчас главное не бухтеть
Короче, очень прикольно
https://chatgpt.com/share/67c2ad0e-c2a8-8002-9079-e88c130aefe8
Когда ждёшь результатов A/B: https://www.youtube.com/watch?v=omgujen9xi0
Читать полностью…что если Orion (aka GPT-4.5) настолько умный что научился притворяться что он глупый?
Читать полностью…Вкратце, когда созвонились с Игорем я озвучил мнение что сейчас время поменялось и стандартная практика из «Спроси маму» о том, что «нужно сначала правильно сформулировать гипотезу и вопросы → пообщаться с пользователями → делать продукт»
Как говорил Стив Джобс, «Люди не знают толком, чего они хотят, пока ты не покажешь им это»
Пока ты не дашь людям в руки что-то, не покажешь демо/прототип/mvp, у тебя с каждым потенциальным пользователем будет охуенно большой кост на коммуникацию, вы будете очень много времени тратить на то чтоб оказаться on the same page, чтобы «заалайнить его представление о продукте на твой»
Старый подход был актуален когда написание кода для MVP было узким местом, ведь ты хочешь не прогадать, «в какую сторону тратить усилия разработки». Это могло занять в хорошем случае 2-3 недели
Сейчас у нас есть прекрасные…
- lovable.dev
- bolt.new
- replit.com
- v0.dev
…которые позволяют за 2-3 часа набросать прототип (даже если ты не кодер), с которым можно ходить по своим потенциальным пользователям и получать предметный фидбек от них, даже в процессе за минуты реализуя те идеи, что накинул пользователь и спрашивая «так видишь или нет?». Фидбек луп страшно сокращается
Теперь боттлнек - как найти целевую аудиторию, заинтересовать и договориться на созвоны… что само по себе идея для одного из стартапов
Спасибо Сэму за 4.5 https://chatgpt.com/?model=gpt-4-5 🤙
Читать полностью…there is an evaluation crisis. I don't really know what metrics to look at right now
Читать полностью…Кажется, теперь я стал настоящим Vibe Coder, ведь в 2к25 можно диктовать курсору, что делать, голосом
https://superwhisper.com/
Иногда охуеваю, сколько всего интересного с точки зрения AI/ML удаётся реализовать под капотом Вайба, и о чём лучше не рассказывать в паблик
Читать полностью…Андрей Крапивин поясняет за свою статью и хеш-таблицы:
https://www.youtube.com/watch?v=ArQNyOU1hyE
Очень богатый анонимный спонсор близкий к OpenAI заказал пульнуть GPT-4.5 в A/B тест
Если у вас скачано iOS приложение, есть ненулевой шанс пощупать руками передовую LLM с самым высоким эмоциональным интеллектом: https://apps.apple.com/ru/app/vibe-ai/id6553989941
Vibe a/b testing: это когда пуляешь а/б тест, сплит просто через random.random() < 0.5, без соли и user_id; дашборд построишь задним числом; предварительный дизайн, оценку выборки и длительность не делаешь; каждый час поглядываешь на траекторию p-value и если пару дней ниже альфы, стопаешь
Читать полностью…Когда твоя девушка узнала, что ты пользуешься GPT-4o, а не GPT-4.5
Читать полностью…о круто, можно в вайб подписку за 100 баксов вводить 🤡
Читать полностью…ребят по брацки 8 человечков до круглой циферки onelink.to/get-vibe
Читать полностью…