there is an evaluation crisis. I don't really know what metrics to look at right now
Читать полностью…Кажется, теперь я стал настоящим Vibe Coder, ведь в 2к25 можно диктовать курсору, что делать, голосом
https://superwhisper.com/
Иногда охуеваю, сколько всего интересного с точки зрения AI/ML удаётся реализовать под капотом Вайба, и о чём лучше не рассказывать в паблик
Читать полностью…Андрей Крапивин поясняет за свою статью и хеш-таблицы:
https://www.youtube.com/watch?v=ArQNyOU1hyE
Очень богатый анонимный спонсор близкий к OpenAI заказал пульнуть GPT-4.5 в A/B тест
Если у вас скачано iOS приложение, есть ненулевой шанс пощупать руками передовую LLM с самым высоким эмоциональным интеллектом: https://apps.apple.com/ru/app/vibe-ai/id6553989941
Vibe a/b testing: это когда пуляешь а/б тест, сплит просто через random.random() < 0.5, без соли и user_id; дашборд построишь задним числом; предварительный дизайн, оценку выборки и длительность не делаешь; каждый час поглядываешь на траекторию p-value и если пару дней ниже альфы, стопаешь
Читать полностью…Когда твоя девушка узнала, что ты пользуешься GPT-4o, а не GPT-4.5
Читать полностью…о круто, можно в вайб подписку за 100 баксов вводить 🤡
Читать полностью…ребят по брацки 8 человечков до круглой циферки onelink.to/get-vibe
Читать полностью…Иногда провожу консультации для фаундеров AI стартапов, помогаю экономить время и деньги
Записаться можно в лс: @uberkinder
Там Perplexity к своему DeepResearch прикрутили API-ручку
https://x.com/AravSrinivas/status/1894598725718478869
Теперь можно делать диприсерч репорты программно
Зачем и кому это может быть нужно?
Мы например в Симуляторе DS как раз ждали чего-то подобного для автоматизации одно из шагов создания контента. У нас курс практический и почти весь его контент – это задачи. Тебе даётся продукт, кейс, необходимая теория и ты по шагам строишь сервис
Младшие авторы перед созданием задачи делают рисёрч, какие сейчас самые свежие архитектуры / подходы к построении того или иного сервиса, ищут референсы для имплементации ключевых компонент, хорошую теорию, и оборачивают это в интерактивную задачу, пишут текст, проверяющую систему и т.д.
Теперь шаг с рисёрчем можно или частично или полностью сократить. В принципе и UI-версии Perplexity и Grok, думаю, справлялись бы неплохо. Но теперь это можно включить прям в пайплайн и избавиться от ручной работы на этом шаге 😘
GPT-4.5, A/B тест №1
Значит, сожгли трёхзначную сумму (в долларах) на A/B тест длительностью в 5 дней для GPT-4.5 в роли базовой модели
Стат.значимого отличия не обнаружили, хотя внутренне я болел за GPT-4.5. VibeBench, считай
Что могло повлиять? Гипотезы:
1. язык, по ощущениям в датасете 4o и 4.5 примерно одинаковое количество русского языка, хотя когда тестировал gemini 2, то сильно лучше понимает интернетные мемы, свободнее выражается и т.д. на мелкой подвыборке только с английскими ответами довольно хороший (не стат значимый на текущем объеме) перевес в пользу 4.5, но пока спишем на шум. вот проведем на большем объёме, сделаем выводы
2. задержка, запрос 4o/gemini выполняется за 1.5-2 сек, в 4.5 за 3-4 сек, могло повлиять, поэтому в какой-то момент, ближе к концу теста, сделали искусственную задержку для группы А. после этого на *второй части теста* GPT-4.5 вырвался в лидеры, но c куда меньшим перевесом чем в случае с языками
В общем, ждём следующие снэпшоты 4.5 в API, надеюсь будут стоить не как крыло самолёта. Будем проводить повторный А/Б. Пока рано делать однозначные выводы
P.S. А спонсором А/Б теста был наш любимый @seeallochnaya 🏖❤️
Обновил алгоритм подбора твоего идеального ответа в Вайбе, самое время попробовать: https://onelink.to/get-vibe
Читать полностью…В ChatGPT Plus подвезли 10 запросов Deep Research в месяц. Первый рисёрч, который сделал, скинул материал статьи из СМИ про теорию Крапивина, где он предложил в январе 2025 новый алгоритм построения хеш-таблиц. Мне было интересно, это хайп и журналистский булшит, или международное научное сообщество реально въедливо проверило новую теорию и серьезно восприняло.
Оказалось, что 40-летняя теория (гипотеза (утверждение) Яо 1985 года, уже давно имеющая теоретически доказанные оценки в худшем случае) оказалась опровергнута и действительно 2 предложенных метода, Funnel Hashing и Elastic Hashing. DeepResearch объяснил интуицию за обоими, показал теоретические оценки для среднего и худшего случая, привел выкладку с расчётами, снабдил всеми ссылками на источники
Где это пригодится? Да везде: обращение к базам данных (индексы), поиски в словарях (особенно больших key-value хранилищах), кеширование сайтов и кеш сервисы (тот же Redis), маршрутизация пакетов по сети и многие другие примитивы современных приложений.
На основе предложенных методов Крапивина другие команды придумали Bathroom Model, который берёт идеи Elastic Hashing и делает его еще оптимальнее. В общем, ближайшие годы там знающие ребята сделают нам все хорошо, а сейчас главное не бухтеть
Короче, очень прикольно
https://chatgpt.com/share/67c2ad0e-c2a8-8002-9079-e88c130aefe8
Когда ждёшь результатов A/B: https://www.youtube.com/watch?v=omgujen9xi0
Читать полностью…что если Orion (aka GPT-4.5) настолько умный что научился притворяться что он глупый?
Читать полностью…Подписывайтесь на Надю, у Нади очень крутое AI приложение который помогает подобрать гардероб на каждый день по фоткам одежды в зеркале на себе или магазине. Ей всего чуть чуть осталось до 5000 подписчиков
Она мощный deep learning engineer который решил стать акулой бизнеса. Недавно её команда подняла раунд и их стартап уже оценивается более чем в $1,500,000+
/channel/neural_prosecco/745
The best entrepreneurs are artists who learned to monetize their obsessions.
Читать полностью…Бегом пробовать: /channel/HypeDateBot/app?startapp=_vibeai
Читать полностью…