By Alexey Moiseenkov about startups, AI, ML and consumer product building. Opinions are my own. Only about tech.
Помните Skype? Ну все, пока пока. Уходит эпоха.
Новость
8 центов за список файлов в моей папке, где я собирал всякие тестовые проекты по приколу с помощью Claude Code. Понял принял ls -la
Читать полностью…Одной строкой, новый релиз claude 3.7 - бегу тестить! Но так как это моя любимая модель была и до, а то есть в старой версии, надеюсь не подкачает! И нравится, что каждый релиз сопровождает понятная стратегия к чему ребята идут и даже сроки есть (в голове умножаем на 2-3). А верят они, что реальная автоматизация только через пару лет в сложных задачах (а как мы знаем все наши задачи сложные).
Читать полностью…Наш ждет замена джун разработчиков, нас ждет агент на агенте для всего и вся. Но как обычно в целом, пока все эти агенты мне кажутся практически бесполезными автономно и только хорошо помогают человеку с рутинными задачами. И подтверждении этого из OpenAI новая работа. Хотя конечно, результаты впечатляют. Надо будет попробовать так взять задач на аутсорсинг сайтов :) вдруг заработаем!
SWE-Lancer: Оценка возможностей современных LLM в реальной фриланс-разработке ПО. Такие вот дела! Взяли тучу задачек реальных с upwork (тут конечно же делаем скидку на качество и понимаем, что задачи внутри корпораций будут совсем другие по содержанию и сложности) и сделали бенч. Кто сколько заработает из текущих сеток.
TLDR:
1/ Claude рвет всех своих конкурентов и даже побеждает ризонинг сеточки о1 серии (ого, признали свое поражение, надеемся на лучшее)
2/ результаты прям очень далеки от идеальных и все сетки не справляются даже с половиной задач, хотя в менеджерской секции (прими/выбери правильное решение из готовых) все намного лучше, но все равно около половины только решено верно.
3/ фокус задач на полноценной фул стэк разработке кстати
Картиночки кто сколько из ляма баксов (успешное выполнение задач из бенча стоит на upwork условный миллион долларов) смог заработать.
Вообще говоря давно считаю, что формат резюме сломан сам по себе. И он не говорит о человеке почти ничего. О чем это я?
Так вот о том, что центральным пунктом в резюме обычно стоит название компании, где человек работал и время проведенное там. Описание успехов мы надеюсь все понимаем, что ничего не стоит, так как никто никогда не проверит и даже как проверить не ясно (ну разве что там хардскиллы связанные с этим). И все мол цепляются за условный Google, Meta, Stanford etc. Вся логика основана на «ну раз он прошел их отбор, значит топ специалист». Хотя их отбор набор шаблонных заданий на таком то масштабе как сейчас.
Я бы смотрел на другое. А именно на людей, с кем работал данный человек. Кто был его лидером или руководил командой, что этот человек сделал и с кем еще работал. Мне кажется фундамент обучения и прогресса зависит от людей вокруг. Поэтому всем, кто ищет роста - ищите не логотипы новых стартапов с фандингом, а людей с кем бы вы хотели работать. Именно люди формируют у вас понимание что такое успех и как его достичь, именно люди могут дать свободу воли и решений или забрать. Но никак не название или прибыль компании.
Мысли в текст с 80% точностью.
Кайф! Осталось немного :) ну лет 10, а то датчикам не хочу обвешиваться по самые не могу. Но выглядит конечно как магия.
Привет вашим агентам. Как дела?
Короче, я давно вещаю, все эти ваши контексты в миллион токенов и так далее фигня. Скажем так, чисто в теории мое ощущение что после 10к там драматически падает качество, ну и вот подтверждение подкатило.
А теперь эти «уникальные» данные/знания можно применить к агентам по продажам, агентам по чему угодно и подумать «когда же AI заменит человека на рабочем месте?». Как говорится, вашему агентскому стартапу на заметку.
Ого какие темы постит Anthropic. Не могу не поделиться.
Ребята выпустили исследование как же используется AI сейчас и каков его экономический вклад (хотя тут я не очень понял). Цифры крайне занимательные. Картиночки приложу.
Основные выводы:
- большая часть использования(36%) AI приходится на задачи связанные с technical documentation etc и software development (кто бы мог подумать, да?)
- небольшой скос в сторону именно не полной автоматизации, а так называемой аугументации задач, это когда вы проверяете или дополняете задачу с помощью AI (я думаю разрыв в сторону аугументации будет расти очень сильно)
- большая часть задач которые решаются категоризированы к профессиям среднего/высокого достатка. И практически ничего с самыми низкими и высоко оплачиваемыми ролями. Тут я считаю просто скос из-за аудитории, которая использует их Claude. Вряд ли дворники или CEO доверяют свои задачи AI. Пока что.
Крайне советую прочесть, дает много инсайтов как и по областям применения и того, что действительно может работать.
Я все так же считаю:
- полная автоматизация с помощью агентов будет очень нескоро даже простых задач (см как же быстро вошли в жизнь self driving cars)
- все больше применения будет в аугументации задач и улучшении результатов (а-ля инструмент помощи)
- агенты == зло, базовые автоматизации круть (отдельные блоки в процессах, latency, качество определенных решений - условно замена старой технологии на новую)
Воскресное. Что же читают партнеры одной из самых влиятельных и больших венчурных фирм A16Z.
Читать полностью…Ну вот же, вот же для рекламы надо делать ваш AI. Топ инструмент так то.
Будем пробовать «всего за косарь баксов в год» :)
Немного карьерных твистов или как после купонов основать компанию по созданию сверхзвуковой авиации. И вся история в этом твите.
Читать полностью…То что мертво, умереть не может. Это можно только продать и сделать новый холдинг LLVMH.
А так может слухи, но когда-то поднявший стартап французский под названием Mistral кажется находится в кризисе и думаю в каждой шутке доля шутки.
Немного мыслей про агентские системы типа Operator от OpenAI и похожая штука есть у Claude. Типа даешь таск и оно управляет браузером (мышкой водит и клавиатурой пользуется). Так вот мои три копейки:
1/ Честно говоря это какие-то public эксперименты, в текущем виде это продукт без будущего и явно outdated. Андрей Карпаты написал в тви что похожую тему они задумали еще в 2016-17 до так сказать прогресса в трансформерах значимого. Зачем вообще эмулировать поведение браузера если можно пользовать API или там скрипты или еще что-то и сделать это без визуальной составляющей которая явно все дико замедляет. Это все отсылка к проекту MCP. Который сделает весь этот визуальный мусор ненужным.
2/ Все еще для меня особняком стоит старая продуктовая проблема голосовых ассистентов (кстати как пользуетесь часто?). Большая часть задач ставится голосом/текстом сложнее чем через обычный интерфейс протапать или прокликать. Одним словом формулировка уже вызывает сложности, не говоря о том, что по пути изменения могут происходить и голосом этим всем управлять тяжеловато. Попробуйте представить процесс заказа пиццы на дом (допустим система знает где дом, вы начинаете выбирать где заказать, выбирать пиццу, ой а надо же глянуть цену, а может даже фотку или состав, ну короче это мы еще не пришли к тому что если доставить нужно не к двери, а внизу или вот специальные инструкции как зайти во двор). Другими словами графический интерфейс сильно упрощает взаимодействие с информацией и ее представление. Как сделать взаимодействие быстрее я пока не знаю. Идея встроить куда-то там LLM очень даже ок, но на данный момент и работает все ужасно и доверия нет.
3/ ну и все же с релизом китайской сетки Deepseek r1 все начали паниковать мол смотрите она же open source и все про нее более менее понятно, кроме того сколько ресурсов влили в обучение реально (если верить китайцам то они получили тоже самое что OpenAI только за «5-50м баксов» что конечно очень дешево). Тем не менее пользоваться все еще этим добром тяжело, я нахожу фактические ошибки в каждом втором запросе если он посложнее инструкций. Или вот возможность сходить в интернет вызывает вопросы. Оставлю в комменте скрины интересно ваше мнение.
TLDR: следим за областью, но агенты в текущем виде это просто эксперименты рисерч лаб.
Вчера вышла GPT 4.5. Накину пять копеек своих мыслей или не своих (тут сложно быть оригинальным).
По сути текущий подход к AGI задизайнили и никогда не смогут к нему прийти. Что у нас получается то. Новая версия по факту на 10% лучше, но стоила похоже в тренировке пример ярд баксов (1B USD!) судя по ценам на API. Наблюдается логарифмическое масштабирование: каждые 10х затрат дают лишь ~10-15% улучшения. GPT-7, которая превзошла бы GPT-4 так же, как GPT-4 превзошла GPT-2, стоила бы $100 триллионов — весь мировой ВВП.
Есть конечно всякие идеи про test time compute, мол вот же как еще можно сделать умнее, но в таком кейсе на каждый новый токен пришлось бы думать днями. Что выглядит как минимум не применимо в реальной жизни для реальных задач (человека нанять попроще). Да и стоимость дичь.
А к чему я веду. А к тому что действительно мы нащупали стену в прогрессе «Ума» больших моделей и возможностях трансформера. Осталось понять какая архитектура лучше справляется с задачами предсказания и так далее чем “attention is all you need”.
А вы как думаете?
Короче. Признаки контента на который надо смотреть критически и спросить себя три раза не булшит ли это:
- постоянные отсылки к авторитету (ссылки на известных людей типа CEO больших компаний, постоянные фамилии каких-то топ менеджеров)
- ноль фактуры, нет цифр, нет анализа, ничего, упоминаются идеи, сделки все что угодно, подробностей ноль, раскрытия смысла ноль (пример: «у меня была гениальная идея но ее сделали другие»), участников сделки нет, названия компаний нет, инвестора все упоминаются как «топ фонды»
- тебе постоянно пытаются «допродать» автора как супер специалиста, то есть автор доказывает что он крутой, знает, понимает, вместо того чтобы писать конкретные пункты или списки
- никто кроме самого автора не знает его, постоянно идет отсылки к комьюнити и прочему, но при малейшем вопросе «а познакомь» все превращается в продажу «поработай со мной»
- чувствуете что вам скоро начнут продавать платный консалтинг и да значит его начнут продавать
- выводы слишком «революционные», которые решат все ваши проблемы мигом, и вас постоянно спрашивают «а не хотите ли вы изменить свою жизнь/карьеру/зарплату?»
А у вас есть такие признаки? Что не нравится обычно?
Замечу следующий важный момент. Anthropic своим релизом делает вполне четкую ставку на кодинг. Ничего больше. Все остальные бенчи похожи даже не парились улучшать, а вот по SWE подняли сильно (это как раз про кодинг).
Все это говорит лишь о том, что я бы задумался по поводу других агентских систем и их в целом целесообразности. Так как все равно все зависят от базовой модели.
Так как я увлекаюсь квантовыми вычислениями и в целом квантовой механикой (не супер хардкорно к сожалению), то тут такая новость, что Microsoft сделали первый квантовый чип, который якобы позволит скейлится.
Для контекста:
- если это работает то это изобретение сравнимое по уровню с изобретением транзистора (мы все знаем к чему тразистор привел и вся наша комьютерная техника благодаря ему)
- это покруче чем ваш AI
Но надо смотреть конечно.
А помните такой AI Pin от бывших Apple ребят, инноваторов и отцов iPhone, которые работали с самим Стивом Джобсом. А вот все HP покупает за 116M (не ведитесь на сумму это скорее всего долги и бабки инвесторов) и великие становятся просто лидами департаментов, чтобы железки для конференц румов делать и принтеров. Кто бы мог подумать? (Да вообще то я не понимаю как на такое дали денег).
Читать полностью…Что там по product manager зарплатам в US, из Lenny Newsletter картиночки подкатили.
TLDR помимо всяких зарплат:
Продакты в Британии поднимают всего 65% от того, что зарабатывают американские ПМы, а европейские вообще довольствуются меньше чем половиной американской зарплаты.
Если хочешь стабильно рубить бабло по максимуму (читай как жизненная стабильность и предсказуемость с долгой дорогой) - топай в публичную компанию в топовом американском городе.
А если хочешь максимальный шанс апсайда - стартапы с фандингом твой выбор.
Вообщем как обычно стабильность или попытка быстро взлететь. Классика.
Короче говоря часто слышу следующие «гениальные посты от ведущих экспертов в области всего, что трендует». Мол ваши все ChatGPT это знаете ли ненадежно, он там никакие нормальные задачи не умеет выполнять. Помните даже два числа не мог сравнить. Или вот повторить за мной не может или там вычислить то, что может даже обычный калькулятор.
Ну вот как раз о калькуляторе речь и пойдет. Как примере технологии к которой мы привыкли и которую большая часть людей в принципе не понимает.
Так в чем же сложность. А сложность друзья мои в числах с плавающей запятой, те самые короче говоря не целые, что-то типа 0.1 или 0.2. Например вы знали, что операция сложения не ассоциативна в современных компьютерах. А именно, может получится, что:
0.1+(0.2+0.3) не равно (0.1+0.2)+0.3
Удалось попасть на закрытый ивент в Париже, где выступал CEO Anthropic - Dario Amodei. В целом он достаточно бегло пересказал свою статью в блоге последнюю, но дал отличный спойлер что ожидать от новой модели Anthropic. Попозже напишу как ивент закончится.
Читать полностью…Ну это одной строкой: Маск хочет там за почти 100 ярдов купить контроль над OpenAI и Франция так же в датацентры кладет почти 100 ярдов. Веселое время однако.
Читать полностью…Рубрика «прочитано, но не до конца понято». Поехали.
1/ тут DeepMind запустили в свет работу, возможно на первый взгляд не самую примечательную, но как мне кажется важную. Они поднимают вопрос «а какую систему вообще можно назвать агентской», а значит «применить reenforcement learning».
2/ Тот же DeepMind выложил труд «How to scale your model» о том как работает deep learning на уровне железа и передачи данных, каким образом происходит масштабирование мощностей на это все дело и эффективности вычислений. Просто must read для тех, кто хочет глубоко понимать а нафига тут датацентры и в чем фишка у DeepSeek.
3/ для хардкорных читателей, хотя блин и так один хардкор что-то выше, есть прекрасная статья о том как работает градиентный спуск и почему импульс в этой истории как концепт работает. Короче так на заметку. Потому что это поворотный момент в deep learning в целом.
4/ немного про китайскую экосистему технологических компаний
5/ для всех кто целиком пропустил и не понимает что за LLM - 200 страниц с нуля до конца (теория в основном)
6/ Андрей Карпаты 3 часа LLM для инженеров с нуля - рекомендую (практика в основном)
7/ редкое видео основателя musically (он же тикток в будущем) о росте, пользователях и так далее. Кладезь!
Давно хотел написать про такое понятие в мире продакт менеджеров современности как «культура оптимизации конверсий».
На самом деле для всех полезно. Часто когда общаюсь с лидерами продуктов или СЕО стартапов (а они обычно лидят продукт) встречаю такой нарратив:
- мы тут опросили или узнали что в этой воронке вот столько шагов
- и все что пытаются сделать это повысить конверсию в каком-то шаге причем в лоб через фичи (новые кнопки, данные и так далее)
И вот на этом порочном круге придумай новую фишку проходят годы. Годами ваш продукт тормозит, но вы все еще придумываете новые фишки, кнопки, картинки чтобы увеличить конверсию. Все это тянется со знаменитой истории Марисы Майер (первый продакт менеджер Google или почти первый), которая перебрала 7000 оттенков синего, чтобы выбрать какой же все-таки цвет конвертит в выдаче в клик лучше. И вот далее эта логика есть «база» для каждого, кто строит свой проект.
Но многие забывают, что некоторые части достаточно просто ускорить. Например бронирования в booking.com случаются на 30% выше (цифры с потолка дискуссий с разными людьми, не придирайтесь) если сайт загружается менее чем за 300мс. И самый любимый мой пример это биддинг (аукцион за какую рекламу показать) на устройстве. В 16-17 году Facebook и другие DSP/SSP (реклама продают/поставляют) сделали так, что задержка на показ рекламы пользователю снизилась с 800мс до 200мс в среднем, что дало возможность показывать видео рекламу и более того загружать ее на устройство пользователя заранее (ведь мы торгуем за показ прям в приложении и не ждем сервера). Эта штука в первый год своего существования дала более 5 ярдов выручки (а маржа в рекламке 40% обычно) в первый год только в Facebook.
Это я к чему. Смотрите на ваши проблемы шире, думайте что действительно важно, а что нет. И что люди любят муки выбора и не надо их сокращать, можно сделать их доступнее или быстрее.
Рекомендации в новый батч YC этой весной. Смотрим что там свежее. Ну все еще инфра и теперь уже агенты, которые будут прям полностью заменять людей на их рабочих местах, какой там co-pilot.
Читать полностью…Для все еще интересующихся ценой обучения модели, CEO Anthropic выдал эссе с элементами политики (и тут AI напоминает гонку вооружений уже).
Из интересных моментов, которые он подчеркнул что модели которые рассуждают всегда основаны на базовой модели и ее качестве. То есть все эти рассуждения как бы следствие того, что у тебя получилось до этого в виде базы (база просто тренируется выдавать ответ на вопрос, такой очень умный автокомплит/заканчиватель предложения как я люблю говорить). Так же он сказал что их модель передовая была сделана примерно за несколько десятков миллионов (думаю 25-30).
Вообщем рекомендую к прочтению для понимания рынка AI. Так как эта технология будет везде, в любом бизнесе рано или поздно.
Хотел добавить важные пять копеек про вот этих ребят на первой строчке US AppStore. Это пока на моей памяти единственный пример где проведены абсолютно все оптимизации вертикально начиная с математики заканчивая железом. По сути архитектура решения в вычислительном дата центре подобрана под конкретную сетку и ее обучение. Добро пожаловать к ребятам из high frequency trading. Почитать внимательно можно тут.
Добавлю: для сравнения это как Apple в мире consumer устройств. По сути все начиная с железа, процессоров, софта, операционной системы сделано одной компанией. Я уверен китайцы держат такую же логику и как показывает практика это всегда самый сильный продукт.
Наткнулся на компанию Unitree из Китая, компании 8 лет и она единорог, делают роботов прям прикольных.
Стоит такой кажется 1600 баксов. Более того у них есть специальный open source проект для имитационного обучения. Кайф.