5546
Искусственный интеллект. Управление проектами. Промптинг. Vibe coding
Поделюсь очередной полезной практикой работы с ИИ в разработке.
Сейчас я чаще применяю Gradio для интерфейсов чатов ИИ ассистентов, т.к. он под это и заточен. Однако в какой-то момент я заметил странный "массовый глюк ИИ" как раз в программировании чата. Gemini 3 и запутался, задачу со скрипом решил Claude Opus. Именно в такие моменты срабатывают "ошибки выжившего", когда получив результат разработчик решает "Claude Code лучше" или "Opus лучше". Однако при этом нет разбора что же произошло и почему тривиальная задача стала сложной для LLM. Попытка бегать за "ИИ фетишами" брендов - довольно наивный подход.
После внимательного сканирования чатов, я понял причину довольно своеобразной галлюцинации LLM на фреймфорках, которая была и Opus в том числе, просто поменьше. Если версии фрейморка меняются слишком динамично, то возникает эффект "усреднения API у ИИ". Ведь какой-то пометки под какую версию фреймворков этот код у LLM на том же FIM нет. В результате получается "интересная" галлюцинация LLM, когда разные версии фреймворков сливаются в один фантомный "средний фреймворк".
Вылечить это можно, но не ИИ фетишизмом, а методиками. Сила LLM в том, что если он увидит уже рабочий код в контексте, то сработает ICL и LLM и вместо фантомного среднего фреймворка сразу произойдет настройка на конкретный код.
Однако тут есть важные детали. Разрекламированный Context 7 или даже примеры из Web-поиска на деле не сбивают галлюцинации у LLM, т.к. оторванные от контекста задачи, поэтому все ИИ склонны игнорировать примеры сниппетов и снова галлюцинировать в свой "средний фреймворк".
Разбить этот порочный круг можно технологическим прототипом. Если ситуация совсем тупиковая, то можно взять самому какой-то пример рабочего кода, дать его ИИ и сказать убрать лишнее и собрать вроде Micro MVP под задачу. Поскольку это уже контекстное решение связанное с задачей пользователя, что ICL сразу же резко смещается на паттерны из примера.
А далее проблема считайте решена - просто склонность GPT повторять что-то приведет к тому, что он начнет просто тиражировать правильный синтаксис все больше укрепляясь в нем. Другие сессии ИИ, считав такой код, также получат огромные few shots как делать правильно.
Но самое тут сложное столкнуть ИИ в начале на верную дорогу. Инсайт тут в том, что документация с ИИ может не сработать, а вот прототип по аналогии с рабочим примером позволяет решить проблему.
Такой прототип как раз у меня на скришоте, после него ИИ уже смог сделать нужный мне UI, а сам прототип ушел в архив как музейный экспонат. Однако все попытки сходу сделать решение были безуспешными из-за сильной галлюцинации "среднего фреймворка".
Для интереса потестил "Зайку" на сложные философские темы, а также специально делал политические провокации, чтобы посмотреть как GLM 4.7 будет реагировать.
Надо сказать, что для модели всего на 358B весов просто впечатляющее понимание сложных абстрактных концепций.
Это показывает, что Reinforcement Learning стал намного важнее просто огромного размера весов моделей, как американцы пытаются делать.
По политике КНР ответы GLM 4.7 и более корректные чем у Gemini и на удивление "скрепные", т.е. не противоречат политике КПК. Правда местами ответы "коммунистического ИИ" могут и шокировать прямолинейностью и даже немного цинизмом. Однако они правильные по сути.
Рейтинг Арены по моделям с открытыми весами на 1 января.
Отмечу, что GLM ещё довольно компактная и ее запускает Cerebras на своих тарелках под 2000 токенов в сек, но ценник конский. Хотя если вам нужна скорость, то "за ценой не постоим"
Только один завод Tesla в Неваде сегодня отпраздновал выпуск 6.000.000 единиц машин Tesla за время работы.
Однако это не просто машины - это по факту уже почти автономные роботы, как и гуманоиды. Вопрос обновления ПО.
Очень вероятно, что мы ждём роботов в форме гуманоидов, а скорее вы встретите робота на ИИ как автономная машина.
Ну и конечно 2025 год - год диффузионных трансформеров (DiT).
Стала доступна точная деловая графика и точные схемы устройств через тот же Gemini 3 Image (Nanobanana Pro).
В 2026 вероятно намного более доступными станут DiT-модели для генерации видео. Как минимум разные вендоры как ImagineArt уже готовятся получить большие прибыли.
Думаю на их ролике, мы и остановимся в обзоре трендов ИИ😎
Всех с Новым Годом!
Один из провальных прогнозов 2025 года - "Пузырь ИИ". Вместо этого наблюдался беспрецедентный рост прибыли Nvidia.
Читать полностью…
В 2025 году продолжился тренд на обвал цен на инференс LLM. Хотя часть "халяв" как у Google оказалась подрезана. Однако работая в SOTA-моделях как Gemini 3 Flash целый день не является удивительным счет в $2
Читать полностью…
Nvidia продолжает демонстрировать беспрецедентный рост мощности своих GPU, за 8 лет мощность GPU от вендора выросла в 225 раз.
В 2025 году активно внедрялось квантирование NVFP4, которое сократило требование к памяти в 4 раза и ускорило еще GPU в 3 раза.
Думаю можно подводить итоги 2025 года и оценивать куда мы движемся.
В 2022 году основу обучения GPT составлял обычный base почти на сырых данных из Интернет. Потом делалась легка полировка Reinforcement Learning по отзывам от людей. Ответы оценивались по одному (PPO).
В 2023 году внедряется SFT как обучение уже по парам "проблема=>ответ", также активно внедряется LoRa для адаптации моделей под стиль текста или картинок.
В 2024 году более массивно работают в части SFT, делаются все более сложные пары вопрос-ответ. Делается их сложная селекция по лучшим.
2025 год был массированным переходом на Reinforcement Learning без участия людей по ответу модели-критика (RVLR). Ответы уже оцениваются группами (GRPO). Это была революция начатая DeepSeek R1, потом все остальные вендоры также резко смещают инвестиции в сторону RL обучения, где в фокусе SWE Bench - тест на фикс багов софта.
В результате в 2025 году мы получили LLM, которые могут взять на себя самую трудоемкую часть разработки ПО - тестирование и багфикс.
К очередным холиварам в чате о "скрытой магии" ИИ агентов программирования. Я думаю, что в 2026 году все же разработчики начнут хотя бы с ИИ читать системные промпты агентов и им станет понятно насколько примитивное ПО тот же Claude Code, Cursor или Kilo Code, а также что на 95% успех зависит от типа LLM и фреймворка промптов разработичика. Если у кого-то что-то зависит сильно от агента, то это сразу четкий маркер чайника даже без свистка. Просто LLM в своем решении проблемы зависит ТОЛЬКО от контекста у нее, а не от агента. Удивительно, не правда ли? В реале контекст набирается просто инструментом read_file без всякого "очень хитрого колдунства". Профессионал от чайника тут отличается в том, что просто управляет сам порядком считывания LLM стартового контекста и работает над качеством этого контекста. Побойтесь Бога, что тут от read_file что-то зависит.
Тут любопытный момент еще почему в агентах считается дурным тоном у профессионалов "чайник-тесты". Если посмотрите тесты LLM, то там жесткий запрет дилетантам тестировать ИИ, а очень формальные тесты агентов как SWE Bench или TAU-тесты. Просто тестировать LLM с агентами - это требует профессиональных знаний и чайник просто сделает некорректное тестирование.
"Чайник тесты" бывают как личные (#уменяработает), так и как эти самые разные тесты дилетантов разбросанные по Интернет. На самом деле они показывают эффекты агентов программирования больше СЛУЧАЙНЫЕ, если разработчик не управляет агентом, то LLM на деле не от агента танцует, там инструментов-то основных ей дали 10 штук от силы, а танцует от специального обучения "спасаем чайника". Anthropic тут абсолютный лидер, т.к. Дарио понимает, что управлять Claude может необученный персонал, поэтому специально ведет его обучение как работать и в хаосе, отсюда и проактивность ненужная у Claude часто.
Однако даже если вы чайник, то скорее вам не агент поможет, а именно Claude, т.к. обучен работать под управлением чайников.
Но я бы еще раз отметил, что крайне опасная тема делать или читать непрофессиональные тесты, а потом применять их в профессиональной деятельности. Разработчик теста даже должен не на серьезной конференции по ИИ доказать, что его тест валиден. Этого уже мало. Должны вендоры как Anthropic, Open AI, Google и xAI признать тест. Ровно так и произошло с SWE Bench Verified или TAU-тестами.
Непрофессиональное тестирование LLM и агентов - верный путь ввести себя в опасное заблуждение.
https://research.aimultiple.com/ai-coding-benchmark/
Продолжим описание проверенных сервисов для оплаты западных LLM и различные халявы.
Наш бесценный чатик сообщил, что для 3D Secure, что требует Google для Billing Account, есть @zarub_robot
В случае сервиса Zarub важный плюс это рабочий 3D Secure "без SMS и регистрации". :) Они очень грамотно делают вам отсылку сообщения для верификации просто в чат бота Телеграм. Это и безопасная карта. Правда выпуск стоит $8 и пополнения на сам баланс через TON с комиссией от 1 TON, поэтому для мелких платежей она большая.
Однако евровая VISA в полной функциональности. И что очень важно там нет идентификации. Всякие проблемы с P2P платежами как раз из-за идентификаций и происходят, т.к. так банки узнают кто вы есть и могут какие-то пакости делать.
В случае Google, там сейчас даже не открывают Free Tier для новых эккаунтов. Однако, если указать карту, то вам активируют бонус на $300 на ИИ на 3 месяца.
Некоторые коллеги у нас в чате так раз в 3 месяца за $300 баксов к Google и ходят как за пенсией 🤣
Но строго говоря, без платежных эккаунтов API от Google похоже сыграло в ящик и годится сейчас больше для коротких тестов работоспособности. Ну очень коротких.
Довольно интересная статья, которая показывает уровень качества современных LLM для разработки.
В статье показывается, что после перехода от копилотов на полные агенты количество слияний веток кода в "релиз" (merged PR) увеличивается на 39%. Однако не наблюдается при этом количество роста багов.
Иными словами, скорость итераций в терминах доступности клиенту очередной версии конечного ПО выросла от ИИ почти на 40%, но качество при этом не упало.
Помнится еще год назад ходила куча мемов про ИИ: типа ИИ пишет код за 1 час и я 5 часов отлаживаю, с современными Debug моделями, где отладка вообще считается для ИИ низквалифицированной работой, можно уже над старыми мемами посмеятся.
Ручное программирование умирает быстрее, чем кажется.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5713646
Сейчас провожу большие тесты разных LLM класса free и дешевых/быстрых, т.к. довольно очевидно, что в 2026 году будет отладку точно делать более легкая ИИ, чем архитектор.
На скрине потребление LLM в разных режимах Kilo Code у разработчиков, обратите внимание как в Debug резко падает доля Claude. Поскольку это одни и те же разработчики, то видно, что "Claude или смерть" - это больше Телеграм-реальность. Даже его пользователи в Debug обычно меняют УЖЕ на другую LLM побыстрее и подешевле.
Я бы еще сказал, что нужно осторожнее выборе LLM для Debug с тестами как SWE Bench и рейтингами как Web Dev Arena. Дело в том, что они ориентированы на интеллект LLM, но не покрывают важнейший момент как НАДЕЖНОСТЬ.
На скрине доли LLM по использованию Kilo Code в разных режимах и Grok Code Fast там не просто так лидирует. Да, он не самый умный. Однако он не только быстрый, но и НАДЕЖНЫЙ. Как минимум с опытом понятно как им управлять и эффект предсказуемый. Если брать тот же Minimax или KAT Coder, то они умнее, но могут, к примеру, зациклится в сессии. Тут хорошо еще Kilo Code имеет защиту от зацикливания ИИ, но не у всех агентов такое даже есть.
Если брать GLM обеих версий, его доля в Kilo Code в сумме не сильно ниже Grok Code Fast, но вообще-то GLM уже платный в Kilo Code.
GLM не такой медленный, я посмотрел их статистику инференса - около 50-70 токенов в сек. Это нормальный результат, просто мы уже избалованные новым поколением Fast LLM, которые шпарят под 100-200 токенов в сек. В этом плане, я думаю, что Grok Code Fast даже при наличии GLM с повестки не стоит снимать. Возможно баги лучше править GLM, но всякое тестирование или администрирование просто быстрее будет через Grok.
Прошел я тоже квест с получением виртуальной карты и подключил себе "зайку" GLM 4.7 в Kilo Code. Все же за менее чем $3 в месяц получить LLM класса Gemini и Claude для разработки привлекательная сделка. Даже с учетом лимитов на вызовы и в целом неспешную скорость генерации, но для быстрой ерунды можно подключить и free модель.
Оплатить такой картой можно и другие LLM.
Поясню как делается. Я выбрал EMCD по причине того, что там нет комиссии за выпуск и обслуживание карты. Вторая причина, что они работают с TON у Дурова. TON очень выгодный при разных конвертациях и передачах, т.к. низкие комиссии и передаются быстро. Если у вас криптокошелек Телеграм, то TON важный бонус к биткойну. Можно пополнить и рублями через их P2P сервис, но большинство продавцов крипты по хорошему курсу там просят карту Т-Банка.
Аутентификацию можно пройти и по обычном паспорту РФ и по заграннику. Если тормозит идентификация, то пишите им в поддержку на support@emcd.io, она на удивление здорово работает - ответ по делу в течении 5 минут.
Карту открывайте из мобильного приложения, в браузере есть баг - просят телефон для привязки к карте, а телефоны РФ заблокированные санкциями. Выпускайте карту без телефона. Естественно, не храните на ней после оплат существенных сумм, т.к. с нее можно снять деньги просто по реквизитам, т.к. без телефона нет SMS подтверждений операциям.
Спасибо коллегам в чате за наводку на сервис, все наш чатик бесценный актив в ИИ теме по самым разным вопросам.
https://emcd.io/
Google по факту начал сворачивать Free Tier через API. Только что были сокращены лимиты на Gemini 2.5 Flash на 92%, на деле для Gemini 2.0 Flash также уже. Отключен Gemini 2.5/3 Pro.
По факту работает Flash Lite. При подключении через CLI лимиты побольше, также работает AI Studio, пока.
Но довольно очевидно, что уже стоит думать о покупке LLM, т.к. у Google сейчас нет проблем с клиентами на ИИ, которые платят, поэтому замануха ему явно меньше уже нужна.
Для интереса посмотрел новогоднее поздравление Си Цзиньпина.
Си перечисляет успехи КНР за прошлый год, в том числе новый авианосец, разные проведенные праздники. Разительно с нашей практикой, что он не отрицает коррупцию во власти и будет далее казнить коррупционеров.
Однако интересно, что больше чем авианосцу он посвятил времени тому, что Искусственный интеллект - стратегическое развитие Китая. Отдельно Си заявил о необходимости приступить к внедрению гуманодов на ИИ, пока остальной мир отстаёт от Китая. Си указал на стратегическую цель Китая создать свои GPU.
На деле это не просто слова. Хорошо известно, что Си периодически встречается с командами Qwen, DeepSeek и Huawei.
https://youtu.be/Zf61kqJN46w?si=h_ER2hzdmovL1-UY
Думаю можно в комментариях обсудить биллинг Google, который в чем-то "игра в наперстки". Конечно Gemini 3 Flash весьма дешевый для SOTA-модели. Но вопрос еще в том, что если вы активировали платежный эккаунт Google, то не только получили $300 стартового бонуса, но и стали участником "Поле чудес" в духе "я тебе отгружу бесплатно часть вызовов API, попробуй угадать как!"
Строго говоря, принцип Free Tier First не только для Gemini API, но и для всего Google Cloud. Если вы делаете запросы в лимитах Free Tier, то они не тарифицируются, а выставление счетов начнет с момента как вы превысите Free Tier, а тут и начинается самое интересное.
Если вы работаете с агентом создания кода, то вы просто превысите лимит Free Tier банально через число вызов в минуту, но если ставить паузы на вызовы или сам Gemini тормозит с ответом, то банкет за счет Google.
Тем не менее, в этих хитростях Google хотелось бы разобраться. Делимся впечатлениями в комментариях.
PS. Google запустил ассистента своего Google Cloud, он позволяет делать навигацию по куче сервисов и условий использования у вендора.
На диаграмме активация терминалов Starlink по всему миру. Сейчас уже почти 9 миллионов устройств, но поскольку спутники Маска могут работать и на обычный смартфон фокусируя луч, то общее количество абонентов скорее уже десятки миллионов из-за роуминговых соглашений Маска.
Для автономных роботов на ИИ это важная инфраструктура, т.к. скорее всего роботами дешевле управлять из облака для сложных задач. Их встроенные нейросети для простых действий.
Хотя чаще роботы могут подключаться через какой WiFi, но может быть локальный сбой сети и для машин с ИИ загородом это ненадежно.
Видно как формируется новая инфраструктура для решений следующего поколения.
ЦОД в Мефисе, где обучается Grok.
Хорошая иллюстрация, что тайком крупный ЦОД для LLM не собрать в принципе.
Всего у Маска их три
Все кто поверили алармистам насчет "пузыря ИИ" и продали акции ИИ компаний, сейчас кусают локти, т.к. потеряли огромные деньги.
ИИ компании заканчивают год невероятной капитализацией и прибылью.
Nvidia сейчас по капитализации больше, чем ВВП России целиком.
Еще один тренд 2025 года сокращение разрыва между LLM. Если год начался крупными разрывами по тестам моделей между собой, поэтому оправдана была стратегия на "элитные модели", то в конце года все топовые вендоры резко сблизились по результатам. Конкуренция их выросла невероятно.
Правда при этом "второй эшелон LLM" по факту был вытеснен с рынка примерно 10 лидерами и живет больше за счет административного ресурса.
В 2025 году китайские вендоры вышли на SOTA-уровень. Революция начатая DeepSeek потом превратилась в крайне удачные модели Qwen и GLM.
Китайские вендоры активно сделали международную экспансию. В том числе в России заняли примерно 70% рынка по SimilarWeb.
Если в 2024 году китайцы были догоняющими, то в 2025 году на равных конкурируют с передовыми моделями из США.
В 2025 год из-за внедрения уже взрослого RL-обучения становится годом "ИИ агентов". Обычный SFT не может научить LLM работать как агент эффективно, а RL открыл доступ даже к мношаговым действиям LLM, особенно с PRM технологией.
В результате в 2025 году мы увидели скорее новое поколение AI Agentic LLM, которые уже имели массированное обучение не просто отвечать в чатике, а делать много последовательных действий с инструментами (Tools) автономно.
2025 год - год ИИ агентов. Соответственно инженеры в ИИ разделились на тех кто уже управляет готовыми LLM как агентами с кучей специальных скиллов для этого, а также инженеров по обучению LLM нового поколения, которые делают уже крайне сложные агентские среды обучения.
Не все вероятно поняли, что в 2025 году произошел революционный скачок в технологии LLM, что и привело к тому, что ИИ начали год умея программировать автономно отвратительно, а заканчивают год реальными конкурентами программистам.
Думаю будет не лишним еще раз повторить откуда берется разница между Claude Code и Kilo Code или Cursor в результатах.
Если даже многими почитаемый Claude Opus загрузить системные промпты агентов, то как видите он пренебрежительного мнения о том, что есть зависимость от агента, а скорее есть зависимость от управления им со стороны пользователя.
Самый важная настройка вашего агента в реале крутится явно или неявно вокруг "бюджета токенов" на решение проблемы. В случае Claude Code прямо агенту не то что разрешается выходить за рамки бюджета, а также требуют от него тратить токены как сумасшедший читая файлы лишь по "подозрению на полезность". Для Kilo Code, где часто люди платят за LLM за свои, а не из кармана "доброго дяди", там жесткие политики по защите от перерасхода токенов даже на уровне инструментов (не более 5 файлов, обрезание длинных файлов, см. настройки).
В реальности методика "читаем все" как в Claude Code эффективна только для чайника, т.к. не имеющие отношения к задаче модули, документация и логи просто замусоривают контекст LLM информационным шумом. Намного более эффективное ручное управление агентом по формированию контекста.
Best practice у профессионалов - это обычно сначала загрузка графа приложения LLM себе в контекст. После чего у модели сразу же overview и архитектуры и сценариев эксплутации и что дальше имеет смысл читать. Скорее всего LLM тогда считает всего 1-3 модуля по проблеме и все. Качество ответа и Claude и Gemini резко увеличится относительно "хлам чтения всего подряд". Не говоря уже о том, что это дешевле в токенах этак в 5-10 раз.
Полагаться на метание модели по кодовой базе - очень плохая практика. Тесты по плохим практикам не делают их хорошим. Это как лидеры на соревновании двоечников.
Сделал вам по Open Router табличку СКОРОСТНЫХ кандидатов на ИИ-разработки кода.
На деле если посмотреть в реальную статистику, а не цифры "Обещалкиных", то самые быстрые Gemini 3 Flash, Grok Code Fast, GLM 4.5 и примерно на уровне последнего Sonnet.
В случае пользователей Claude применение Debug модели, что мы видим уже как массовое явление на примере Kilo Code, осмысленно и по цене и скорости. Sonnet и дороже в 10 раз того же Grok, но и медленней в 2 раза.
Однако в случае использования Gemini 3 Flash для разработки аргумент цены и скорости уже не такой явный. Он такой же быстрый как и Grok Code Fast, но тот же GLM, если через API, стоит где-то на 25% дешевле всего. Однако тут еще стоит отметить, что для платных пользователей Google в реале правило "Free Tier First", т.е. они платят после исчерпания его лимитов. В этом плане GLM 4.7 стоит примерно одинаково с Gemini 3 Flash, если без "акций".
Через Lite за 3 бакса скорость у GLM не проседает, но проседает latency на ответ и заметно.
Для пользователя Gemini 3 Flash скорее более интересный Grok Code Fast для всяких вспомогательных действий типа тестирования и сбора контекста. GLM 4.7 ему может быть интересен, чтобы держать в лимитах Google иногда при фиксах.
Новая реальность стартаперов в эпоху ИИ. Два мужика сидя на кухне дома пишут софт, которым пользуются 750.000 разработчиков, а также на кухню каждому из них инвесторы привезли недавно по $4 миллиона долларов. 🤣
Времена когда Цукенберг выходил к инвесторам в халате и банных тапках возвращаются. Вспомним еще недавнее шоу с CEO Palantir под коксом на интервью
Немного еще интересный тренд по статистике Kilo Code. Она прямо показывает, что большинство разработчиков уже поддерживают мой тезис, что идиотская идея такая "ИИ-Архитектор сделал ТЗ, а ИИ-кодер по нему код".
Это совершенно НАИВНАЯ проекция организации разработки людей на ИИ. Для начала никакой экономии на генерации кода нет, т.к. в норме ИИ тратит под 90% токенов на общение с вами и анализ ситуации, а только 10% на генерацию кода.
Однако если Debug LLM передать уже готовый код, а не ТЗ, то будет скачок качества. Для начала у Архитектора LLM есть не только ТЗ, но и контекст чата с вами, а там много чего, чего он в ТЗ не записал. Потом Архитектор генерирует образцовый код, который для Кодер-модели становится few shots.
Тут отчасти даже многие пользователи Claude недооценивают способность более дешевых LLM работать в "Claude Style", если видят код созданный Claude. Просто для них это few shots, также они считывая код подают в близкое к нему векторное состояние, если читаю без идиотских RAG-чанков. Это по факту в чем-то процесс напоминающий дистилляцию от учителя (Claude) к ученику (Debug LLM).
Практики все это уже поняли и их агитировать за советскую власть не нужно. Реально они меняют Claude на Coder-модели не после ТЗ, а после генерации кода.
В этом плане намного важнее как раз применение семантических разметок кода и контрактного программирования как я в GRACE делаю, т.к. точка передачи контекста между LLM идет не через артефакты типа ТЗ, а через КОД и он должен быть семантически полным, чтобы другой LLM восстановил весь контекст по теме просто считав код.
Продолжим тему насчет оплат за LLM в условиях санкций. Коллеги в нашем чате верно указали, что на OZON сейчас есть важная халява как продажа карт Active.
Почему халява? Дело в том, что операторы виртуальных SIM, типа onlinesim.io, крайне неохотно сдают даже в короткую аренду SIM, т.к. им это невыгодно. Даже по 50 центов за SMS подтверждения они соберут за неделю обычно больше $70, которые просят всего за неделю аренды СИМки.
Можно указать потом казахстанский телефонный номер для привязки к карте. Коллеги из чата потом выпускали карту через Bybit.com. Но тут все не так просто уже, т.к. у меня при регистрации Bybit потребовал IP из Казахстана и казахстанский паспорт 😎
В основном 3D Secure нужен для оплаты Google. Сейчас у них Free Tier все больше поджимают, но за открытие платежного эккаунта они на нем расширяют лимиты и дают $300 на 3 месяца. Кто как платил за Google напрямую, делимся в комментах.
Однако для логинов и карт вам казахстанская SIM потребуется.
Как в фильме про Панфиловцев: "теперь все будем казахами".
https://www.ozon.ru/product/sim-karta-kazahstanskogo-operatora-activ-v-originalnoy-upakovke-1788783144/?at=z6tOoL1v3cXPROJpuRZpKzAuj5ExYyIyJv4p9svqAxrD&tab=questions
По теме как платить за LLM в условиях санкций. Рейтинг и сводная таблица всех сервисов.
Процесс еще усложнился, т.к. чиновники в РФ усложнили процесс "идентификацией", которая реально часто зависает.
https://exnode.ru/virtual-cards
Продолжаю наслаждаться хаком RL-обучения под SWE Bench.
Прям хочется Ломоносова цитировать:
«Открылась бездна звезд полна;
Звездам числа нет, бездне дна»
Просто как черти из табакерки у разных LLM стали выпрыгивать их эвристики фисков багов и обслуживания ПО, с помощью которых они реально и набивают свои очки SWE Bench, но это имеет просто фиолетовое отношение к тому, что делают разработчики.
Я уже завел две папочки агентам как service_scripts и test, это все можно вообще удалять когда заработает.
В чем тут фишка. Сейчас вы видите на деле ОДНУ итерацию агента по фиксу сложного бага, но крайне любопытно как LLM обучали на RL делать фиксы через песочницы.
На самом деле это НЕ ОДНА песочничница, а LLM строит "вереницу доказательств", т.е. RL обучение давало награду за "докажи, что это работает!". Поэтому LLM начинает делать тестовые скрипты постепенно усложняя до рабочего варианта код.
Но это еще не все! Очень многие баги же связаны с деплоем и неверной конфигурацией среды, тут на SWE Bench агентов учили админить ее. Именно для этого я и ввел сервисные скрипты.
В данном случае это Minimax M2, который бесплатный в Kilo Code, но я специально все это закачал в Gemini 3 на анализ.
Анализ еще показал, что для фикса багов очень важно LLM быть мультимодальной и в контексте иметь скриншот, если фиксы делаются для UI. Тут отчасти "слепая модель" столкнулась с тем, что ей сложно фиксить UI не видя как это выглядит.
Однако сама цепочка тестирования и настроек корректна по логике для контекста LLM.
Довольно очевидно, что этим нужно как-то управлять и тут открылись совсем нового уровня возможности LLM в отладке.
Рекомендую всем также поставить сходные эксперименты и поделится в комментах.