14057
Head of AI redmadrobot.com From IT Admin to Head of AI in 5 years Applied AI Engineer B2C RAG (2M+ books) B2B RAG platform (10+ implementations) B2C gptdaisy.com (100k MAU) github.com/vakovalskii | chat @neuraldeepchat To infinity... and beyond!
С большой GPU большая ответственность
Разберем стек
vLLM + LiteLLM + Codex CLI
Часть первая, когда у вас много GPU серверов под LLM инференс, а у меня часть в одном офисе, часть в колокейшене (когда арендуешь стойку в датацентре под свое железо, не AWS) и нужно все же понять как сделать одно API окно сверху всего этого, привет https://hub.neuraldeep.ru/ и все наши эксперименты выше =)
В целом это проблема любой связки vLLM + LiteLLM даже если вы заводите это внутри компании, не на продажу
У меня заняло неделю по вечерам найти, и решить проблемы, пройдусь по пунктам чтобы вам было быстрее
Вы так же найдете те же проблема на GitHub vLLM висят открытые issues с января-апреля 2026
#33089 (multi-turn Responses API),
#39426 (tool-aggregation protocol drift) десятки людей жалуются на одно и то же, апстрим месяцами не закрывает
Боль набер ван роутинг
LiteLLM по дефолту simple-shuffle или следующий кандидат latency-based routing
Звучит умно выбирает самый быстрый сервер или рандомим
По факту на двух одинаковых инстансах LLM с GPU он залипает на winner-сервер навсегда, второй простаивает в ноль, курит за деньги вашей компании
Включить round-robin?
Нельзя
Round-robin для multi-turn агент loop убивает кеш на каждом turn'е попадаешь на другой сервер история пере-prefillится с нуля +5-10s к ответу, песня да?
Нужен sticky session (один user всегда на одном сервере) + балансировка между разными user'ами
Из коробки в LiteLLM такого нет, оно как бы есть но его как бы нет 💀
Решение простое как две копейки главное на него выйти сразу, "custom routing strategy"
180 строк кода
Внутри consistent-hash md5 от api_key_alias, один user всегда на одном сервере
Разные user'ы, разные сервера через равномерное распределение хеша, что делать когда будет требоваться масштабирование дальше? Расскажу в следующих сериях
Сервер в колокейшене ожил (ура) и по логам есть кеш!
Боль набер два кеш умирает без sticky решается первым пунктом и сильно связан с роутингом, но дальше сложнее
Боль 3 Codex CLI шлет нестандартные tool types
Я хочу использовать Codex CLI как агентный харнес в своих экспериментах, с qwen3.6 все просто фиксим протокол и поехали, с gpt oss 120b чуть сложнее так как там что? Правильно harmony =)
Codex CLI отправляет в запрос tools которые vLLM не понимает custom, image_generation, namespace
vLLM на это шлет вам 400 tool type custom not supported, вы оптекаете и думаете что с этим делать
Codex падает на старте, до первой генерации
Лезу в исходники vLLM есть файл harmony_utils.py (harmony это внутренний формат сообщений для gpt-oss моделей, как ChatML для других)
Там whitelist tool types web_search_preview, code_interpreter, container, function
Все
Никаких custom или image_generation 😳
Решение в лоб, bind-mount (монтируете файл с хоста поверх файла в контейнере, апстрим не трогаете) с пропатченным harmony_utils.py
Расширил whitelist на custom, web_search, file_search, image_generation, local_shell, apply_patch, mcp_*
После этого Codex реально начинает работать делает git rev-parse, читает файлы, пишет код
Боль набер 4 Responses API строгая валидация
Responses API это новый OpenAI endpoint /v1/responses (на смену /v1/chat/completions)
С server-side state через previous_response_id
Codex с ним и работает (completions дипрекейтнули еще 2-3 месяца назад)
На каждом turn'е шлет previous_response_id + полный input[] с историей
В истории assistant-айтемы которые vLLM ранее сам сгенерировал
У них нет полей id, status="completed", annotations=[]
По OpenAI-схеме это required-поля
vLLM строгая Pydantic-валидация запрос делает что?
Правильно отлетает
Codex в ступоре
Вы тоже
Решение тот же подход bind-mount пропатченных Pydantic-моделей делаем поля optional с дефолтами
Итого
Кодинг агенты помогли собрать все это в кучу, и локализовать проблемы, да не так элегантно но работает!
Базовый вывод это легко находится через Codex/Claude Code главное тесты и что бы вы понимали что делаете
Все это решилось так же через подробные логи на всех сторонах систем
Затестить все это можно тут https://hub.neuraldeep.ru/docs#agents
Расширение каталога на Hub NeuralDeep
Сегодня вместе с Валерием (@neuraldeep) добавили новых моделей в публичной API проекта NeuralDeep. Базовый URL для запросов api.neuraldeep.ru (OpenAI-совместимо, Bearer с ключом). Ключ можно полчить после регистрации на hub.neuraldeep.ru.
Итого:
- LLM'ки - из коробки через апишку доступны две флагманские модельки gpt-oss-120b и qwen3.6-35b-a3b, их можно крутить в кодовых агентах и чатботах.
- Эмбеддинги - в дополнение к bge-m3 и e5-large добавили русскоязычную frida, мультимодальную jina-embeddings-v4 и толстушку qwen3-embedding-4b.
- Реранкеры - уже была bge-reranker для ранжирования чанков, пригодится для вашего RAGу.
- Голос в текст (ASR) - помимо whisper-1 добавили ещё и whisper-podlodka-turbo.
Полный список моделей можно посмотреть так:
curl -sS "https://api.neuraldeep.ru/v1/models" \
-H "Authorization: Bearer <ваш-ключ-с-хаба>"
Как создавать AI-агентов на on-prem-моделях?
Как меняется создание пайплайна, когда мы переходим на локальные модели?
Что вообще может этот ваш Qwen на 4B по сравнению с GPT-5.5?
Чтобы ответить на эти (и многие другие) вопросы максимально-качественно, основываясь на большом практическом опыте, я попросил присоединиться к стриму Валеру.
Все, кому были неудобны стримы по субботам, возрадуйтесь!
Стрим будет во вторник, 5 мая в 16:00 мск.
Проведём его на моём kdoronin_blog_ru">YouTube-канале.
Чтобы добавить событие в календарь, нажимайте сюда.
Задавайте вопросы в комментариях. Обязательно ответим на них на стриме!
Собрались поболтать про агентов!
Будет интересно привет всем кто офлайн
FOMO в обнимку с кодинг-агентом
Заметил, что лагеря разделились особенно в коментах под постом Тимура
Есть те, кто обвешивается плагинами, скиллами, автоматизациями саб-агентов, методологиями, которые состоят из 1 000 000 нюансов. И те, кто течет по течению, как я =)
Буду честен: последние мои ИИ-проекты, которые были сделаны с агентами, используют только playwright-плагин для теста вэба и, наверное, всё
80–150 строк CLAUDE.md + оглавление и гиперссылки на заголовки, стартовые папки /docs). Папка /docs с понятной и читаемой вложенностью
И, наверное, всё
CLI и токен в глобальном env + на старте объясняю, где живет моя личная база знаний (сервера, токены до Cloudflare и MikroTik)
Такой сет-ап на сегодня позволяет создавать то, что я вам показываю, за 120–300 минут
Если вожусь дольше, как я это называю «пережарил идею», либо я уже переборщил, либо ушел не туда (не учитываем улучшения базовой версии, которая получилась успешно за 120 минут)
Самая базовая рекомендация, которая у меня к вам есть при вкатывании в ИИ-кодинг:
Просите агента искать в интернете
Просите делать тесты и поглядите, что из них есть код
Старайтесь спрашивать у агента, как бы он сделал лучше (модели на сегодня и так очень умные по статистике)
Просите агента сделать вам отображение логов всего, что вы делаете, в удобном для вас виде(какой, посоветуйтесь с агентом)
Но, кстати, Тимур очень много разговаривает про базу
Загляните к нему в канал, точно найдете очень много полезной инфы
Даже есть очень крутой курсец, который он недавно запустил, мой личный рек
UPDATE: Тимур закинул код на курсец, забираем TMY5XJ
Встретился с Игорем Котенковым @seeallochnaya в Лондоне
Очень вкусно позавтракали, после прогулялись по парку
Тоже затронули задачу генерализации в роботах 😎(Мега крутая задумка) и очень интересная тема, обсудили кажется все, от скорого выхода ГТА6 до железа в моем подвале 😈
Еще Игорь закинул карту Гинеса(теперь то я не упущу лучшее)
Searcharvester 🌾
Deep Research agent system
Год наза назад сколотил маленький SearXNG-Tavily-адаптер дроп-ин замена платного Tavily для LLM-пайплайнов на базе SearXNG
На днях вернулся и развил его в полноценный self-hosted deep research stack + sandbox agent per task
Что получилось:
3 независимых сервиса за одним API:
- /search — Tavily-совместимый поиск через SearXNG (100+ движков)
- /extract — URL → чистый markdown через trafilatura, с пресетами размера (s/m/l/f) и пагинацией для длинных статей
- /research — deep research агент(Hermes) даёшь вопрос, получаешь markdown-отчёт с цитатами
Агент-ядро — Hermes (Nous Research, 109k ⭐️), эфемерно спавнится на каждый /research запрос, --rm после exit
Видит три наших скилла: search, extract, deep-research (последний чистая методичка без кода, описывает 5 фаз:
plan → gather → gap-check → synthesise → verify
Стек: SearXNG + FastAPI + trafilatura + Hermes + docker-socket-proxy (для безопасного спавна)
Всё в одном docker compose up
LLM-агностик gpt-oss-120b(на ней делал тесты на vLLM, OpenAI, Anthropic, Ollama, что угодно OpenAI-совместимое)
Старый adapter был тактической заплаткой на Tavily
Новый стек полноценная альтернатива Perplexity/Exa/You.com для self-hosted agentic deep research system setup, и при этом каждый из трёх сервисов полезен сам по себе
РЕПО: https://github.com/vakovalskii/searcharvester
Зацените название кстати! Searcharvester
University of Cambridge
Позвали выступить рассказать про агентов
Фотка не ИИ
UPDATE:
Нашли подтверждение тому как я все успеваю
⚡️ Запустили платформу для управления LLM в бизнесе
red_mad_router помогает компаниям собрать работу с LLM в одной системе, когда сервисы уже используются в разных командах. Решение объединяет доступы к моделям, контроль расходов, настройки безопасности и правила работы с данными.
Изначально мы создавали платформу для себя, но быстро поняли, что проблема общая. Рынок давно показывает спрос на такой слой — 89% ИИ-инструментов внутри организаций подключаются хаотично и остаются вне общего контроля компании. red_mad_router закрывает эту задачу и даёт бизнесу единую точку контроля.
Подробно о том, как именно всё работает, рассказали CNews.
#AI_moment #роботайм
↗️ red_mad_robot
Страх и ненависть в AI кодинга за 24 часа
Скорость разработки MVP точно не будет прежним, мир изменился.
Но что с масштабированием и безопасностью на проде?
Вчера понял что у меня слишком много своих серверов, где-то аренда, что-то стоит в Колокейшн - это услуга размещения собственного физического сервера или сетевого оборудования клиента на территории дата-центра (ЦОД) провайдера) и что 85% времени они стоят и я плачу за интернет и аренду
Как итог после 1 часа общения с клодом и сбора ТЗ выбора самого производительного сервера у меня в офисе, было поднято 11 контейнеров и написано 15к строк кода
https://hub.neuraldeep.ru/
Первые 30 пользователей получат подписку на 2 месяца сразу к 6 моделям (по всем тарифам есть RPM)gpt-oss-120breranker-v2-m3
qwen3.6-35b-a3b
e5-large
bge-m3
bge-
whisper-1
Так же скоро будут добавлены qwen3-8b-embedding
gemma4
Из интересного попробовал реализовать механику и систему подписок как в кодинг агентах (часовые лимит и недельные лимиты)
Платежей пока нет (но скоро будут)
Насчет безопасности и масштабирования
По тестам и вопросам к агенту все четко
Друг смог обойти подписку за 20 минут, а сервер упал под нагрузкой на какой-то эндпоинт апи, не было легирования решил повесить на все защиту, базовые настройки но в погоне за идеей можно все это упустить, вывод? Думаю что и эти два пункта можно нагнать спустя время, просто нужно больше времени в тесте
Что точно разочарование это то что модельки все еще много думают сверху если жестко не ограничить все тз и задачей, но скорость это прощает, и наверное еще как вывод я больше времени стал отдыхать по выходным, все больше уходит в автоматизацию
Я хотел назвать этот проект "Битрикс24 Имба", но решили, что рынок пока недозрел. Меж тем - это имба!
Битрикс24 VibeCode - это первая платформа на российском рынке, которая соединяет вайбкодинг с экосистемой корпоративного ПО для совместной работы, продаж и автоматизации.
Битрикс24 открывает бета-тестирование VibeCode - полноценной платформы для создания бизнес-приложений с помощью искусственного интеллекта. Впервые любой сотрудник компании - без навыков программирования и бюджетов на разработку - может описать задачу на обычном языке и получить работающее приложение, размещённое на защищённом сервере и интегрированное с Битрикс24.
Сотрудники компаний смогут «навайбкодить» для себя и коллег самые разные приложения – от простых отчетов до умных ботов на базе ИИ. Платформа уже включает 26 готовых шаблонов-примеров приложений.Читать полностью…
Среди типичных сценариев:
инструмент для юристов, который анализирует изменения в объёмных договорах и выделяет ключевые правки;
система обучения и контроля менеджеров по продажам, которая анализирует звонки и переписки в CRM;
ИИ-ассистент в чате, который мгновенно находит нужную сделку, контакт или документ по запросу на естественном языке;
дашборд аналитики, собирающий данные о продажах в реальном времени.
Ранее создание собственного решения требовало множества шагов: купить сервер, настроить его, выбрать модель и написать приложение с соблюдением требований безопасности, задеплоить, подключить домен и SSL-сертификаты, интегрировать со своими системами.
На платформе Битрикс24 VibeCode весь процесс сводится к трем шагам: получить API-ключ и стартовый промпт, отправить в выбранную под свои задачи ИИ и запустить приложение. Нейросеть сама напишет приложение, настроит интеграции и развернет готовое решение на безопасном сервере. Доступ будет только у авторизованных сотрудников.
Как говорится когда-то я начинал с Майнинга)))
Вот что вышло из этого (вы тут в канале видите)
С Тимом когда то начинали собирать умные урны и роборуки в РФ, заставил его начать вести канал!
Чтиво прям хорошее
Вторая часть /channel/tim_xyz/13
Две 4090(48гб) в ПК стоимостью 70к рублей
Наверное это я бы назвал "Самый бомжатский сервер под gpt oss 120b" в моей жизни =) Паша тебе привет!
До этого они стояли в разных пк и крутили разные модельки но я решил их объединить
Блок питания взял на 1000 ватт (что бы уж проверить наверняка)
ЦПУ: AMD Ryzen 3 1200 Quad-Core Processor
Материнская плата: B450 GAMING PLUS MAX (MS-7B86)
Скоро будут тесты TTFT/TP/TS, хочу ответить себе на вопрос насколько это отличается от "Промышленной материнской платы
UPDATE:
ЦИФЕРКИ: /channel/neuraldeepchat/53463
И кстати они очень приятные =)
Собрал Handy + Paste в одно приложение
https://github.com/vakovalskii/copyosity
Рекомендую к изучению как я решал кучу проблем десктопных аппок (невидимых, но использующих команды). После установки нужно на макбуке набрать Cmd+Shift+V, и вы увидите исторический буфер обмена в удобном виде как это вижу я =)
Уже месяц потихоньку пилю и стабилизирую для себя буфер обмена для макбука.
Чтобы работало как надо, чтобы скрины хранило ровно и текст копировался удобно.
Даже подписал его своим кодом разработчика apple (не будет просить карантин).
Как по мне (для себя же делал) удобно, полезно, и нет аналогов
После настроек голосовой модели по урлу, можно получить Option+Space запус голосвого ввода в том месте где стоит курсор
А так, конечно, можно скачать массу таких приложений готовых, но мы-то помним, зачем тут собрались? =)
Download (DMG)
Взял на тесте 100 (более 3 раз)
Максимально старался не фититься на задачах но так не вишло (пока)
Как итог пришел к схеме skiils search tool + некоторый контекст инжиниринг ну и эвалюция через CC
Встроил в хаб OpenWebUI, чтобы показать реальную скорость, и вы сразу могли проверить модели!
Работает фича из личного кабинета после авторизации (если вы нашли баг или вам интересен такой ИИкит, пишите в ЛС)
https://hub.neuraldeep.ru/
P.S. Токен из видео уже не работает))))
Скорость на видео реальная х1
За идею спасибо Паше
NeuralDeep LLM Hub
Добавлено:
qwen3.6-35b-a3b
Второй инстанс под gpt oss 120b
whisper large-v3-turbo
Возможность в ЛК отключить логирование (тут конечно надо поверить мне на слово)
Обе LLM протестированы с codex/opencode/hermes-agent/kiro/cursor
Осталось 70 регистраций на free тир (добиваем 1к регистраций)
Из-за активного юзеджа зарезал фритир и протир по лимитам
За это время вы закинули 140 000 запросов и затестили все модели из списка
И как-то дали 4 рпс на обе gpt oss 120b
Спасибо, что используете, я продолжаю эксперименты и скоро расскажу про них! Расскажите в комментариях, какие эксперименты провели вы с этой платформой
https://hub.neuraldeep.ru/
Что мешает масштабировать генеративный ИИ
В red_mad_robot мы регулярно проводим сессии по генеративному ИИ для технических команд, и один из самых частых запросов связан с переходом от первых ИИ-сценариев к системной работе.
Старт обычно получается быстрым. Сложнее закрепить эффект в процессе: договориться о правилах работы, критериях качества, границах системы и способе переноса удачных кейсов в общий контур разработки.
О том, как проходить этот этап, узнали у Head of AI red_mad_robot Валеры Ковальского и CTO AI red_mad_robot Влада Шевченко. Они как раз и ведут программу AI-Ready 🔗
#AI_moment #роботайм
↗️ red_mad_robot
Если кому интересно
Взяли сервер с 6 H100 (и командой rmr) без измеения репо погоняли разные модели на нем под PAC1 на моем решении https://github.com/vakovalskii/phantom-agent
Ну наконец-то готов релизить OCR сервис
sotaocr.com
Что это? Это сервис распознавания документов. Грузите PDF, получаете распознанный json. По капотом лучшая OCR модель из имеющихся на рынке по цене-качеству.
— Очень хороша в таблицах
— Специально натренирована на математические формулы в LATEX формате.
— Отдает честные границы объектов (LLM это делает как бог на душу положит).
— Знает много языков
Ограничения:
— плохо работает с рукописным вводом. Для этого нужно усиливать модельку, знаю как — если нужно пишите, сделаю
— я пока отключил распознавание картинок, работает только PDF. Планирую скоро включить.
В общем, велкам пробовать. 30 страничек бесплатно, дальше можно закинуть денежку и пользоваться по мере необходимости.
PS Если есть проблемы — сразу в личку пишите, поправлю. Не забудьте написать почту, под которой регались.
Доделал идею из предыдущего поста с отдельным docker контейнером под agent harness deep research + добавил фронтент, все что нужно для настойки это ллм, тестил на gpt oss 120b
Запускается отдельный контейнер в котором спавнится delegate режим и оркестратор, создает agent team на базе sub process внутри логики hermes agent + ACP для передачи состояния
Получился на базе hermes-agent полноценный агентный поиск с сабагентами работой с файлами и skills
just for fun and research!
https://github.com/vakovalskii/searcharvester
Чуть более детальное объяснение что это и зачем
⚡️ Открываем NSFW-бенчмарк для систем модерации
В прошлых постах мы много говорили о фильтрации NSFW. А теперь выкатываем в открытый доступ наш двуязычный бенчмарк для систем модерации контента.
Что внутри датасета:
• контрастные пары — о которых мы уже писали,
• сложные пограничные примеры — hard negatives.
Все данные собирались, отсеивались и валидировались полностью вручную.
В карточке датасета рассказали, как устроена таксономия небезопасного контента. А ещё — добавили метрики популярных открытых моделей на этом датасете для удобного сравнения.
Тестируйте свои фильтры на прочность и делитесь мыслями в комментариях. 😍
↗️ Hugging Face
Автор этого поста, как и большинства предыдущих про безопасность, Андрей Иванов — NLP-инженер в R&D red_mad_robot.
LLM hub by Kovalskii
Вчера анонсировал https://hub.neuraldeep.ru/, а сегодня с утра уже есть что анализировать (вы просто супер аудитория!)
Что интересно из аналитики для меня:
Много кто взял модели для прогона pac1 (бенчмарка от Рината)
Кто-то взял для подключения к opencode
И самое интересное что на таком объеме запросов и людей, некоторые высказались тем что очень радует скорость и доступность моделей (gpt oss 120b)
Через неделю я планирую провести закрытий стрим для всех активных пользователей
Важные условия для участия
1) Активно юзать хаб
2) Смотреть почту на предмет сообщений с домена @neuraldeep.ru
Мы разберем как и зачем я использую такой набор моделей, и как начать строить что-то свое, как доводить до продакшена и прокачивать экспертизу
Спасибо всем за идеи и предложения, я все впитываю и сразу же внедряю
По поводу оплат за подписку, она на текущим момент не планируется (тарифы добавлены для теста кликов)
Ну и поздравляю первых 30 пользователей с про доступом на 2 месяца (там очень щедрые лимиты)
Интересный момент, я недавно переехал в Битрикс(по части направлений), реалии заставляют, после сравнения всех платформ открытость API в битрикс выиграла, и вы знаете, я был очень приятно удивлен как обновилась мобильная апка на ios(честно удобно) последний раз я тут был лет 5 назад
Жду папки для чатов и поиск, и точно аналогов в РФ не будет
Но вайб платформа прям добила, рек
⚡️ Claude Opus 4.7
ох, ну не знаю ребята, сможете ли вы потягаться с instruction following у OpenAI... 🙂
будем тестить!
У меня теперь есть обязательства перед моими 9 подписчиками! Поэтому сегодня я выделил время покумекать (слово происходит от корня «-мек-» (связанного с умом, мыслями), родственного словам смекать, невдомёк) на тему:
«шо там у народных LLM» (ЛЛМ [эл эл эм], ДДТ (для тех кто забыл переключить язык), Large Language Model - большая языковая модель (БЯМ (кек)), типа чатГПТ)
Часть 1 из 2 - выбираем модели и правила игры
Еще в далекие ковидные времена мы с Валерой @neuraldeep и Александром Сергеевичем @zanudamode собирали майнинг-ферму. Вложились на несколько десятков видеокарт, которые вы, возможно, трогали, пользуясь Валериными транскрибациями и прочими его сервисами. Так Валерий Андреевич стал ПК-боярином и криптоинвестором, а мы с Сашей за него сильно рады и сегодня обсудим бесплатные LLM для задач исследования рынка
Будем разбираться на примере софта (прим.комплюхтерной (кудахтерной (компьютерной)) программы) для управления промо-акциями формата TPM (ти пи эм [т’и п’и эм] Trade Promotion Management (управление промо-акциями), система для планирования, бюджетирования, исполнения и пост-анализа эффективности рекламных активностей (скидок, акций)) / TPO (ти пи о [т’и п’и оу] TPO (Trade Promotion Optimization) в ритейле — это аналитический подход и программное обеспечение, использующие данные для автоматического планирования, моделирования и оптимизации бюджета на промоакции (скидки, спецпредложения) с целью максимизации продаж и рентабельностb) для B2B (Business-to-Business [би ту би]).
Именно такой пример был выбран неспроста - в этой сфере встречается множество смежных программ с таким же обозначением TPM, но с другим функционалом, процессами и потребителями - например, чековые промо для лутания (прим. получения) кэшбеков или управление промо-кодами для похода на чистку зубов (тема! рекомендую!) или в квеструм с друзьями.
Для исследования берем «народные!» LLM. То бишь:
• бесплатные (хотя бы с лимитами),
• популярные,
• доступные в РФ, в том числе c VPN (ВПН [вэ пэ эн - если ты нишевый; в’и п’и эн - если ты немного манерный или шаришь за дитэйлз энд фэбрик] Virtual Private Network — виртуальная частная сеть, или по-простому программа для обхода Чебурнета).
Выбери бойца:
• Рептилоидные ChatGPT (fast), Perplexity (Sonar), Grok (Pro), Gemini (fast)
• Православная Алиса YandexGPT
• Рисовая DeepSeek (Pro)
Note (ноут [ноут], заметка) на уровне наблюдений и слухов:Читать полностью…
• Вендоры (производители LLM) часто выпускают новую модель (LLM) и она хороша. Потом проходит время, хайп (от англ. hype — «ажиотаж», «шумиха») спадает и вендоры квантуют (без занудства - упрощают процессы вычисления, тем самым удешевляя стоимость генерации и ухудшая качество ответов) модели и сокращают ей память. Мы это не учитываем сейчас - у нас же не научное исследование, а чисто в курилке потрындеть.
• Вендоры зачастую балансируют нагрузку. Брат-сват в приоритете, поэтому с утра до примерно 13 часов по Москве рисовую DeepSeek дудосят (от англ. DDoS (Distributed Denial of Service) - отправляют много запросов) китайцы, а после обеда дудосятся представителей рептилоидных LLM, из-за чего модели могут реально тупеть или вообще отказываться отвечать. Эту часть я учел и не отправлял запросы в пиковые часы.
• Сервисы LLM собирают ваш цифровой профиль и используют его для контекста. Если история ваших запросов связана с фермерством, то примеры на абстрактные темы будут связаны с репчатым луком, а шутки с трактористами. Я использовал чистые новые профили и режим инкогнито для чистоты эксперимента
1) Запросы в vllm + grafana
2) Температуры
Вот как выглядит юсадж двух 4090 (48гб) + gpt oss 120b (2 дня без остановки)
Завтра глянем что такой подход даст на проде, (ваще никаких надежд на победу или призовые места) я потратил на это все 3 часа от силы
211 запусков удалось сделать и около 50 итераций эволюции
Наконец-то сегодня нашел время что бы отправить видеокарты первому (2080ti) и второму (1660super) месту за прошлый мини ивент =)
Напомню что в следующий раз будем решать чуть сложнее задачки и проведем небольшое соревнование!
Следите за новостями
Data Fusion 2026 идет прямо сейчас!
Не смог приехать но стримы летят фоном весь день пока вкалываю в терминалах
Сейчас на CV сессии, Колмогорова-Арнольда сети для технического зрения, 3D-реконструкция от AIRI, томограф в чемодане от Smart Engines, и доклад
Рината Шакирова из Иннотех про минимизацию фактологических ошибок анализа документов через OCR и дообучение vLM, прям перекликается с моими экспериментами с Qwen2.5-VL и bbox
Стримы тут, ищите темы которые вам интересны, еще идут математическая оптимизация и панелька про ИИ-трансформацию коммуникаций!