6051
Please fell free to send your questions to admin - @haarrp https://t.me/pythonl - channel for Python developers https://t.me/ai_machinelearning_big_data our channel with huge amount of useful information
⚡️ Prefill-as-a-Service предлагает пересобрать инференс
В статье (авторы Kimi.ai) разбирают, почему держать Prefill и Decode в одном процессе невыгодно, и как это разнести без потерь.
Любой ответ модели начинается с Prefill. Модель читает весь вход и строит внутреннее состояние. Дальше идёт Decode. Пошаговая генерация токенов.
Эти этапы ведут себя по-разному. Prefill короткий, но тяжёлый по вычислениям. Decode долгий и чувствительный к задержкам. Когда они сидят на одном GPU, часть ресурсов простаивает.
В статье предлагают вынести Prefill в отдельный сервис. Его можно крутить на других узлах или в другом дата-центре. Decode оставить ближе к пользователю, где важна задержка на токен.
Авторы упирались в KV cache. Он слишком большой, чтобы гонять его по сети без ощутимых накладных расходов. Но в статье показывают, что при оптимизации представления KV это становится практичным.
На практике это даёт более быстрый первый токен и лучший throughput. Появляется возможность подбирать железо под конкретный этап, а не под весь пайплайн сразу.
Инференс перестаёт быть привязанным к одному месту. Его можно разнести, как обычный сервис. И дальше оптимизировать уже не только модель, но и архитектуру вокруг неё.
Проверено на модели Kimi Linear, увеличенной в 20 раз:
• пропускная способность модели выросла в 1.54 раза
• P90 TTFT ниже на 64%.
• На выходе это напрямую конвертируется в более дешёвый токен.
https://arxiv.org/html/2604.15039v1
⭐️ Если у тебя накопилось десятки сохранённых гайдов по AI - это нормально
Но большую часть из них ты, скорее всего, не откроешь/
Вот один список, который покрывает основные кейсы работы с Claude.
Claude 101
http://how-to-claude.ai
Claude Code
http://claudecode.free
Claude Skills
http://claude-skills.free
Почему стоит меньше полагаться на промпты
https://ruben.substack.com/p/stop-prompting-claude
Claude в Excel
https://ruben.substack.com/p/ai-couldnt-do-excel
40 репозиториев по 8 категориям. Полный роадмап от математических основ до написания собственного LLM.
https://uproger.com/40-github-repozitoriev-kotorye-zamenyat-vam-lyuboj-platnyj-kurs-po-ai-polnyj-roadmap-ot-matematicheskih-osnov-do-napisaniya-sobstvennogo-llm/
Рост аудитории с помощью AI
https://ruben.substack.com/p/1000000how-claude.team
Claude для команд разработчиков
http://how-claude.team
Почему одного промпта недостаточно
https://ruben.substack.com/p/magic
Создание презентаций
http://how-to-gamma.ai
Настройка Claude Cowork
http://claude-co.work
Как адаптировать стиль ИИ под себя
https://ruben.substack.com/p/i-am-just-a-text-file
Интерактивные графики
https://ruben.substack.com/p/claude-charts
Claude как рабочая среда
https://ruben.substack.com/p/claude-computer
Cowork + Projects
https://ruben.substack.com/p/claude-cowork-project
Как правильно настроить AI перед работой
https://ruben.substack.com/p/how-to-better-use-ai-before-prompting
Сохрани, пригодится.
Хорошо, что есть системы типа PBI, где ваши нейросети вообще нихера не понимают😂
Читать полностью…
Тот же вопрос. Сделал крутые эмбединги для таблицы Менделеева, а endorsement на cond-mat.mtrl-sci (Materials Science) нету
Читать полностью…
Увы, в сравнении с Клодом - абсолютное. Но сгодится для локального RAG
Читать полностью…
и высирает очередную хуйню и тратит твои токены
Читать полностью…
Я бы сказал главный риск - бизнес контекст, а именно правильное целеполагание и интерпретация результатов.
Читать полностью…
Всем привет, есть ли тут люди которые недавно закончили или сейчас учатся в магистратуре на ml/ds
Какой вуз можете посоветовать?
какие результаты? какая потеря в качестве?
Читать полностью…
а это на озушке? на процессорных вычислениях?
Читать полностью…
Всем привет! Есть ли здесь специалисты в DS/ML и тп, с публикациями и ученым званием/руководительским опытом, которым было бы интересно написать рецензию на магистерскую ВКР (в виде стартапа) в МФТИ? Или может у кого-то есть такие знакомые? Нужно срочно, дедлайн подачи резюме рецензента - до конца завтрашнего дня, готов платить.
Читать полностью…
В квантизацией 2b и она не выдала кашу ? Удивительно 🤔
Читать полностью…
Кинул в сохраненки, чтобы тоже потом больше никогда не открыть
Читать полностью…
В нем - да, потому что там и черт ногу сломит. Но отечественный форсайт кстати - там уже, со слов, бодро генерит само, причем именно да, квантованный квен без GPU
Читать полностью…
Я бы такому челику ошибками в логи не срал
Читать полностью…
Рекламировать курс, наполненный, преимущественно водой из генератора - грех и не уважение к подписчикам
Читать полностью…
Полагаю дело в тулзах. В возможность нажать кнопку с надписью «нажать» верю безусловно
Читать полностью…
О боже. Братушки, большая Qwen3.6-Plus в моих тестах сегодня не справлялась практически ни с чём все 6 часов что клод были в пике. Создавала впечатление что справилась — да! А вы код-то свой не забыли протестировать?)
Читать полностью…
Главный риск — галлюцинации Кириенко-старшего
Читать полностью…
К VK теперь стоит прислушиваться? Они уважаемы в ИИ агентах? 🤣🤣
Читать полностью…
⚡️ Аналитика уходит в диалоговый режим
Эксперты направления OneData VK фиксируют сдвиг: от SQL-first к естественному языку и агентам. Теперь аналитик — не исполнитель, а контролёр ИИ и качества данных.
Что меняется:
• Аналитику можно «спросить», а не писать запросы
• ИИ уже экономит время: задачи с 20 → 5 минут
• SQL остаётся, но как язык для ИИ, а не для человека
• Уход от разрозненных хранилищ к единым платформам (OneData)
• Дата-контракты и SLA на доставку данных
• Фокус смещается с объема на качество данных
Главный риск — галлюцинации
ошибка выглядит как нормальные данные, поэтому возможен риск неверных решений
Решение:
• проверка моделями (LLM-as-a-judge)
• DQ-контроль и валидация
Подробнее
Это профессор Ole-Christoffer Granmo, который Цетлин Машину придумал в 2018. Наконец-то встретились лично.
Читать полностью…
Работает. Не так давно некую bonsai презентовали - аж 7b натренировали, которая влезает в какой-то невозможно скромный объем
Читать полностью…
Раз не набрало популярность, то видимо нет, а жаль
Читать полностью…
Выкатывали же архитектуру bitnet от Микрослопа, там модели вообще в 1 бит были, их изначально обучали с такой битностью + в схожее количество памяти с моделью в 8 бит могло влезть больше параметров что хотя-бы частично компенсировало деградацию (если она была)
Читать полностью…