6051
Please fell free to send your questions to admin - @haarrp https://t.me/pythonl - channel for Python developers https://t.me/ai_machinelearning_big_data our channel with huge amount of useful information
а я говорю на пёрфект индийан пронансиэйшн, это почти как рунглиш, только надо вконце добавлять май диар френд[р] и говорить в 2-3 раза больше чем тебе говорят
Читать полностью…
Я наоборот, учился на чётком бритише, а не вялом юэсее, где половину слов проглатывают. Но вроде тоже уже чутка схватывать начал.
Читать полностью…
Я начал разговаривать как только впервые свалил за бугор сам по себе. Вот это стимул.
Читать полностью…
https://youtu.be/4CIlTOnc6I8?si=vl2dC40EdYbkwmFW
Читать полностью…
А потому что не надо железо перегружать.
На vllm когда кэш использован на 100 был такие же проблемы наблюдал, снизил конкурентность так чтоб не превышать 90% kv usage - стало норм
Пресс-релиз забыл выпустить, маху дал )
Ну, я их на самом деле не сильно осуждаю - если бы у меня было 4 миллиона клиентов как у заи, персональное общение с каждым было бы малореально
Читать полностью…
Чото вспоминаются советские магазины с характерными продавщицами: "Вас много - я одна!!!"
Читать полностью…
Z.ai показала, где на самом деле ломаются LLM в продакшене
GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.
Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.
Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».
Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.
Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.
Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.
Бенчмарки показывают, насколько модель сильна в идеальных условиях.
Продакшен показывает, насколько вся система готова к реальному миру.
z.ai/blog/scaling-pain
У меня просто такой загрузки нет, чтобы их в принципе отбить. Я даже по ценам самого заи всего на 500 долларов в месяц трачу, это по ценам их апи без кодинг-плана. А с кодинг-планом так и вообще всего 30 долларов в месяц, в декабре будет 60 (старый клиент еще). Так что я-то сам "за" локальное железо, и даже три штуки 3090 "на черный день" дома лежат. Но вот с практической точки зрения смысла пока что нет.
Читать полностью…
Ну то есть если оператор связи, допустим, изменил условия так что ты теперь платишь в разы больше на том же самом тарифе - это моя личная проблема? А оператор - молодец?
Читать полностью…
Я в последнее время активно Дипсик трогаю, с оплатой за токены - по их ценам на самом деле выгодно получается, даже в сравнении с дешевыми китайскими кодинг-планами. Под мелкие задачи - самое то. Допустим, что-нибудь вроде правки аналитических отчетов со сложными Clickhouse-запросами обходится в 1-3 цента на задачу у дипсика, 7-25 центов даже по ценам glm-4.7
Читать полностью…
сорян, нельзя оказывается. это от подписки зависит, 1h только на max.
ну тогда да - “its a business”.
в чистом апи славахоспаде можно управлять кешом🙃
https://code.claude.com/docs/ru/env-vars
см. CLAUDE_PROMPT_CACHE_TTL_1H
на ютубе есть 2х часовой ролик нормально нарисованных пальцев нейронкой
Читать полностью…
Каждый день слышу такое, но ллм все так же не может пальцы нарисовать за подписку или нормальный тур план в рамках одного дня построить. Опять доить бедных инвесторов
Читать полностью…
Кажется уже давно подобное есть через tool use и поиск научных статей модель кучу экспериментов ставит, затем копирует себя на чуть обновлённую архитектуру или учит с нуля, если невозможно достаточно весов без потерь перенести. Китайцы об этом два года назад уже статью выпускали. Но там жесткие процессы, а не свободное обучение
Читать полностью…
Джек Кларк из Anthropic написал один из самых тревожных прогнозов про ближайшие годы AI.
Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.
Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.
Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.
Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.
Почему прогноз стал таким агрессивным?
Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.
Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.
https://x.com/jackclarkSF/status/2051312759594471886
Вообще не понимаю как там можно накосячить с кэшем, наверное это предельные случаи или oom. Ааа это высоконагруженные вычисления. Так до сих пор мне чужие ответы от OpenAi api иногда приходят.. молодцы что решили тонкости разобрать
Читать полностью…
Стремно - это да: боишься что если будет какая-то проблема, ее решение может затянуться - люди в дискорде иногда неделями ждут ответа, и непонятно вообще - получили они запрос на своей стороне, или нет.
Читать полностью…
Вы в гугол или скамограм обращались в тп? Люди пишут абсолютно бесполезно, дальше робота не пробиться
Читать полностью…
С z.ai на самом деле другая проблема - полный игнор клиентов. Эту проблему сотни раз (без преувеличения) озвучивали в их дискорде. Выглядело это так: вот моделька решает задачу, доходит до примерно 100к контекста, а дальше она может в случайный момент времени переключиться на какую-то левую задачу вообще не из твоего репо. И когда все это писалось, было молчание в ответ. Да, через месяц или даже больше они это пофиксили и отчитались, молодцы. Но все это время была тишина, типа так и должно быть. И то же самое сейчас происходит с банами за "non-fair use" - никто не объясняет за что банят, пользователей либо молча разбанивают после запроса, либо морозятся. В чате невозможно добиться ответа, почта тоже не всегда доходит, или ее игнорят. Стремно, короче.
Читать полностью…
Демагогия — это тактика ведения дискуссии, основанная на намеренном искажении фактов, манипуляции эмоциями и логических ошибках для достижения личных целей или победы в споре.
Читать полностью…
Дипсик нужен только чтобы выполнять не-кодинговые задачи за которые может прилететь бан от заи. Соответственно, основной объем работы все равно выполняется в рамках их кодинг-плана, пока что.
Читать полностью…
GLM-4.7 хорошо работает, в принципе, можно на трёх картах RTX 6000 BLACKWELL 96Gb развернуть, через пару лет эти же карточки продать
Читать полностью…
Вам надо взрослеть и перестать обвинять в своих проблемах весь мир
Читать полностью…
Ну, это ожидаемо - не только они фигней занимаются. z.ai вообще направо и налево банит даже если ты тупо кодишь, но используешь нестандартный клиент, или заходишь с двух айпишников, или твоя задача хоть чем-то напоминает не-кодинговую. Так ша крепчаем, да.
Читать полностью…
От того, что ты можешь вручную что-то настроить, не отменяет того факта что решение о снижении размера дефолтного кеша принято на стороне Антропика. Как и тот факт, что это фактически является увеличением цены услуги для тех клиентов которые используют их инструменты в дефолтной конфигурации.
Читать полностью…
А так на ровном месте они подняли денег с клиентов, да еще и немного сэкономили. Респект и уважуха этим пацанам.
Читать полностью…