Кэширование ответов на запросы API большой языковой модели

ОБЛАСТЬ ПРИМЕНЕНИЯ: все уровни Управление API

Политика llm-semantic-cache-store кэширует ответы на запросы API завершения чата в настроенный внешний кэш. Кэширование ответов снижает пропускную способность и требования к обработке, налагаемым на API языковой модели бэкенда, а также снижает задержку, воспринимаемую потребителями API.

Примечание.

Эта политика должна иметь соответствующие ответы get cached responses to large language model API requests policy.
Предварительные требования и шаги для включения семантического кэширования см. в статье "Включение семантического кэширования для API LLM" в службе "Управление API Azure".
Так как семантическая кэширование возвращает ответы на основе сходства (не точного соответствия), он может отображать ответы, которые являются неправильными, устаревшими или небезопасными для текущего запроса. Тщательно оцените эту функцию для рабочей нагрузки и включите меры безопасности.

Примечание.

Задайте элементы политики и дочерние элементы в порядке, указанном в правиле политики. Узнайте, как устанавливать или изменять политики службы управления API.

Поддерживаемые API модели

Эта политика работает с API LLM, добавленными в управление API, которые соответствуют одной из следующих схем API:

Api завершения чата OpenAI или API ответов
API сообщений Anthropic (в настоящее время поддерживается на уровнях управления API версии 2)
Google Vertex AI API

Правило политики

<llm-semantic-cache-store duration="seconds" cache-response="true | false" />

Атрибуты

Атрибут	Описание	Обязательное поле	По умолчанию.
продолжительность	Срок жизни кэшированных записей (в секундах). Допустимы выражения политики.	Да	Н/П
кэш-ответ	Установите для `true` кэширования текущего HTTP-ответа. Если атрибут опущен, кэшируются только HTTP-ответы с кодом `200 OK` состояния. Допустимы выражения политики.	Нет	`false`

Использование

Разделы политики: outbound.
Области политики: global, product, API, operation.
Шлюзы: классическая, версия 2, потребление, локальное размещение

Примечания об использовании

Эту политику можно использовать только один раз в разделе политики.
Если поиск кэша завершается сбоем, вызов API, использующий операцию, связанную с кэшем, не вызывает ошибку, и операция кэша успешно завершается.
Мы рекомендуем настроить политику ограничения скорости (или политику ограничения скорости по ключу ) сразу после поиска кэша. Это помогает сохранить серверную службу от перегрузки, если кэш недоступен.

Примеры

Пример с соответствующей политикой поиска llm-semantic-cache-lookup

В следующем примере показано, как использовать llm-semantic-cache-lookup политику вместе с llm-semantic-cache-store политикой для получения семантически аналогичных кэшированных ответов с пороговым значением оценки сходства 0,05. Кэшированные значения секционируются по идентификатору подписки вызывающего объекта.

Примечание.

Добавьте политику ограничения скорости (или политику ограничения скорости по ключу ) после поиска кэша, чтобы ограничить количество вызовов и предотвратить перегрузку серверной службы в случае, если кэш недоступен.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Дополнительные сведения о работе с политиками см. в нижеуказанных статьях.

Руководство. Преобразование и защита API
Полный перечень операторов политик и их параметров см. в справочнике по политикам.
Выражения политики
Настройка или изменение политик
Повторное использование конфигураций политик
Репозиторий фрагментов политик
репозиторий Policy
Набор средств политики Управление API Azure
Получите помощь Copilot для создания, объяснения и устранения неполадок в политике

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-06-04

Кэширование ответов на запросы API большой языковой модели

Поддерживаемые API модели

Правило политики

Атрибуты

Использование

Примечания об использовании

Примеры

Пример с соответствующей политикой поиска llm-semantic-cache-lookup

Связанные политики

Связанный контент

Обратная связь

Дополнительные ресурсы