Поделиться через


Поддерживаемые метрики для Microsoft.CognitiveServices/accounts/projects

В следующей таблице перечислены метрики, доступные для типа ресурса Microsoft.CognitiveServices/accounts/projects.

Заголовки таблиц

Metric - Название метрики, как оно отображается в портале Azure.
Name in Rest API - Название метрики, упоминаемой в REST API.
Единица измерения.
Аггрегация - Тип агрегации по умолчанию. Допустимые значения: Среднее, Минимум, Максимум, Сумма, Количество.
Измерения - Размеры, доступные для данной метрики.
Гранулы времени - Интервалы, на которых выполняется выборка метрики. Например, PT1M указывает, что метрика измеряется каждую минуту, PT30M — каждые 30 минут, PT1H — каждый час и так далее.
DS Export - Можно ли экспортировать метрику в Azure Monitor Logs через диагностические настройки.

Для получения информации об экспорте метрик см. Экспорт метрик с использованием правил сбора данных и Создание диагностических настроек в Azure Monitor.

Сведения о хранении метрик вы можете найти в разделе Обзор метрик Azure Monitor.

Категория: агенты ИИ

Единица измерения Название в REST API Единица Aggregation Измерения Гранулы времени Экспорт данных (DS)
События агента (предварительная версия)

Количество событий для агентов ИИ в этом проекте.
AgentEvents Численность Count, Total (Sum), Average, Maximum, Minimum EventType ПТ1М нет
Маркеры ввода агента (предварительная версия)

Количество входных маркеров для агентов ИИ в этом проекте.
AgentInputTokens Численность Общее (сумма), среднее, максимальное, минимальное AgentId ModelName TokenType ПТ1М нет
Сообщения пользователя агента (предварительная версия)

Количество событий для сообщений пользователя агента ИИ в этом проекте.
AgentMessages Численность Count, Total (Sum), Average, Maximum, Minimum EventType, ThreadId ПТ1М нет
Маркеры вывода агента (предварительная версия)

Количество выходных маркеров для агентов ИИ в этом проекте.
AgentOutputTokens Численность Общее (сумма), среднее, максимальное, минимальное AgentId ModelName TokenType ПТ1М нет
Ответы агента (предварительная версия)

Количество ответов агентами ИИ в этом проекте.
AgentResponses Численность Count, Total (Sum), Average, Maximum, Minimum AgentId ModelName ResponseStatus ПТ1М нет
Запуски агента (предварительная версия)

Количество запусков агентами ИИ в этом проекте.
AgentRuns Численность Count, Total (Sum), Average, Maximum, Minimum AgentId ModelName RunStatus StatusCode ThreadId StreamType ПТ1М нет
Потоки агента (предварительная версия)

Количество событий для потоков агента ИИ в этом проекте.
AgentThreads Численность Count, Total (Sum), Average, Maximum, Minimum EventType ПТ1М нет
Вызовы средств агента (предварительная версия)

Количество вызовов инструментов, выполненных агентами ИИ в этом проекте.
AgentToolCalls Численность Count, Total (Sum), Average, Maximum, Minimum AgentId ModelName ToolName ПТ1М нет
Индексированные файлы агента (предварительная версия)

Количество файлов, индексированных для использования агента ИИ, например получения в этом проекте.
AgentUsageIndexedFiles Численность Count, Total (Sum), Average, Maximum, Minimum ErrorCode Status VectorStoreId ПТ1М нет

Категория: модели — HTTP-запросы

Единица измерения Название в REST API Единица Aggregation Измерения Гранулы времени Экспорт данных (DS)
Частота доступности модели

Процент доступности со следующим вычислением: (Общее число вызовов — ошибки сервера)/Всего вызовов. Ошибки сервера включают все HTTP-ответы >=500.
ModelAvailabilityRate Процент Минимальное, максимальное, среднее Region ModelDeploymentName ModelName ModelVersion ПТ1М нет
Запросы модели

Количество вызовов, выполненных в API модели за период времени. Применяется к развертываниям PTU, PTU-Managed and Pay-as-go.
ModelRequests Численность Сумма (Итог) ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode ПТ1М Да

Категория: Модели: Задержка

Единица измерения Название в REST API Единица Aggregation Измерения Гранулы времени Экспорт данных (DS)
Время между маркерами

Для потоковых запросов; Скорость создания маркеров модели, измеряемая в миллисекундах. Применяется к PTU и управляемым PTU развертываниям.
NormalizedTimeBetweenTokens Миллисекунды Максимальное, минимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersion ПТ1М Да
Нормализованное время до первого байта

Для потоковых и непотоковых запросов; время, необходимое для получения первого байта данных ответа после выполнения запроса моделью, нормализованного по токену. Применяется к развертываниям PTU, управляемым PTU, и развертываниям с оплатой по факту использования.
NormalizedTimeToFirstToken Миллисекунды Максимальное, минимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersion ПТ1М Да
Время последнего байта

Для потоковых и непотоковых запросов; время, необходимое для получения последних байтов данных ответа после выполнения запроса моделью. Применяется к развертываниям PTU, управляемым PTU, и развертываниям с оплатой по факту использования.
TimeToLastByte Миллисекунды Максимальное, минимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersion ПТ1М Да
Время отклика

Рекомендуемая мера задержки (скорость отклика) для потоковых запросов. Применяется к PTU и управляемым PTU развертываниям. Вычисляется как время, затраченное на первый ответ после отправки пользователем запроса, как измеряется шлюзом API. Это число увеличивается при увеличении размера запроса и/или уменьшении объема кэширования. Для разбивки времени для метрики ответа можно добавить фильтр или применить разделение по следующим измерениям: ModelDeploymentName, ModelName и ModelVersion.

Примечание. Эта метрика является приблизительной, так как измеряемая задержка сильно зависит от нескольких факторов, включая одновременные вызовы и общий шаблон рабочей нагрузки. Кроме того, она не учитывает задержку на стороне клиента, которая может существовать между клиентом и конечной точкой API. Обратитесь к вашему собственному журналу для оптимального отслеживания временных задержек.
TimeToResponse Миллисекунды Минимальное, максимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode ПТ1М Да
Токены в секунду

Перечисляет скорость генерации ответа для заданной модели. Общее количество созданных маркеров делится на время создания маркеров в секундах. Применяется к PTU и управляемым PTU развертываниям.
TokensPerSecond Численность Максимальное, минимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersion ПТ1М Да

Категория: модели — использование

Единица измерения Название в REST API Единица Aggregation Измерения Гранулы времени Экспорт данных (DS)
Маркеры ввода звука

Количество токенов аудиозапроса (вход) обработанных моделью OpenAI. Применяется к развертываниям управляемых PTU моделей.
AudioInputTokens Численность Сумма (Итог) ModelDeploymentName ModelName ModelVersion Region ПТ1М Да
Маркеры вывода звука

Количество токенов аудиоподсказок, сгенерированных (в качестве выходных данных) моделью OpenAI. Применяется к развертываниям управляемых PTU моделей.
AudioOutputTokens Численность Сумма (Итог) ModelDeploymentName ModelName ModelVersion Region ПТ1М Да
Входные токены

Количество входных токенов запроса, обработанных моделью. Применяется к развертываниям PTU, PTU-Managed and Pay-as-go.
InputTokens Численность Сумма (Итог) ApiName, , RegionModelDeploymentName, ModelNameModelVersion ПТ1М Да
Выходные маркеры

Количество маркеров, созданных (выходные данные) из модели OpenAI. Применяется к развертываниям PTU, PTU-Managed and Pay-as-go.
OutputTokens Численность Сумма (Итог) ApiName, , RegionModelDeploymentName, ModelNameModelVersion ПТ1М Да
Подготовленное использование

Уровень использования для управляемого и предварительно развернутого развертывания, вычисляется как (использованные PTU / развернутые PTU) x 100. Если использование больше или равно 100%, вызовы регулируются и возвращаются код ошибки 429.
ProvisionedUtilization Процент Минимальное, максимальное, среднее Region ModelDeploymentName ModelName ModelVersion ПТ1М нет
Всего маркеров

Количество маркеров вывода, обработанных в модели. Вычисляется как токены запроса (входные данные) плюс сгенерированные токены (выходные данные). Применяется к развертываниям PTU, PTU-Managed and Pay-as-go.
TotalTokens Численность Сумма (Итог) ApiName, , RegionModelDeploymentName, ModelNameModelVersion ПТ1М Да

Дальнейшие шаги