Мониторинг развертываний моделей Foundry в Microsoft

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

В этой статье объясняется, как использовать метрики и журналы Azure Monitor для отслеживания доступности, производительности и использования развертываний моделей Foundry. Azure Monitor автоматически собирает и агрегирует метрики и журналы из развертываний Foundry Models, чтобы просматривать данные о производительности в режиме реального времени и настраивать оповещения о проблемах.

Необходимые условия

Чтобы использовать возможности мониторинга для развертываний моделей в модели Foundry, вам потребуется следующее:

Метрики

Azure Monitor автоматически собирает метрики из моделей Foundry. Конфигурация не требуется. Эти метрики:

  • Хранится в базе данных метрик временных рядов Azure Monitor.
  • Легкий и способный поддерживать оповещения почти в режиме реального времени.
  • Используется для отслеживания производительности ресурса с течением времени.

Просмотр метрик

Azure Monitor метрики можно запрашивать с помощью нескольких инструментов, в том числе:

Портал Foundry

Метрики можно просмотреть на портале Foundry. Чтобы просмотреть их, выполните следующие действия.

  1. Перейдите на портал Foundry.

  2. В разделе "Мои ресурсы " в боковом меню выберите "Модели и конечные точки", а затем выберите имя развертывания, о которой вы хотите просмотреть метрики.

  3. Перейдите на вкладку "Метрики ".

  4. Вы можете получить доступ к обзору распространенных метрик, которые могут быть интересны. Для метрик, связанных с затратами, выберите ссылку Azure Cost Management, которая предоставляет доступ к подробным метрикам затрат после потребления в разделе Cost analysis на портале Azure.

    Снимок экрана: метрики, отображаемые для развертываний моделей на портале Foundry.

    Данные о затратах на портале Azure отображают фактические расходы после потребления моделей, включая другие ресурсы ИИ в Foundry. Полный список ресурсов искусственного интеллекта см. в статье Build с настраиваемыми API и моделями. Есть примерно пять часов задержки между событием выставления счетов и тем моментом, когда его можно просмотреть в анализе затрат на портале Azure.

    Важно

    Ссылка Azure Cost Management предоставляет прямую ссылку на портале Azure, что позволяет пользователям получать доступ к подробным метрикам затрат для развернутых моделей ИИ. Эта глубокая связь интегрируется с представлением службы анализа затрат Azure, предлагая прозрачные и практические аналитические сведения о затратах на уровне модели.

    Глубокая ссылка направляет пользователей в представление "Анализ затрат" на портале Azure, обеспечивая однократный доступ к просмотру развертываний по ресурсам, включая затраты и потребление входных/выходных токенов. Чтобы просмотреть данные о затратах, требуется по крайней мере read доступ к учетной записи Azure. Сведения о назначении доступа к данным управления затратами см. в разделе "Назначение доступа к данным".

  5. Вы можете просматривать и анализировать метрики с помощью Azure Monitor Metrics Explorer для дальнейшего разбиения и фильтрации метрик развертывания вашей модели.

    Screenshot, показывающий возможность открытия метрик развертывания модели в Azure Monitor.

Обозреватель метрик

Обозреватель метрик — это средство на портале Azure, которое позволяет просматривать и анализировать метрики для Azure ресурсов. Дополнительные сведения см. в статье Обзор метрик в Azure Monitor Metrics Explorer.

Чтобы использовать Azure Monitor, выполните следующие действия.

  1. Перейдите на портал Azure.

  2. Введите и выберите "Монитор" в поле поиска.

  3. Выберите метрики в меню боковой панели.

  4. В области выбора выберите ресурсы, которые требуется отслеживать. Можно выбрать один ресурс или выбрать группу ресурсов или подписку. Если это так, убедитесь, что вы выберете типы ресурсов в качестве средств Foundry.

  5. Появится обозреватель метрик. Выберите метрики , которые вы хотите изучить. В следующем примере показано количество запросов, сделанных к развертываниям модели в ресурсе.

    Снимок экрана: добавление новой метрики на диаграмму.

    Важно

    Метрики в категории Azure OpenAI содержат метрики для моделей OpenAI Azure в ресурсе. Категория Models содержит все модели, доступные в ресурсе, включая Azure OpenAI, DeepSeek и Phi. Рекомендуется переключиться на этот новый набор метрик.

  6. Вы можете добавить столько метрик, сколько необходимо для одной диаграммы или новой диаграммы.

  7. При необходимости можно отфильтровать метрики по любым из доступных измерений.

    Снимок экрана, показывающий, как наложить фильтр на метрику.

  8. Полезно разбить определенные метрики на некоторые измерения. В следующем примере показано, как разбить количество запросов, сделанных в ресурс по модели, с помощью параметра Добавить разделение:

    Снимок экрана: разделение метрики по заданному измерению.

  9. Вы можете сохранять панели мониторинга в любое время, чтобы избежать необходимости настраивать их каждый раз.

Другие инструменты

Средства, которые позволяют более сложной визуализации, включают:

  • Workbooks: настраиваемые отчеты, которые можно создать на портале Azure. Книги могут включать текст, метрики и запросы к журналам.
  • Grafana: инструмент с открытой платформой, который превосходно работает с оперативными панелями. Grafana можно использовать для создания панелей мониторинга, включающих данные из нескольких источников, отличных от Azure Monitor.
  • Power BI: служба бизнес-аналитики, которая предоставляет интерактивные визуализации в различных источниках данных. Вы можете настроить Power BI для автоматического импорта данных журнала из Azure Monitor для использования этих визуализаций.

Справочник по метрикам

Доступны следующие категории метрик:

Модели — запросы

Метрика Внутреннее имя Единица Агрегация Размеры
Частота доступности модели

Процент доступности со следующим вычислением: (Общее число вызовов — ошибки сервера)/Всего вызовов. Ошибки сервера включают любые HTTP-ответы, равные > 500.
ModelAvailabilityRate Процент Минимальное, максимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersion
Запросы модели

Количество вызовов, выполненных в API вывода модели за период времени.
ModelRequests Количество Итог (Сумма) ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode

Модели — задержка

Метрика Внутреннее имя Единица Агрегация Размеры
Время отклика

Рекомендуемая мера задержки (скорость отклика) для потоковых запросов. Применяется к развертываниям PTU и управляемым PTU. Вычисляется как время, затраченное на первый ответ после отправки пользователем запроса, как измеряется шлюзом API. Это число увеличивается по мере увеличения размера запроса или уменьшения размера попадания в кэш. Эта метрика является приблизительной, так как измеряемая задержка зависит от нескольких факторов, включая одновременные вызовы и общий шаблон рабочей нагрузки. Она не учитывает задержку на стороне клиента между клиентом и конечной точкой API. Ознакомьтесь с собственным ведением журнала для оптимального отслеживания задержки.
TimeToResponse Миллисекунд Максимальное, минимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode
Нормализованное время между токенами

Для потоковых запросов; Скорость создания маркеров модели, измеряемая в миллисекундах. Применяется к развертываниям PTU и управляемым PTU.
NormalizedTimeBetweenTokens Миллисекунд Максимальное, минимальное, среднее ApiName, OperationName, RegionStreamTypeModelDeploymentNameModelNameModelVersion

Модели — использование

Метрика Внутреннее имя Единица Агрегация Размеры
Входные токены

Количество токенов запроса, обработанных моделью на входе. Применяется к PTU, управляемым PTU и стандартным развертываниям.
InputTokens Количество Итог (Сумма) ApiName, , RegionModelDeploymentName, ModelNameModelVersion
Выходные токены

Количество токенов, сгенерированных моделью (выходные данные). Применяется к PTU, управляемым PTU и стандартным развертываниям.
OutputTokens Количество Итог (Сумма) ApiName, , RegionModelDeploymentName, ModelNameModelVersion
Всего токенов

Количество маркеров вывода, обработанных в модели. Вычисляется как сумма маркеров запроса (входные данные) и созданных маркеров (выходные данные). Применяется к PTU, управляемым PTU и стандартным развертываниям.
TotalTokens Количество Итог (Сумма) ApiName, , RegionModelDeploymentName, ModelNameModelVersion
Частота совпадений кэша токенов

Процент кэшируемых токенов запроса. Применяется к PTU и к развертываниям, управляемым PTU.
TokensCacheMatchRate Процент Средняя Region, ModelDeploymentName, ModelName, ModelVersion
Подготовленное использование

Процент использования для подготовленного управляемого развертывания, вычисляемый как (потребленные ПТЕ / развернутые ПТЕ) x 100. Если использование превышает или равно 100%, вызовы ограничиваются, и возвращается код ошибки 429.
ProvisionedUtilization Процент Средняя Region, ModelDeploymentName, ModelName, ModelVersion
Выделенные использованные токены

Общий объем маркеров минус кэшированные маркеры за период времени. Применяется к PTU и к развертываниям, управляемым PTU.
ProvisionedConsumedTokens Количество Итог (Сумма) Region, ModelDeploymentName, ModelName, ModelVersion
Маркеры ввода звука

Количество обработанных (входных) маркеров звукового запроса в модели. Применяется к развертываниям моделей, управляемых PTU.
AudioInputTokens Количество Итог (Сумма) Region, ModelDeploymentName, ModelName, ModelVersion
Маркеры вывода звука

Количество аудиоподсказок (токенов), сгенерированных моделью (на выходе). Применяется к развертываниям моделей, управляемых PTU.
AudioOutputTokens Количество Итог (Сумма) Region, ModelDeploymentName, ModelName, ModelVersion

Логи

Журналы ресурсов предоставляют представление об операциях, выполненных Azure ресурсом. Журналы создаются автоматически, но их необходимо направлять в журналы Azure Monitor для сохранения или запроса с помощью настройки параметра диагностики. Журналы организованы по категориям. При создании параметра диагностики необходимо указать категории журналов для сбора.

Для моделей Foundry доступны следующие категории журналов:

Категории Описание
RequestResponse Журналы для каждого запроса вывода и ответа, включая коды состояния и задержку.
Трассировка Подробные журналы трассировки для вызовов вывода модели.
Аудита Административные операции, такие как развертывания, изменения конфигурации и события управления доступом.

Дополнительные сведения обо всех доступных категориях журналов см. в разделе Azure Monitor категории журналов ресурсов.

Настройка параметров диагностики

Все метрики можно экспортировать с параметрами диагностики в Azure Monitor. Чтобы проанализировать журналы и данные метрик с помощью запросов Azure Monitor Log Analytics, можно настроить параметры диагностики для ресурса Foundry Tools. Выполните эту операцию для каждого ресурса.

Снимок экрана: настройка ведения журнала диагностики в resource.png

Чтобы настроить параметры диагностики для ресурса Foundry, выполните следующие действия.

  1. Перейдите на портал Azure и найдите ресурс Foundry.

  2. В разделе "Мониторинг" в боковом меню выберите параметры диагностики.

  3. Выберите "Добавить параметр диагностики".

  4. Введите имя параметра диагностики.

  5. В разделе "Журналы" выберите категории журналов , которые нужно собрать (например, RequestResponseLogs).

  6. В разделе "Метрики" выберите AllMetrics для экспорта метрик.

  7. В разделе Destination details выберите Отправить в рабочую область Log Analytics и выберите рабочую область в подписке.

  8. Нажмите кнопку "Сохранить".

Примечание

Существует стоимость сбора данных в рабочей области Log Analytics, поэтому собираются только категории, необходимые для каждой службы. Объем данных для журналов ресурсов значительно зависит от служб.

Журналы запросов с помощью KQL

После настройки параметров диагностики для отправки метрик в Log Analytics можно запрашивать и анализировать данные журнала с помощью языка запросов Kusto (KQL).

Чтобы запросить метрики, выполните следующие действия.

  1. Перейдите на портал Azure.

  2. Найдите ресурс Foundry, который требуется запросить.

  3. В разделе Мониторинг в боковом меню выберите Журналы. Если параметры окна запроса заполняют, закройте окно.

  4. Откроется новая вкладка запроса. Выберите раскрывающийся список " Пример режима " и выберите режим KQL.

  5. Чтобы проверить метрики Azure, введите пользовательский запрос или скопируйте и вставьте следующий запрос:

    AzureMetrics
    | take 100
    | project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName
    
  6. Выберите Запуск

    Примечание

    При выборе Monitoring>Logs в меню ресурса Log Analytics откроется область запроса, заданная для текущего ресурса. Видимые запросы журнала включают только данные из этого конкретного ресурса. Чтобы выполнить запрос, содержащий данные из других ресурсов или данных из других служб Azure, выберите Logs из меню Azure Monitor на портале Azure. Для получения дополнительных сведений см. раздел Область запроса журнала и диапазон времени в Azure Monitor Log Analytics.

Устранение неполадок

Проблема Возможная причина Разрешение
Метрики, не отображаемые в обозревателе метрик Фильтр типа ресурса может быть неправильно задан. Убедитесь, что в селекторе области для Типы ресурсов установлено значение Foundry Tools.
Нет данных журнала в Log Analytics Параметры диагностики еще не настроены или данные еще не прибыли. Настройте параметры диагностики и подождите до 15 минут, пока данные будут отображаться.
Метрики показывают нулевые значения Возможно, развертывание модели не получило трафика в указанном выбранном диапазоне времени. Настройте временной диапазон в обозревателе метрик или убедитесь, что деплоймент получает запросы.
Данные о затратах не отображаются в Управление затратами Microsoft Отсутствуют разрешения или задержка выставления счетов. Убедитесь, что у вас есть как минимум доступ на чтение к учетной записи Azure. Данные о затратах могут появиться в течение до пяти часов.
429 ошибок при вызовах модели Подготовленное использование составляет или более 100%. Проверьте метрику обеспеченного использования и увеличьте PTUs или уменьшите объем запросов.

Дальнейшие действия