Поделиться через


Настройка мониторинга графических процессоров с помощью Аналитики контейнеров

Аналитика контейнеров поддерживает мониторинг кластеров GPU из следующих поставщиков GPU:

Аналитика контейнеров автоматически запускает мониторинг использования GPU на узлах и GPU, запрашивающих модули pod и рабочие нагрузки, собирая следующие метрики через 60-секундные интервалы и сохраняя их в таблице InsightsMetrics .

Примечание.

После подготовки кластеров с узлами GPU убедитесь, что драйвер GPU установлен в соответствии с требованиями Служба Azure Kubernetes (AKS) для выполнения рабочих нагрузок GPU. Аналитика контейнеров собирает метрики GPU с помощью объектов pod для драйвера GPU, выполняющихся в узле.

Имя метрики Измерение метрики (теги) Description
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Процент времени за последний период выборки (60 секунд), в течение которого GPU был занят или активно обрабатывается для контейнера. Рабочий цикл указывается как число в диапазоне от 1 до 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Для каждого контейнера можно задавать ограничения, касающиеся одного GPU или нескольких GPU. Невозможно запросить или ограничить долю GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Каждый контейнер может запрашивать один GPU или несколько GPU. Невозможно запросить или ограничить долю GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Объем памяти GPU в байтах, доступных для использования для определенного контейнера.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Объем памяти GPU в байтах, используемых определенным контейнером.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Количество GPU в узле, которые могут использоваться Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Общее количество gpu в узле.

* На основе изменений вышестоящего потока Kubernetes эти метрики больше не собираются из поля. В качестве временного исправления для AKS обновите пул узлов GPU до последней версии или *-2022.06.08 или более поздней. Для Kubernetes с поддержкой Azure Arc включите шлюз DisableAcceleratorUsageMetrics=false функций в конфигурации kubelet узла и перезапустите kubelet. После изменения вышестоящего уровня доступности это исправление больше не будет работать.

Диаграммы производительности GPU

Аналитика контейнеров включает предварительно настроенные диаграммы для метрик, перечисленных ранее в таблице в качестве книги GPU для каждого кластера. Описание книг, выпущенных для аналитики контейнеров, см. в статье Книги в аналитике контейнеров.

Следующие шаги