Настройка мониторинга графических процессоров с помощью Аналитики контейнеров
Аналитика контейнеров поддерживает мониторинг кластеров GPU из следующих поставщиков GPU:
Аналитика контейнеров автоматически запускает мониторинг использования GPU на узлах и GPU, запрашивающих модули pod и рабочие нагрузки, собирая следующие метрики через 60-секундные интервалы и сохраняя их в таблице InsightsMetrics .
Примечание.
После подготовки кластеров с узлами GPU убедитесь, что драйвер GPU установлен в соответствии с требованиями Служба Azure Kubernetes (AKS) для выполнения рабочих нагрузок GPU. Аналитика контейнеров собирает метрики GPU с помощью объектов pod для драйвера GPU, выполняющихся в узле.
Имя метрики | Измерение метрики (теги) | Description |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Процент времени за последний период выборки (60 секунд), в течение которого GPU был занят или активно обрабатывается для контейнера. Рабочий цикл указывается как число в диапазоне от 1 до 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Для каждого контейнера можно задавать ограничения, касающиеся одного GPU или нескольких GPU. Невозможно запросить или ограничить долю GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Каждый контейнер может запрашивать один GPU или несколько GPU. Невозможно запросить или ограничить долю GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Объем памяти GPU в байтах, доступных для использования для определенного контейнера. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Объем памяти GPU в байтах, используемых определенным контейнером. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Количество GPU в узле, которые могут использоваться Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Общее количество gpu в узле. |
* На основе изменений вышестоящего потока Kubernetes эти метрики больше не собираются из поля. В качестве временного исправления для AKS обновите пул узлов GPU до последней версии или *-2022.06.08 или более поздней. Для Kubernetes с поддержкой Azure Arc включите шлюз DisableAcceleratorUsageMetrics=false
функций в конфигурации kubelet узла и перезапустите kubelet. После изменения вышестоящего уровня доступности это исправление больше не будет работать.
Диаграммы производительности GPU
Аналитика контейнеров включает предварительно настроенные диаграммы для метрик, перечисленных ранее в таблице в качестве книги GPU для каждого кластера. Описание книг, выпущенных для аналитики контейнеров, см. в статье Книги в аналитике контейнеров.
Следующие шаги
- Сведения о развертывании кластера AKS с поддержкой GPU, включая узлы с поддержкой GPU, см. в статье об использовании gpu для рабочих нагрузок с большим объемом вычислений в Служба Azure Kubernetes.
- Дополнительные сведения об оптимизированных SKU виртуальных машин GPU в Azure.
- Ознакомьтесь с поддержкой GPU в Kubernetes, чтобы составить более полное представление об экспериментальной поддержке управления GPU в одном или нескольких узлах кластера в Kubernetes.