Поделиться через


Просмотр метрик вычислений

В этой статье объясняется, как использовать собственное средство метрики вычислений в пользовательском интерфейсе Azure Databricks для сбора ключевых аппаратных и метрик Spark. Пользовательский интерфейс метрик доступен для универсальных вычислений и вычислений заданий.

Метрики кластера за последние 24 часа

Метрики доступны практически в режиме реального времени с обычной задержкой менее одной минуты. Метрики хранятся в управляемом хранилище Azure Databricks, а не в хранилище клиента.

Бессерверные вычисления для записных книжек и заданий используют аналитические сведения о запросах вместо пользовательского интерфейса метрик. Дополнительные сведения о метриках бессерверных вычислений см. в разделе "Просмотр аналитических сведений о запросах".

Доступ к пользовательскому интерфейсу вычислительных метрик

Чтобы просмотреть пользовательский интерфейс вычислительных метрик, выполните следующие действия.

  1. На боковой панели щелкните Вычислительная среда.
  2. Щелкните вычислительный ресурс, для которого нужно просмотреть метрики.
  3. Перейдите на вкладку "Метрики ".

Аппаратные метрики для всех узлов отображаются по умолчанию. Чтобы просмотреть метрики Spark, нажмите выпадающее меню Аппаратные и выберите Spark. Вы также можете выбрать GPU, если экземпляр поддерживает использование GPU.

Фильтрация метрик по периоду времени

Вы можете просмотреть исторические метрики, выбрав диапазон времени с помощью фильтра средства выбора дат. Метрики собираются каждую минуту, поэтому можно фильтровать по любому диапазону дня, часа или минуты за последние 30 дней. Щелкните значок календаря, чтобы выбрать из предопределенных диапазонов данных или щелкните внутри текстового поля, чтобы определить пользовательские значения.

Примечание.

Интервалы времени, отображаемые в диаграммах, корректируются на основе времени просмотра. Большинство метрик являются средними на основе интервала времени, который вы просматриваете в настоящее время.

Вы также можете получить последние метрики, нажав кнопку Обновить.

Просмотр метрик на уровне узла

По умолчанию на странице метрик отображаются метрики для всех узлов в кластере (включая драйвер) в среднем за период времени.

Метрики для отдельных узлов можно просмотреть, щелкнув раскрывающееся меню "Все узлы " и выбрав узел, для которого нужно просмотреть метрики. Метрики GPU доступны только на уровне отдельного узла. Метрики Spark недоступны для отдельных узлов.

Чтобы помочь выявить выбивающиеся из общего ряда узлы в кластере, вы также можете просмотреть метрики для всех отдельных узлов на одной странице. Чтобы получить доступ к этому представлению, щелкните раскрывающееся меню "Все узлы " и выберите "По узлу", а затем выберите подкатегорию метрик, которую вы хотите просмотреть.

Метрики кластера по узлам за последние 24 часа

Графики метрик аппаратного обеспечения

Для просмотра в пользовательском интерфейсе вычислительных метрик доступны следующие аппаратные диаграммы метрик:

  • Использование ЦП и активные узлы: график линии отображает количество активных узлов при каждом метке времени для заданного вычисления. Столбчатая диаграмма отображает процент времени, которое процессор затратил в каждом режиме, на основе общего времени работы процессора в секундах. Метрика использования — это среднее значение интервала времени, отображаемого на диаграмме. Ниже перечислены отслеживаемые режимы.
    • гость: если вы используете виртуальные машины, ЦП, который используют эти виртуальные машины
    • iowait: время, затраченное на ожидание ввода-вывода
    • бездействие: время, когда ЦП был бездействующим
    • irq: время, затраченное на запросы прерываний
    • приятно: время, используемое процессами, которые имеют положительную приятность, что означает более низкий приоритет, чем другие задачи
    • softirq: время, затраченное на запросы на прерывание программного обеспечения
    • кража: если вы являетесь виртуальной машиной, это время, которое другие виртуальные машины "украли" из ваших ЦПУ
    • система: время, затраченное на ядро
    • пользователь: время, затраченное на пользовательское пространство
  • Использование памяти и свопа: Линейный график показывает общее использование памяти и свопа, измеряемое в байтах и усредненное за отображаемый интервал времени. Столбчатая диаграмма показывает общее использование памяти по режимам, измеряемое в байтах и усредненное за указанный интервал времени. Отслеживаются следующие типы использования:
    • используется: общий объем используемой памяти на уровне ОС, включая память, используемую фоновыми процессами, выполняемыми в вычислительных ресурсах. Так как драйвер и фоновые процессы используют память, использование по-прежнему может отображаться даже при отсутствии заданий Spark.
    • свободно: неиспользуемая память
    • буфер: память, используемая буферами ядра
    • кэширован: память, используемая кэшем файловой системы на уровне ОС
  • Получено и передано по сети: количество байтов, полученных и переданных через сеть каждым устройством, усреднённое на основе интервала времени, отображаемого на диаграмме.
  • Свободное пространство файловой системы: общее использование файловой системы по каждой точке подключения, измеряемое в байтах и среднее значение на основе любого интервала времени, отображаемого на диаграмме.

Диаграммы метрик Spark

Для просмотра в пользовательском интерфейсе вычислительных метрик доступны следующие диаграммы метрик Spark:

  • Распределение нагрузки сервера: эти плитки показывают использование ЦП за последнюю минуту для каждого узла в вычислительном ресурсе. Каждая плитка — это ссылка на страницу метрик отдельного узла.
  • Активные задачи: общее количество задач, выполняемых в любое время, в среднем на основе любого интервала времени, отображаемого на диаграмме.
  • Общее количество неудачных задач: общее количество задач, которые завершились сбоем в исполнителях, в среднем на основе любого интервала времени, отображаемого на диаграмме.
  • Общее количество завершенных задач: количество задач, завершенных в исполнителях, усредненное на основе интервала времени, отображаемого на диаграмме.
  • Общее количество задач: общее количество всех задач (выполнение, сбой и завершение) в исполнителях, среднее значение в зависимости от интервала времени, отображаемого на диаграмме.
  • Общее количество операций чтения: общий размер данных перетасовки, измеряемый в байтах и средний на основе любого интервала времени, отображаемого на диаграмме. Shuffle read означает сумму сериализованных данных чтения на всех узлах-исполнителях в начале этапа.
  • Общий объём записанных данных при перетасовке: Общий размер записанных данных при перетасовке, измеряется в байтах и усредняется в зависимости от того, какой интервал времени отображается на диаграмме. Shuffle Write — это сумма всех записанных сериализованных данных для всех исполнителей перед передачей (обычно в конце этапа).
  • Общая продолжительность задачи: время, в течение которого JVM выполняла задачи на исполнителях, измеряемое в секундах и усредненное на основе временного интервала, отображаемого на диаграмме.

Диаграммы метрик GPU

Примечание.

Метрики GPU доступны только в Databricks Runtime ML 13.3 и выше.

Для просмотра в пользовательском интерфейсе вычислительных метрик доступны следующие диаграммы метрик GPU:

  • Распределение нагрузки сервера: на этой диаграмме показана загрузка ЦП за последнюю минуту для каждого узла.
  • Использование декодировщика на каждом GPU: процент использования декодировщика для каждого GPU, усреднённый в зависимости от времени, отображаемого на диаграмме.
  • Использование кодировщика для каждого GPU: процент использования кодировщика на каждом отдельном GPU, усреднённое по рассматриваемому временно́му интервалу, который отображается на диаграмме.
  • Байты использования памяти буфера кадров на графический процессор: использование памяти буфера кадров, измеряемое в байтах и усредненное на основе интервала времени, отображаемого на диаграмме.
  • Использование памяти на GPU: Процент использования памяти GPU, усредненный по интервалу времени, отображаемому на диаграмме.
  • Использование по каждому GPU: процент использования GPU, усредненный в зависимости от интервала времени, отображаемого на диаграмме.

Устранение неполадок

Если в течение периода отображаются неполные или отсутствующие метрики, это может быть одно из следующих проблем:

  • Сбой в службе Databricks, ответственной за запросы и хранение метрик.
  • Проблемы с сетью на стороне клиента.
  • Вычислительная система находится или находилась в неработоспособном состоянии.