Поделиться через


Аппаратные команды платформы без операционной системы

В этой статье описывается, как выполнять операции управления жизненным циклом на машинах с голым металлом (BMM). Эти действия следует использовать для устранения неполадок для восстановления после сбоев или при выполнении действий по обслуживанию.

Во-первых, ознакомьтесь с рекомендациями в статье "Рекомендации по работе с машинами без операционной системы" перед продолжением операций.

Перечисленные полужирным шрифтом действия считаются нарушающими (выключение, перезагрузка, переустановка системы, замена). Действие Cordon без evacuate параметра не считается разрушительным, а Кордон с evacuate параметром считается разрушительным.

  • Выключение физической машины (Bare Metal)
  • Запуск компьютера без операционной системы
  • Перезапуск компьютера без операционной системы
  • Сделайте чистую физическую машину недоступной для планирования (кордон без эвакуации, узел не освобождается от задач)
  • Сделайте физический сервер недоступным для задач (установите кордон и эвакуацию, освободите узел)
  • Сделать физическую машину доступной для планирования (снять запрет)
  • Повторное создание образа компьютера без операционной системы
  • Замена физического сервера

Caution

Не выполняйте никаких действий против серверов управляющей или контрольной плоскости без предварительной консультации с персоналом службы поддержки Майкрософт, поскольку это может повлиять на целостность кластера Operator Nexus.

Это важно

Отклонены несколько дестабилизирующих командных запросов к узлу контрольной плоскости Kubernetes (KCP). Эта проверка выполняется для поддержания целостности экземпляра кластера Nexus и предотвращения выхода из строя нескольких узлов KCP одновременно из-за одновременных нарушающих действий. Отклонение разрушительных команд может быть вызвано тем, что они уже выполняются на другом узле KCP, или тем, что полный KCP недоступен. Если несколько узлов становятся неработоспособными, это нарушает допустимое пороговое значение кворума контрольного уровня Kubernetes.

Перечисленные действия считаются разрушительными для компьютеров BareMetal (BMM):

  • Выключить BMM
  • Перезапуск BMM
  • Сделайте BMM недоступным для планирования (изолируйте с эвакуацией, освобождает узел от ресурсов)
  • Перезаливка образа BMM
  • Замените BMM

Оставляя только ненарушающие действия

  • Запуск BMM
  • Сделайте BMM недоступным для планирования (ограничение без эвакуации, не выводит узел в дренаж)
  • Сделать BMM доступным для планирования (снять ограничения)

Подсказка

В версии 2509.1 и выше можно отслеживать последние или выполняемые действия BMM на портале Azure. Дополнительные сведения см. в разделе "Мониторинг состояния" в свойствах JSON "Компьютер без операционной системы".

Предпосылки

  1. Установите последнюю версию соответствующих расширений CLI.
  2. Запрос доступа к запуску команд расширения сетевой инфраструктуры (NF) и сетевого облака CLI для оператора Azure Nexus.
  3. Войдите в Azure CLI и выберите подписку, в которой развернут кластер.
  4. Соберите следующие сведения:
    • Идентификатор подписки (SUBSCRIPTION)
    • Имя кластера (CLUSTER)
    • Группа ресурсов (CLUSTER_RG)
    • Управляемая группа ресурсов (CLUSTER_MRG) — ресурсы BareMetal Machines (BMM) присутствуют в управляемой группе ресурсов
    • Имя компьютера BareMetal (BMM_NAME), для которого требуются операции по управлению жизненным циклом

Выключение Bare Metal машины

Это важно

В редких случаях виртуальные машины Nexus не удается перезапустить после завершения работы или перезапуска BMM. Чтобы предотвратить эти случаи, отключите все виртуальные машины на BMM перед выключением или перезапуском BMM. Инструкции по поиску рабочих нагрузок, выполняемых в BMM, см. в cordon команде.

Эта команда выполнит power-off указанное bareMetalMachineName.

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Запуск компьютера без операционной системы

Эта команда выполнит start указанное bareMetalMachineName.

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Перезапуск компьютера без операционной системы

Это важно

В редких случаях виртуальные машины Nexus не удается перезапустить после завершения работы или перезапуска BMM. Чтобы предотвратить эти случаи, отключите все виртуальные машины на BMM перед выключением или перезапуском BMM. Инструкции по поиску рабочих нагрузок, выполняемых в BMM, см. в cordon команде.

Эта команда выполнит restart указанное bareMetalMachineName.

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Сделать сервер без операционной системы недоступным для планирования (кордон)

Вы можете сделать Bare Metal Machine недоступной для планирования, выполнив cordon команду. При выполнении команды cordon, рабочие нагрузки Operator Nexus не запланированы на машине Bare Metal, когда задан cordon. Любая попытка создать рабочую нагрузку на голом железе приводит к установке состояния рабочей нагрузки на cordoned. Существующие рабочие нагрузки продолжают работать на Bare Metal Machine, если рабочие нагрузки не выгружаются.

Очистка рабочих нагрузок компьютера без операционной системы

Команда cordon поддерживает evacuate параметр, для которого его значение False по умолчанию означает, что cordon команда предотвращает планирование новых рабочих нагрузок. Чтобы очистить рабочие нагрузки с помощью команды cordon, необходимо установить параметр evacuate на True. Рабочие нагрузки, выполняемые на физической машине, находятся в состоянии stopped, а физическая машина установлена в состояние pending.

Замечание

Рабочие нагрузки управления Nexus продолжают выполняться на физическом сервере даже после того, как сервер выведен из эксплуатации.

Оптимальной практикой является задать evacuate значение True при попытке выполнить какие-либо операции обслуживания на сервере Bare Metal. Для получения дополнительных рекомендаций ознакомьтесь с Рекомендациями по операциям с машинами на уровне оборудования.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Чтобы определить, выполняются ли какие-либо рабочие нагрузки на Bare Metal машине, выполните следующую команду:

Для виртуальных машин:

az networkcloud baremetalmachine show -n <nodeName> /
  --resource-group <resourceGroup> /
  --subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Для узлов кластера Nexus Kubernetes: (требуется вход в кластер Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Сделать физическую машину доступной для планирования (снять запрет)

Вы можете сделать физический сервер доступным для планирования (сервер может размещать рабочие нагрузки), выполнив uncordon команду. Все рабочие нагрузки в состоянии pending на выделенном физическом сервере restarted, если выделенный физический сервер uncordoned.

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Повторное создание образа машины на физическом оборудовании

Вы можете восстановить версию рантайма на машине без виртуализации, выполнив команду reimage. Действие reimage не влияет на файлы рабочей нагрузки арендатора на машине Bare Metal. Этот процесс повторно развертывает образ среды выполнения на целевой машине с архитектурой Bare Metal и выполняет шаги для повторного присоединения к кластеру с теми же идентификаторами.

В качестве рекомендации убедитесь, что рабочие нагрузки физического сервера удаляются с помощью команды cordon при установленном значении evacuate для True, прежде чем выполнять команду reimage. Для получения дополнительных рекомендаций ознакомьтесь с Рекомендациями по операциям с машинами на уровне оборудования.

Это важно

Избегайте операций записи или редактирования, выполняемых на узле с помощью доступа к компьютеру bare Metal. Это действие reimage требуется для восстановления поддержки Microsoft, и все изменения, внесенные в физическую машину, теряются при восстановлении узла в его ожидаемое состояние.

Предупреждение

Не выполняйте несколько baremetalmachine replace или reimage команд одновременно для одного ресурса BareMetal Machine (BMM). Одновременное выполнение replace и reimage оставляет серверы в неработоспособном состоянии. Прежде чем начинать другой, убедитесь, что любой из replace/reimage в BMM полностью завершен. Кроме того, избегайте выполнения последовательных reimage действий на BMM, который только что завершил replace действие, если не проводится указанная операция обслуживания.

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Замена физической машины

replace Используйте команду, когда сервер сталкивается с аппаратными проблемами, требующими полной или частичной замены оборудования. После замены компонентов, таких как системная плата или сетевая карта (сетевой адаптер), MAC-адрес физической машины изменится; однако IP-адрес iDRAC и имя узла останутся неизменными. После replace каждой операции обслуживания оборудования необходимо выполнить определенные действия. Ознакомьтесь с разделом Лучшие практики замены на "голом железе" для получения дополнительных сведений.

В выпуске 2506.2 значение пароля для iDRAC можно указать как универсальный идентификатор ресурса Key Vault (URI) или значение пароля. См. справочник по учетным данным Key Vault. Использование универсального кода ресурса (URI) вместо обычного пароля обеспечивает дополнительную безопасность.

Предупреждение

Не выполняйте несколько baremetalmachine replace или reimage команд одновременно для одного ресурса BareMetal Machine (BMM). Одновременное выполнение replace и reimage оставляет серверы в неработоспособном состоянии. Прежде чем начинать другой, убедитесь, что любой из replace/reimage в BMM полностью завершен. Кроме того, избегайте выполнения последовательных reimage действий на BMM, который только что завершил replace действие, если не проводится указанная операция обслуживания.

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<PASSWORD_URI or IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID> \
  --safeguard-mode <"All" or "None">

Это важно

Для действий замены, выполненных с помощью версии API и более поздних версий 2025-07-01-preview : по умолчанию действие замены использует защиту, которая предотвращает замену работоспособного компьютера (включен, готов, подготовлен, присоединен к кластеру), чтобы избежать ненужных нарушений. replace Если попытка при попытке компьютера работоспособна, действие отклоняется со следующим ответом:

(action rejected) cannot replace healthy machine (powered on, ready, provisioned, joined to cluster). Use --safeguard-mode None to override
Code: action rejected
Message: cannot replace healthy machine (powered on, ready, provisioned, joined to cluster). Use --safeguard-mode None to override

Чтобы переопределить защиту, укажите --safeguard-mode None:

replace Если действие завершается ошибкой из-за сбоя проверки оборудования, в ответе отображается определенная ошибка или сбой теста, как показано в replace следующих примерах. Эти сведения также можно найти в журнале действий для компьютера без операционной системы (Оператор Nexus). Код ошибки и сообщение об ошибке также включены в свойства JSON соответствующей BareMetalMachines_Replace операции.

Пример 1. Валидизация оборудования завершается ошибкой из-за некорректного URI хранилища ключей для учетных данных контроллера управления базовой платой (BMC)

$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=$KEY_VAULT_URI username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(failed to retrieve password from key vault) failed to get secret value from key vault: failed to get cluster key vault secret
Code: failed to retrieve password from key vault
Message: failed to retrieve password from key vault
Response: 400 Bad Request

Пример 2. Проверка оборудования не проходит из-за неверных учетных данных контроллера управления платой (BMC)

$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
Code: None
Message: BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]

Замечание

Если проверка оборудования завершается ошибкой из-за проблем с проверкой подлинности учетных данных BMC (неавторизованная проверка подлинности), действие отклоняется, но компьютер Bare Metal не помечается как сбой или переводится в состояние ошибки. "Сервер Bare Metal сохраняет текущее рабочее состояние, пока проверка оборудования сообщает об ошибке аутентификации учетных данных."

Пример 3. Проверка оборудования завершается сбоем из-за сбоя сети

$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
Code: None
Message: Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]

Дополнительные сведения об устранении неполадок с проверкой оборудования см. в разделе "Устранение неполадок с проверкой оборудования".