Поделиться через


Рекомендации по обслуживанию решений Azure VMware Software-Defined Центра обработки данных (SDDC)

Решение Azure VMware выполняет периодическое обслуживание частного облака. Это обслуживание включает исправления безопасности, незначительные и основные обновления стека программного обеспечения VMware. На этой странице описаны рекомендации по мониторингу узла, исправлению и рекомендациям, которые помогут обеспечить готовность частного облака к обслуживанию.

Обслуживание узла и управление жизненным циклом

Одним из преимуществ частных облаков решения Azure VMware является то, что платформа поддерживается для вас. Корпорация Майкрософт отвечает за управление жизненным циклом устройств VMware (ESXi, vCenter Server и vSAN) и NSX. Корпорация Майкрософт также отвечает за загрузку конфигурации сети, например создание шлюза Уровня 0 и включение маршрутизации North-South. Вы отвечаете за конфигурацию SDN NSX: сегменты сети, распределенные правила брандмауэра, шлюзы уровня 1 и подсистемы балансировки нагрузки.

Замечание

Шлюз T0 создается и настраивается в рамках развертывания частного облака. Любое изменение этого логического маршрутизатора или виртуальных машин пограничных узлов NSX может повлиять на подключение к частному облаку и следует избежать.

Корпорация Майкрософт отвечает за применение любых исправлений, обновлений или модернизаций к ESXi, vCenter Server, vSAN и NSX в вашем частном облаке. Влияние исправлений, обновлений и модернизаций на ESXi, vCenter Server и NSX имеет следующие соображения.

  • ESXi. Рабочие нагрузки, выполняющиеся в вашем частном облаке, не будут затронуты. В настоящее время доступ к серверу vCenter Server и NSX не блокируется. В течение этого времени рекомендуется не планировать другие действия, такие как масштабирование частного облака, планирование или инициирование активных миграций HCX, изменение конфигурации HCX и т. д. в частном облаке.

  • vCenter Server — не влияет на рабочие нагрузки, выполняемые в частном облаке. В течение этого времени сервер vCenter Server недоступен, и вы не можете управлять виртуальными машинами (остановить, запустить, создать или удалить). Рекомендуется не планировать другие действия, такие как масштабирование частного облака, создание новых сетей и т. д. в частном облаке. При использовании пользовательских интерфейсов VMware Site Recovery Manager или vSphere Replication мы рекомендуем не делать следующее: не настраивать репликацию vSphere и не настраивать или выполнять планы восстановления сайтов во время обновления vCenter Server.

  • NSX — рабочая нагрузка затронута. При обновлении определенного узла виртуальные машины на этом узле могут потерять подключение от 2 секунд до 1 минуты с любым из следующих симптомов:

    • ошибки ping

    • Потеря пакетов

    • сообщения об ошибках (например, Хост назначения недоступен и Сеть недоступна).

    Во время этого периода обновления весь доступ к плоскости управления NSX блокируется. Вы не можете вносить изменения конфигурации в среду NSX в течение длительности. Рабочие нагрузки продолжают выполняться в обычном режиме, при условии, что воздействие обновления уже было подробно описано.

    Во время обновления рекомендуется не планировать другие действия, например масштабирование частного облака и т. д. в частном облаке. Другие действия могут предотвратить запуск обновления или негативно повлиять на обновление и среду.

Вы получите уведомление через службу работоспособности служб Azure, которая включает временную шкалу обновления. Это уведомление также содержит сведения об обновленном компоненте, его влиянии на рабочие нагрузки, доступ к частному облаку и другие службы Azure. При необходимости можно перепланировать обновление.

Существуют следующие виды обновлений программного обеспечения.

  • Исправления (patch) — обновления для системы безопасности и исправления ошибок, выпущенные VMware.

  • Обновления — изменение вспомогательной версии компонента стека VMware.

  • Улучшения — крупное изменение версии компонента стека VMware.

Замечание

Майкрософт проверяет критические исправления системы безопасности, как только они становятся доступными в VMware.

Описанные обходные решения для VMware используются вместо установки соответствующего исправления до тех пор, пока не будут развернуты следующие запланированные обновления.

Мониторинг и устранение неисправностей серверов

Решение Azure VMware постоянно отслеживает работоспособность компонентов VMware и подложек. Когда Решение Azure VMware обнаруживает сбой, оно выполняет действия по исправлению неисправных компонентов. Когда Azure VMware Solution обнаруживает ухудшение или сбой на узле Azure VMware Solution, оно запускает процесс исправления узла.

Исправление узла предполагает замену неисправного узла новым работоспособным узлом в кластере. Затем, когда это возможно, неисправный узел помещается в режим обслуживания VMware vSphere. VMware vSphere vMotion перемещает виртуальные машины с неисправного узла на другие доступные серверы в кластере, что потенциально обеспечивает нулевое время простоя для живой миграции нагрузок. Если неисправный узел не может быть переведен в режим обслуживания, этот узел удаляется из кластера. Перед удалением неисправного узла рабочие нагрузки клиента переносятся на недавно добавленный узел.

Подсказка

Взаимодействие с клиентом: сообщение электронной почты отправляется клиенту по адресу электронной почты до начала замены и снова после успешной замены.

Чтобы получать сообщения электронной почты, связанные с заменой узла, необходимо добавить в любую из следующих ролей Azure Role-Based управление доступом (RBAC) в подписке: ServiceAdmin, CoAdmin, "Владелец", "Участник".

Решение Azure VMware отслеживает следующие условия на узле:

  • Состояние процессора
  • Состояние памяти
  • Подключение и состояние электропитания
  • Состояние аппаратного вентилятора
  • Потеря сетевого подключения
  • Состояние аппаратной системной платы
  • Ошибки произошли на одном или нескольких дисках узла vSAN
  • Аппаратное напряжение
  • Состояние температуры оборудования
  • Статус энергопитания оборудования
  • Статус хранилища
  • Сбой подключения

Рекомендации по операциям обслуживания

Для успешного выполнения операций обслуживания узла всегда рекомендуется выполнить следующие действия:

  • Использование хранилища vSAN: Чтобы поддерживать соглашение об уровне обслуживания (SLA), убедитесь, что использование дискового пространства кластера vSphere остается ниже 75%. Если использование превышает 75%, обновления могут занять больше времени, чем ожидалось, или завершиться сбоем. Если использование хранилища превышает 75%, рассмотрите возможность добавления узла для расширения кластера и предотвращения потенциального простоя во время обновления.
  • Правила планировщика распределенных ресурсов (DRS): Правила защиты от сходства drS VM-VM должны быть настроены как минимум (N+1) в кластере, где N — это число виртуальных машин, входящих в правило DRS.
  • Нарушение политики отказоустойчивости (FTT): Чтобы предотвратить потерю данных, измените виртуальные машины, настроенные с помощью политики хранилища vSAN с отказоустойчивостью (FTT) 0, на политику хранилища vSAN, соответствующую соглашению об уровне обслуживания (SLA) Microsoft (FTT=1 для до пяти узлов в кластере и FTT=2 для шести или более узлов в кластере), и убедитесь, что операции обслуживания узлов могут выполняться бесперебойно.
  • Удалите монтирования виртуальных машин CD-ROM: Виртуальные машины, смонтированные в "режиме эмуляции", блокируют обслуживание узла CD-ROMs. Убедитесь, что CD-ROMs установлены в режиме транзитного подключения.
  • Последовательный или параллельный порт или внешнее устройство: Если вы используете файл изображения (ISO, FLP и т. д.), убедитесь, что он доступен для всех узлов ESXi в кластере. Сохраните файлы в хранилище данных, совместно используемые всеми серверами ESXi, участвующими в vMotion виртуальной машины. Дополнительные сведения см. в статье Broadcom KB.
  • Потерянные виртуальные машины: В случае осиротеющей виртуальной машины виртуальная машина должна быть зарегистрирована повторно (если она не была удалена) или удалена из инвентаризации. Дополнительные сведения см. в статье Broadcom KB.
  • Общий контроллер SCSI: При использовании общего доступа к шине SCSI с типом шины "Физический" для виртуальных машин. Виртуальные машины, подключенные к контроллерам Virtual SCSCI, будут отключены. Дополнительные сведения см. в статье Broadcom KB.
  • Сторонние виртуальные машины и приложения: Для сторонних виртуальных машин и приложений:
    • Убедитесь, что сторонние решения, развернутые в решении Azure VMware, соответствуют требованиям и не вмешиваются в операции обслуживания.
    • Убедитесь, что виртуальная машина не установлена с правилом DRS VM-Host "Должен выполняться". Кроме того, убедитесь, что эти приложения совместимы с предстоящими версиями стека VMware.
    • При необходимости обратитесь к поставщику решений и обновите его заранее, чтобы обеспечить совместимость после обновления.

Коды оповещений и таблица исправления

Код ошибки Сведения об ошибке Рекомендуемое действие
EPC_CDROM_EMULATEMODE (режим эмуляции CD-ROM) Эта ошибка возникает, когда CD-ROM на виртуальной машине использует режим эмуляции, образ ISO которого недоступен Следуйте этой статье базы знаний, чтобы удалить любой CD-ROM, подключенный к виртуальной машине клиента в эмуляторе, или отсоединить ISO. Рекомендуется использовать режим passthrough для монтирования любого компакт-диска.
EPC_DRSOVERRIDERULE Эта ошибка возникает при наличии виртуальной машины, у которой функция DRS отключена. Виртуальная машина не должна блокировать vMotion при переводе узла в режим обслуживания. Задайте правила частично автоматизированного аварийного восстановления для виртуальной машины. Дополнительные сведения о политиках размещения виртуальных машин см. в этом документе .
EPC_SCSIDEVICE_SHARINGMODE Эта ошибка возникает, когда виртуальная машина настроена на использование устройства, которое предотвращает операцию обслуживания: устройство, являющееся контроллером SCSI, который участвует в совместном использовании шины Следуйте этой статье из базы знаний, чтобы удалить любой контроллер SCSI, участвующий в разделении шины, подключенного к виртуальным машинам.
EPC_DATASTORE_INACCESSIBLE Эта ошибка возникает, когда любое внешнее хранилище данных, подключенное к частному облаку AVS, становится недоступным Следуйте этой статье , чтобы удалить любое устаревшее хранилище данных, подключенное к кластеру
EPC_NWADAPTER_STALE Эта ошибка возникает, когда подключенный сетевой интерфейс на виртуальной машине использует сетевой адаптер, который становится недоступным Следуйте этой статье базы знаний, чтобы удалить устаревшие сетевые адаптеры, подключенные к виртуальным машинам.
EPC_СЕРИЙНЫЙ_ПОРТ Эта ошибка возникает, когда последовательный порт виртуальной машины подключен к устройству, к которому не удается получить доступ на конечном узле. Если вы используете файл изображения (ISO, FLP и т. д.), убедитесь, что он доступен со всех серверов ESXi в кластере. Сохраните файлы в хранилище данных, которое совместно используется всеми серверами ESXi, участвующими в vMotion виртуальной машины. Дополнительные сведения см. в этой статье базы знаний из компании Broadcom.
EPC_HARDWARE_DEVICE Эта ошибка возникает при подключении параллельного порта или USB-устройства виртуальной машины к устройству, к которому не удается получить доступ на конечном узле. Если вы используете файл изображения (ISO, FLP и т. д.), убедитесь, что он доступен со всех серверов ESXi кластера. Сохраните файлы в хранилище данных, которое совместно используется для всех серверов ESXi, участвующих в vMotion виртуальной машины. Дополнительные сведения см. в этой статье базы знаний из компании Broadcom.
EPC_INVALIDVM / EPC_ORPHANVM Эта ошибка возникает, когда в инвентаре обнаружена осиротевшая или недопустимая виртуальная машина. Убедитесь, что все виртуальные машины доступны для vCenter. Дополнительные сведения см. в этой статье базы знаний

Замечание

Администраторы клиента решения Azure VMware не должны изменять или удалять ранее определенные оповещения VMware vCenter Server, так как они управляются плоскостем управления решения Azure VMware на сервере vCenter Server. Эти оповещения используются функцией мониторинга Решения Azure VMware для активации процесса исправления узла с помощью Решения Azure VMware.

Дальнейшие шаги

Теперь, когда вы рассмотрели рекомендации по обслуживанию частного облака Решения Azure VMware, вам может потребоваться узнать следующее: