Надежность в реестре устройств #REF!

#REF! Реестр устройств хранит сведения о ресурсах и устройствах в облаке. Реестр устройств отображает активы проектов как ресурсы #REF! в облаке в рамках единого реестра. Единый реестр является источником истины для метаданных устройств и ресурсов, а также возможностей управления ресурсами. Реестр устройств можно использовать вместе с Операции Интернета вещей Azure.

При использовании #REF! надежность является совместной ответственностью. Корпорация Майкрософт предоставляет ряд возможностей для поддержки устойчивости и восстановления. Вы несете ответственность за понимание того, как работают эти возможности во всех используемых вами службах, а также за выбор возможностей, необходимых для достижения бизнес-целей и целей бесперебойной работы.

В этой статье описывается, как обеспечить устойчивость реестра устройств к различным потенциальным сбоям и проблемам, в том числе временным сбоям, сбоям зоны доступности и сбоям регионов.

Замечание

Операции Интернета вещей Azure включает в себя различные другие компоненты за пределами реестра устройств. Подробные сведения о функциях высокой доступности и нулевой потери данных компонентов Операции Интернета вещей Azure см. в статье Операции Интернета вещей Azure часто задаваемые вопросы.

Устойчивость к временным сбоям

Временные ошибки являются короткими, периодическими сбоями в компонентах. Они часто происходят в распределенной среде, такой как облачная платформа, и являются обычной частью операций. Временные ошибки исправляют себя через короткий период времени. Важно, чтобы приложения могли обрабатывать временные ошибки, обычно повторяя затронутые запросы.

Все облачные приложения должны следовать #REF! рекомендации по обработке временных ошибок при обмене данными с любыми размещенными в облаке API, базами данных и другими компонентами. Дополнительные сведения см. в Рекомендациях по обработке временных сбоев.

Клиенты взаимодействуют с реестром устройств с помощью Azure Resource Manager. Как правило, вы используете портал #REF!, Azure CLI или #REF! для взаимодействия с ресурсами реестра устройств, и эти средства обеспечивают автоматическую обработку временных сбоев. Если вы используете Resource Manager API напрямую, обязательно обработайте временные ошибки.

Устойчивость к сбоям зоны доступности

Зоны Availability физически разделяют группы центров обработки данных в #REF! регионе. При сбое одной зоны службы могут переключиться на одну из оставшихся зон.

#REF! Реестр устройств по умолчанию является зонально избыточным, что означает, что данные автоматически реплицируются в нескольких зонах доступности. Эта настройка повышает устойчивость службы, обеспечивая высокий уровень доступности. Если в одной зоне произошел сбой, служба может продолжать работать без проблем из другой зоны.

Корпорация Майкрософт управляет установкой и конфигурацией для отказоустойчивости зоны в реестре устройств #REF!. Для обеспечения избыточности этой зоны вам больше не нужно выполнять настройку. Корпорация Майкрософт гарантирует, что служба настроена на обеспечение высокого уровня доступности и надежности.

Требования

Поддержка региона: Следующий список регионов поддерживает зоны доступности в реестре устройств:

Американский континент Европа
East US Западно-Центральная Германия
Восток США 2 North Europe
West US West Europe
Западная часть США 2
Западная часть США 3

Себестоимость

Дополнительные затраты на использование зональной избыточности для реестра устройств не предусмотрены.

Настройка поддержки зоны доступности

При создании ресурса реестра устройств в Операции Интернета вещей Azure автоматически избыточность между зонами по умолчанию. Вам больше не нужно выполнять настройку.

Поведение, когда все зоны работоспособны

В следующих сведениях описывается, что происходит при наличии реестра устройств с зональной избыточностью и все зоны доступности функционируют:

  • Маршрутизация трафика между зонами: Запросы автоматически распределяются по каждой зоне доступности. Запрос может перейти к экземпляру реестра устройств в любой зоне доступности.

  • Репликация данных между зонами: Данные устройства реплицируются синхронно в зонах доступности.

Поведение во время сбоя зоны

В следующих сведениях описано, что происходит, когда у вас есть реестр устройств с избыточностью между зонами, и происходит сбой в зоне доступности.

  • Обнаружение и реагирование: Поскольку реестр устройств автоматически обнаруживает и устраняет сбои в зоне доступности, вам не потребуется ничего предпринимать для переключения на резервную зону.
  • Уведомление: Корпорация Майкрософт не уведомляет вас об отключении зоны. Однако вы можете использовать Работоспособность служб Azure для понимания общего состояния службы, включая любые сбои зоны, и настроить оповещения Service Health для уведомления о проблемах.
  • Активные запросы: Некоторые активные запросы могут быть удалены, поэтому может потребоваться выполнить повторную обработку так же, как и другие временные ошибки. Чтобы убедиться, что приложение устойчиво к временным сбоям, см. статью "Устойчивость к временным сбоям".

  • Ожидаемая потеря данных: Ожидается, что сбой зоны не приведет к потере данных.

  • Ожидаемое время простоя: Ожидается, что сбой зоны не приведет к простою ресурсов.

Восстановление зоны

При восстановлении зоны доступности реестр устройств автоматически восстанавливает операции в зоне доступности.

Тестирование на сбои в зоне

Платформа реестра устройств управляет маршрутизацией трафика, отработкой отказа и восстановлением функционала в зонах доступности. Вам не нужно ничего инициировать. Так как эта функция полностью управляется, вам не нужно проверять процессы сбоя зоны доступности.

Устойчивость к сбоям на уровне региона

Реестр устройств — это служба с одним регионом. Если регион становится недоступным, ресурсы реестра устройств также недоступны.

Однако данные реестра реплицируются в парный регион. В случае длительного сбоя в регионе корпорация Майкрософт может выбрать переключение на парный регион. В этом случае реестр по-прежнему будет доступен в парном регионе.

Требования

Поддержка региона: Репликация и отработка отказа по умолчанию доступна во всех регионах, в которых доступен реестр устройств, так как все эти регионы связаны между собой.

Себестоимость

Для репликации данных между регионами или аварийного переключения не взимается дополнительная плата.

Настройка репликации и подготовка к переключению на резерв

По умолчанию репликация данных между различными регионами автоматически настраивается при создании ресурсов реестра устройств в регионе, который имеет пару. Этот процесс является параметром по умолчанию и не требует вмешательства от вас.

Поведение, когда все регионы работоспособны

В этом разделе описывается, чего ожидать, когда реестр устройств настроен для репликации данных между регионами и аварийного переключения, а основной регион находится в рабочем состоянии.

  • Репликация данных между регионами: Данные реплицируются автоматически в парный регион. Репликация выполняется асинхронно, что означает, что в случае сбоя ожидается некоторая потеря данных.

  • Маршрутизация трафика между регионами: В обычных операциях трафик передается только в основной регион.

Поведение во время сбоя региона

В этом разделе описывается, чего ожидать, когда реестр устройств настроен для кросс-региональной репликации и обеспечения отказоустойчивости, а в основном регионе происходит сбой.

  • Обнаружение и ответ: Корпорация Майкрософт может решить выполнить переключение, если потерян основной регион. Этот процесс может занять несколько часов после потери основного региона или даже дольше в некоторых сценариях. Отказоустойчивость ресурсов реестра устройств может не происходить одновременно с другими службами #REF!.

  • Notification: События сбоя региона можно отслеживать с помощью Работоспособность служб Azure. Настройте оповещения для получения уведомлений о проблемах на уровне региона.

  • Активные запросы: Все запросы, которые основной регион обрабатывает во время переключения на резервный узел, скорее всего, будут потеряны. Клиенты должны повторить запросы после завершения переключения на резервный сервер.

  • Ожидаемая потеря данных: Данные реплицируются асинхронно в парный регион. В результате ожидаются некоторые потери данных после переключения на резервный ресурс. Вы можете ожидать менее 15 минут возможной потери данных после переключения региона.

  • Ожидаемое время простоя: Ожидается примерно 24 часа простоя с момента утраты региона до момента, когда ресурс станет доступен в парном регионе.

  • Перенаправка трафика: Во время процесса переключения на резерв реестр устройств обновляет записи DNS, чтобы указывать на связанный регион. Все последующие запросы отправляются в парный регион.

    После завершения операции аварийного переключения для реестра, все операции с устройством и бэкенд-приложениями должны продолжать работать без необходимости ручного вмешательства.

Восстановление региона

При восстановлении основного региона реестр устройств автоматически восстанавливает операции в регионе.

Проверка сбоев в регионе

Платформа реестра устройств управляет маршрутизацией трафика, переключением на резервный режим и возвращением к нормальной работе в взаимосвязанных регионах. Вам не нужно ничего инициировать. Так как эта функция полностью управляется, вам не нужно проверять процессы сбоя в парных регионах.