Надежность в Управление Azure для Grafana

Управление Azure для Grafana предоставляет размещенные рабочие области Grafana для создания панелей мониторинга и визуализаций. Майкрософт управляет всей базовой инфраструктурой, включая вычислительные ресурсы, сети, хранилище и обновления служб.

При использовании Azure надежность является совместной ответственностью. Майкрософт предоставляет ряд возможностей для поддержки устойчивости и восстановления. Вы несете ответственность за понимание того, как работают эти возможности во всех используемых вами службах, а также за выбор возможностей, необходимых для достижения бизнес-целей и целей бесперебойной работы.

В этой статье описывается, как обеспечить устойчивость Управление Azure для Grafana к различным потенциальным сбоям и проблемам, в том числе временным сбоям, сбоям зоны доступности и сбоям регионов. В нем также описывается, как выполнять резервное копирование и восстановление из других типов проблем и выделяет ключевые сведения о соглашении об уровне обслуживания (SLA) Управление Azure для Grafana.

Рекомендации по развертыванию в рабочей среде для обеспечения надежности

Чтобы повысить надежность рабочих развертываний с помощью Управление Azure для Grafana, рекомендуется выполнить следующие действия:

  • Включите резервирование зоны при создании рабочей области для обеспечения устойчивости к сбоям зоны доступности.

  • Храните панели мониторинга и другие ресурсы Grafana в виде кода, например, экспортируя их с помощью API Grafana или CLI и сохраняя их в репозитории системы контроля версий, таком как GitHub. Используйте конвейеры непрерывной интеграции и непрерывной доставки (CI/CD) для развертывания панелей мониторинга в Управление Azure для Grafana. Этот подход поддерживает сценарии восстановления. Он также позволяет развертывать несколько экземпляров Grafana, включая экземпляры в разных Azure регионах при необходимости.

Обзор архитектуры надежности

В этом разделе описываются некоторые важные аспекты работы службы, наиболее релевантные с точки зрения надежности. В этом разделе представлена логическая архитектура, включающая некоторые ресурсы и функции, которые развертываются и используются. Он также обсуждает аппаратную архитектуру, которая содержит сведения о том, как работает служба изнутри.

Логическая архитектура

Основной ресурс Azure, который вы развертываете, является workspace. После развертывания рабочей области вы используете конечную точку Grafana рабочей области для настройки и взаимодействия с источниками данных, панелями мониторинга, визуализациями и другими ресурсами Grafana.

Физическая архитектура

При создании рабочей области внутренняя платформа Azure подготавливает следующие основные компоненты:

  • Серверы Grafana: Выделенные виртуальные машины, которые выполняют приложение Grafana. По умолчанию два сервера подготовлены для обеспечения высокой доступности и избыточности. Майкрософт полностью управляет этими серверами. Вы не видите их в подписке, вы не можете получить к ним доступ, и вы не несете ответственности за исправление, масштабирование или обслуживание.

  • Подсистема балансировки нагрузки: Подсистема балансировки нагрузки сети, которая распределяет входящие запросы браузера между серверами Grafana. Подсистема балансировки нагрузки отслеживает работоспособность сервера и автоматически направляет трафик от неработоспособных серверов.

  • Backend database: База данных База данных Azure для PostgreSQL, в которой хранятся конфигурация рабочей области и другие постоянные данные. Все серверы Grafana в рабочей области используют эту базу данных. Дополнительные сведения о устойчивости базы данных см. в разделе Reliability в База данных Azure для PostgreSQL.

Вы не видите и не управляете этими компонентами. Майкрософт развертывает и управляет ими от вашего имени.

Подсистема балансировки нагрузки отслеживает доступные серверы Grafana. Если один сервер становится неработоспособным, подсистема балансировки нагрузки отправляет все запросы на оставшийся сервер. Этот сервер подхватывает сеансы браузера, которые ранее обрабатывал сбойный сервер, на основе информации в общей базе данных. Между тем Управление Azure для Grafana восстанавливает или заменяет неработоспособный сервер.

Diagram с рабочей областью Управление Azure для Grafana, состоящей из двух виртуальных машин и подсистемы балансировки нагрузки, развернутой службой.

Схема архитектуры, на которой показана рабочая область Управление Azure для Grafana за общим шлюзом. Подсистема балансировки нагрузки распределяет трафик на два сервера Grafana, которые подключаются к общей базе данных.

Устойчивость к временным сбоям

Временные ошибки являются короткими, периодическими сбоями в компонентах. Они часто происходят в распределенной среде, такой как облачная платформа, и являются обычной частью операций. Временные ошибки исправляют себя через короткий период времени. Важно, чтобы приложения могли обрабатывать временные ошибки, обычно повторяя затронутые запросы.

Все облачные приложения должны следовать Azure рекомендации по обработке временных ошибок при обмене данными с любыми размещенными в облаке API, базами данных и другими компонентами. Дополнительные сведения см. в Рекомендациях по обработке временных сбоев.

Клиентские приложения можно создавать для взаимодействия с рабочей областью Grafana с помощью API Grafana. Убедитесь, что эти приложения следуют рекомендациям Azure по повторным попыткам для неудачных запросов.

Устойчивость к сбоям зоны доступности

Зоны Availability физически разделяют группы центров обработки данных в Azure регионе. При сбое одной зоны службы могут переключиться на одну из оставшихся зон.

Пространства Управление Azure для Grafana поддерживают зональную избыточность в поддерживаемых регионах Azure. При включении резервирования зоны серверы Grafana рабочей области распределяются по нескольким зонам доступности. Майкрософт выбирает зоны, которые использует ваша рабочая область. Другие ресурсы, такие как подсистема балансировки нагрузки сети, база данных и общий шлюз, также настроены для использования нескольких зон доступности.

Диаграмма, на которой показана рабочая область Управление Azure для Grafana с двумя экземплярами, каждый из которых находится в отдельной зоне доступности, а также с балансировщиком нагрузки с избыточностью между зонами.

Схема архитектуры, на которую показана рабочая область Управление Azure для Grafana, развернутая в трех зонах доступности. Подсистема балансировки нагрузки направляет трафик на серверы Grafana в зоне 1 и 2 и общую базу данных, которая охватывает все зоны.

Если вы не включите зональную избыточность, рабочая область может быть незональной или региональной, что означает, что серверы и другие компоненты могут размещаться в любой зоне доступности в пределах региона или в той же зоне. Если в регионе возникла проблема с любой зоной доступности, ваша операционная область может испытать простой.

Требования

Региональная поддержка: Поддержка зональной избыточности доступна в следующих регионах.

Американский континент Европа Азиатско-Тихоокеанский регион
Восток США North Europe Australia East
Южно-Центральный регион США East Asia
Западная часть США 3

Себестоимость

Избыточность зоны увеличивает затраты. Дополнительные сведения см. в разделе ценам Управление Azure для Grafana.

Настройка поддержки зоны доступности

  • Создайте новую рабочую область с включенными зонами доступности: Включите избыточность зон при создании рабочей области через портал Azure, Azure CLI, Bicep или шаблоны Azure Resource Manager (шаблоны ARM).

    Дополнительные сведения см. в разделе Включение зональной избыточности в Управление Azure для Grafana.

  • Настройте избыточность зоны в существующей рабочей области: Невозможно включить или отключить избыточность зоны в существующей рабочей области. Вместо этого необходимо создать новую рабочую область, использующую нужную конфигурацию избыточности зоны, перенести панели мониторинга и конфигурацию, а затем удалить существующую рабочую область.

Поведение, когда все зоны работоспособны

В этом разделе описывается, что следует ожидать при настройке рабочей области на устойчивость к сбоям между зонами, и все зоны доступности находятся в рабочем состоянии.

  • Маршрутизация трафика между зонами: Подсистема балансировки нагрузки, избыточной между зонами, автоматически распределяет входящие запросы по серверам Grafana. Оба сервера могут обрабатывать трафик.

  • Репликация данных между зонами: Изменения данных рабочей области реплицируются синхронно в нескольких зонах доступности. База данных Azure для PostgreSQL выполняет репликацию данных. Дополнительные сведения см. в разделе Reliability в База данных Azure для PostgreSQL. Управление Azure для Grafana не реализует дополнительную пользовательскую логику репликации за пределами того, что предоставляет платформа базы данных.

Поведение во время сбоя зоны

В этом разделе описывается, что следует ожидать при настройке рабочей области для зональной избыточности и при возникновении сбоя в одной из зон.

  • Обнаружение и реагирование: Платформа Azure обнаруживает и реагирует на сбой в зоне доступности. Вам не нужно инициировать переключение зоны при отказе.
  • Ожидаемая потеря данных: Во время сбоя зоны доступности не ожидается потеря данных.

  • Ожидаемое время простоя: Рабочая область может столкнуться с небольшим временем простоя, обычно ограничена несколькими секундами, а трафик перенаправляется на работоспособные серверы. Убедитесь, что клиентские приложения могут обрабатывать временные ошибки соответствующим образом, чтобы свести к минимуму последствия простоя.

  • Перенаправка трафика: Входящий трафик автоматически направляется на сервер в работоспособной зоне. Служба работает с уменьшенной производительностью во время отключения в зоне. Резервные серверы не подготавливаются в работоспособных зонах во время сбоя.

Восстановление зоны

Майкрософт автоматически управляет восстановлением зоны, включая восстановление объема услуг, когда затронутая зона снова восстанавливает работоспособность.

Тестирование на сбои в зоне

Платформа Azure управляет маршрутизацией трафика, переключением при сбое и восстановлением после сбоя для зонально избыточных рабочих областей. Эта функция полностью управляется, поэтому не требуется инициировать или проверять процессы сбоя зоны доступности.

Устойчивость к сбоям на уровне региона

Управление Azure для Grafana — это служба с одним регионом. Если регион недоступен, рабочая область также недоступна.

Индивидуальные решения для нескольких регионов для повышения устойчивости

Чтобы обеспечить устойчивость к региональным сбоям, можно развернуть несколько рабочих областей Grafana в разных регионах. В этом типе решения вы несете ответственность за:

  • Репликация панелей мониторинга и конфигурации между регионами. Например, можно применить согласованную конфигурацию в нескольких рабочих областях с помощью CI/CD и хранилища исходного кода.

  • Реализация маршрутизации трафика и отработки отказа на уровне приложения или клиента.

Резервное копирование и восстановление

Управление Azure для Grafana не предоставляет встроенные функции резервного копирования или восстановления для панелей мониторинга или других сущностей плоскости данных. Чтобы защититься от случайного удаления или повреждения:

  • Используйте API Grafana или CLI для экспорта панелей мониторинга и другой конфигурации Grafana.

  • Храните экспортированные панели мониторинга в репозитории системы управления версиями, например GitHub.

  • Используйте автоматизацию или конвейеры CI/CD для повторного развертывания панелей мониторинга и других конфигураций Grafana.

Для большинства решений не следует полагаться исключительно на резервные копии. Вместо этого используйте другие возможности, описанные в этом руководстве, для поддержки требований к устойчивости. Однако резервные копии защищают от некоторых рисков, которые другие методы не обеспечивают. Дополнительные сведения см. в статье "Что такое избыточность, репликация и резервное копирование?".

Устойчивость к обслуживанию служб

Майкрософт регулярно применяет обновления служб и выполняет другое обслуживание. Платформа Azure автоматически обрабатывает эти действия, обеспечивая простое и прозрачное обслуживание. Во время операций обслуживания вы можете заметить краткие прерывания. Обычно эти прерывания длились несколько секунд. Убедитесь, что клиентские приложения настроены для обработки временных сбоев , чтобы они были устойчивыми к коротким прерываниям.

Соглашение об уровне обслуживания

Соглашение об уровне обслуживания (SLA) для служб Azure описывает ожидаемую доступность каждой службы и условия, которые должно соответствовать вашему решению для достижения этого ожидания доступности. Дополнительные сведения см. в разделе SLAs для онлайн-сервисов.