Высокий уровень доступности и аварийное восстановление для центральных проектов (классическая модель)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Примечание

Содержание в новой документации Microsoft Foundry может открываться по ссылкам в этой статье вместо документации Foundry (классической версии), которую вы просматриваете сейчас.

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Чтобы обеспечить непрерывность бизнес-процессов и подготовиться к аварийному восстановлению с помощью Microsoft Foundry, спланируйте заранее. Так как Foundry строится на архитектуре Машинное обучение Azure, ознакомьтесь с базовой архитектурой.

Microsoft стремится обеспечить доступность Azure служб. Однако могут возникнуть незапланированные сбои служб. Создайте план аварийного восстановления для обработки сбоев региональных служб. В этой статье описано, как:

  • Планируйте развертывание Foundry и связанных ресурсов в нескольких регионах.
  • Максимальное количество возможностей для восстановления журналов, записных книжек, образов Docker и других метаданных.
  • Разработка решения для обеспечения высокой доступности.
  • Переключение на другой регион в случае отказа.

Важно

Система Foundry сама по себе не обеспечивает автоматический переход в случае отказа или аварийное восстановление.

Примечание

Сведения, приведенные в этой статье, относятся только к проекту на основе концентратора. Сведения о аварийном восстановлении для проекта Foundry см. в разделе "Аварийное восстановление" для проектов Foundry и службы агента.

Общие сведения о службах Azure для Foundry

Foundry зависит от нескольких служб Azure. Вы настроили некоторые из этих служб в вашей подписке и несете ответственность за их настройку высокой доступности. Microsoft управляет некоторыми службами, созданными в подписке Microsoft.

Azure службы включают:

  • инфраструктура Foundry: управляемая среда Microsoft для центра Foundry и проекта. Машинное обучение Azure предоставляет основную архитектуру.

  • Необходимые связанные ресурсы: ресурсы, которые вы настраиваете в подписке при создании узла или проекта Foundry. К этим ресурсам относятся служба хранилища Azure и Azure Key Vault.

    • Хранилище по умолчанию содержит модели, журналы обучения и ссылки на ресурсы данных.
    • Azure Key Vault сохраняет учетные данные для служба хранилища Azure и подключений.
  • Необязательные связанные ресурсы: ресурсы, которые вы присоединяете к центру Foundry. К этим ресурсам относятся Реестр контейнеров Azure и Application Insights.

    • Реестр контейнеров Azure хранит образы Docker для обучающих и инференсных сред.
    • Application Insights отслеживает Foundry.
  • Вычислительный экземпляр: ресурс, создаваемый после развертывания концентратора. Она предоставляет среду разработки управляемых моделей Microsoft.

  • Подключения: Foundry подключается к другим службам. Вы несете ответственность за настройку параметров высокой доступности.

В следующих таблицах показаны службы Azure, которыми Microsoft управляет и которыми вы управляете. Они также указывают службы, высокодоступные по умолчанию.

Инфраструктура Foundry

Сервис Управляется Высокий уровень доступности по умолчанию
Инфраструктура литейного цеха Microsoft

Связанные ресурсы

Сервис Управляется Высокий уровень доступности по умолчанию
служба хранилища Azure Вы
Azure Key Vault Вы
Реестр контейнеров Azure Вы
Application Insights Вы Неприменимо

Вычислительные ресурсы

Сервис Управляется Высокий уровень доступности по умолчанию
Вычислительный узел Microsoft

Соединения

Сервис Управляется Высокий уровень доступности по умолчанию
Подключения к внешним службам Вы

В остальной части этой статьи объясняется, как сделать каждую службу высокодоступной.

Планирование многорегионального развертывания

Многорегиональное развертывание зависит от создания ресурсов Foundry и другой инфраструктуры в двух регионах Azure. При возникновении регионального сбоя переключитесь на другой регион. При планировании развертывания ресурсов рассмотрите следующие возможности.

  • Региональная доступность: если это возможно, используйте регион в той же географической области, а не обязательно ближайший. Чтобы проверить доступность регионов для Foundry, см. статью Azure продукты по регионам.

  • Azure парные регионы: парные регионы координируют обновления платформы и обеспечивают приоритетное восстановление. Но не все регионы образуют пары. Дополнительные сведения см. в разделе парные регионы Azure.

  • Доступность службы: Решите, следует ли использовать горячий/горячий, горячий/тёплый или горячий/холодный для ресурсов решения.

    • Горячий/горячий: оба региона активны одновременно, и любой регион готов к немедленному использованию.
    • Горячий/Тёплый: основной регион активен. Дополнительный регион имеет критически важные ресурсы (например, развернутые модели), готовые к запуску. Разверните некритические ресурсы вручную в дополнительном регионе.
    • Горячий или холодный: основной регион активен. В дополнительном регионе развернуты Foundry и другие ресурсы, а также необходимые данные. Развертывайте ресурсы, такие как модели, развернутые модели и конвейеры, вручную.

Совет

В зависимости от бизнес-требований, вы можете по-разному управлять службами Foundry.

Foundry основывается на других службах. Некоторые сервисы могут копироваться в другие регионы. Необходимо вручную создать другие службы в нескольких регионах. В следующей таблице перечислены службы, ответственные за репликацию, и обзор конфигурации:

служба Azure Географическая репликация с использованием Конфигурации
Центр Foundry и проекты Вы Создайте концентратор и проекты в выбранных регионах.
Вычисления Foundry Вы Создайте вычислительные ресурсы в выбранных регионах. Для вычислительных ресурсов, которые могут динамически масштабироваться, убедитесь, что оба региона предоставляют достаточную квоту вычислений для ваших потребностей.
Хранилище ключей Microsoft Используйте один и тот же экземпляр Azure Key Vault с центром Foundry и ресурсами в обоих регионах. Azure Key Vault автоматически переключается на вторичный регион. Дополнительные сведения см. в разделе доступность и избыточность Azure Key Vault.
Учетная запись хранения Вы Машинное обучение Azure не поддерживает отработку отказа учетной записи хранения по умолчанию с помощью геоизбыточного хранилища (GRS), геозонально-избыточного хранилища (GZRS), геоизбыточного хранилища для чтения (RA-GRS) или геозонально-избыточного хранилища для чтения (RA-GZRS). Настройте учетную запись хранения в соответствии с вашими потребностями и используйте ее для центра. Все последующие проекты используют учетную запись хранения хаба. Дополнительные сведения см. в статье Резервирование служба хранилища Azure.
Реестр контейнеров Azure Microsoft Настройте экземпляр Реестр контейнеров Azure для георепликации в связанный регион для Foundry. Используйте один и тот же экземпляр для обоих центров. Дополнительные сведения см. в разделе Geo-replication in Реестр контейнеров Azure.
Application Insights Вы Создайте Application Insights для узла в обоих регионах. Для настройки периода удержания данных и сведений см. раздел "Сбор данных, удержание и хранение данных в Application Insights".

Используйте следующие методики разработки, чтобы обеспечить быстрое восстановление и перезапуск в дополнительном регионе:

Проектирование высокого уровня доступности

Зоны доступности

Некоторые службы Azure поддерживают зоны доступности. В регионах, поддерживающих зоны доступности, если зона выйдет из строя, проекты приостанавливаются, и рекомендуется сохранить ваши данные. Вы не можете обновлять данные, пока зона снова не станет доступна.

Дополнительные сведения см. в разделе "Поддержка службы зоны доступности".

Развертывание критически важных компонентов в нескольких регионах

Определите уровень непрерывности бизнес-процессов, необходимый. Уровень может отличаться от компонентов решения. Например, можно использовать горячую/горячую конфигурацию для рабочих конвейеров или развертываний моделей, а также горячую/холодную для разработки.

Foundry — это региональная служба и хранит данные как на стороне службы, так и в учетной записи хранения в подписке. При возникновении региональной аварии невозможно восстановить данные службы. Однако вы можете восстановить данные, которые служба хранит в учетной записи хранения вашей подписки, если включено резервирование хранилища. Данные на стороне службы в основном метаданные (теги, имена активов, описания). Данные в учетной записи хранения обычно не являются метаданными в отличие от загруженных данных.

Для подключений создайте два отдельных ресурса в двух разных регионах, а затем создайте два подключения для концентратора. Например, если средства Foundry критически важны для обеспечения непрерывности бизнес-процессов, создайте два ресурса ИИ и два концентратора подключений. Если один регион исчезнет, другой регион остается в рабочем состоянии.

Для всех центров, необходимых для обеспечения непрерывности бизнес-процессов, разверните ресурсы в двух регионах.

Изолированное хранилище

При подключении данных для настройки приложения ИИ эти наборы данных можно использовать в Azure ИИ и за пределами Azure ИИ. Объем набора данных может быть большим, поэтому рекомендуется хранить эти данные в отдельной учетной записи хранения. Оцените стратегию репликации данных, которая наиболее подходит для вашего варианта использования.

На портале Foundry создайте подключение к данным. Если у вас несколько экземпляров Foundry в разных регионах, можно указать одну и ту же учетную запись хранения, так как подключения работают между регионами.

Инициировать отказоустойчивость

Продолжать работу в узле резервного переключения

Если основной концентратор недоступен, переключитесь на дополнительный концентратор, чтобы продолжить разработку. Foundry не автоматически отправляет задания в дополнительный центр во время сбоя. Обновите конфигурацию, чтобы указать на вторичный концентратор или ресурсы проекта. Избегайте жестко закодированных ссылок на концентратор или проект.

Foundry не может синхронизировать или восстанавливать артефакты или метаданные между узлами. В зависимости от стратегии развертывания вам может потребоваться переместить или заново создать артефакты в узле аварийного переключения для продолжения. Если вы настроите первичный и вторичный центры для совместного использования связанных ресурсов с поддержкой георепликации, некоторые объекты могут быть доступны в резервном концентраторе. Например, оба узла могут совместно использовать одни и те же образы Docker, настроенные хранилища данных и ресурсы Azure Key Vault.

Примечание

Задания, выполняемые во время сбоя службы, не переходят автоматически во вторичный концентратор. Они также вряд ли возобновят работу и завершат её успешно в центральном узле после сбоя. Повторно отправьте эти задания в дополнительном хабе или в главном хабе после устранения сбоя.

Параметры восстановления

Удаление ресурсов

При удалении концентратора и его ресурсов некоторые ресурсы поддерживают мягкое удаление и могут быть восстановлены. Центры и проекты не поддерживают восстановимое удаление. Если удалить их, вы не сможете восстановить их. В следующей таблице показано, какие службы поддерживают обратимое удаление.

Сервис Мягкое удаление включено
Центр литейного производства Неподдерживаемые
Проект Foundry Неподдерживаемые
Ресурс инструментов Foundry Да
служба хранилища Azure См. статью "Восстановление удаленной учетной записи хранения".
Azure Key Vault Да

Устранение неполадок переключения на резерв

При возникновении проблем во время переключения резервирования проверьте следующие конфигурации:

  • Управление доступом на основе ролей (RBAC): убедитесь, что у пользователей есть правильные разрешения в дополнительном регионе. Назначения ролей не реплицируются автоматически.
  • Сеть. Убедитесь, что в дополнительном регионе есть необходимые сетевые ресурсы, такие как виртуальные сети, частные конечные точки и конфигурации DNS.
  • Квота. Убедитесь, что в дополнительном регионе достаточно квоты для создаваемых вычислительных ресурсов.
  • Хранилище. Убедитесь, что учетная запись хранения в дополнительном регионе доступна и имеет необходимые данные.