Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry.
Дополнительные сведения о новом портале.
Примечание
Содержание в новой документации Microsoft Foundry может открываться по ссылкам в этой статье вместо документации Foundry (классической версии), которую вы просматриваете сейчас.
Важно
Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
Чтобы обеспечить непрерывность бизнес-процессов и подготовиться к аварийному восстановлению с помощью Microsoft Foundry, спланируйте заранее. Так как Foundry строится на архитектуре Машинное обучение Azure, ознакомьтесь с базовой архитектурой.
Microsoft стремится обеспечить доступность Azure служб. Однако могут возникнуть незапланированные сбои служб. Создайте план аварийного восстановления для обработки сбоев региональных служб. В этой статье описано, как:
- Планируйте развертывание Foundry и связанных ресурсов в нескольких регионах.
- Максимальное количество возможностей для восстановления журналов, записных книжек, образов Docker и других метаданных.
- Разработка решения для обеспечения высокой доступности.
- Переключение на другой регион в случае отказа.
Важно
Система Foundry сама по себе не обеспечивает автоматический переход в случае отказа или аварийное восстановление.
Примечание
Сведения, приведенные в этой статье, относятся только к проекту на основе концентратора. Сведения о аварийном восстановлении для проекта Foundry см. в разделе "Аварийное восстановление" для проектов Foundry и службы агента.
Общие сведения о службах Azure для Foundry
Foundry зависит от нескольких служб Azure. Вы настроили некоторые из этих служб в вашей подписке и несете ответственность за их настройку высокой доступности. Microsoft управляет некоторыми службами, созданными в подписке Microsoft.
Azure службы включают:
инфраструктура Foundry: управляемая среда Microsoft для центра Foundry и проекта. Машинное обучение Azure предоставляет основную архитектуру.
Необходимые связанные ресурсы: ресурсы, которые вы настраиваете в подписке при создании узла или проекта Foundry. К этим ресурсам относятся служба хранилища Azure и Azure Key Vault.
- Хранилище по умолчанию содержит модели, журналы обучения и ссылки на ресурсы данных.
- Azure Key Vault сохраняет учетные данные для служба хранилища Azure и подключений.
Необязательные связанные ресурсы: ресурсы, которые вы присоединяете к центру Foundry. К этим ресурсам относятся Реестр контейнеров Azure и Application Insights.
- Реестр контейнеров Azure хранит образы Docker для обучающих и инференсных сред.
- Application Insights отслеживает Foundry.
Вычислительный экземпляр: ресурс, создаваемый после развертывания концентратора. Она предоставляет среду разработки управляемых моделей Microsoft.
Подключения: Foundry подключается к другим службам. Вы несете ответственность за настройку параметров высокой доступности.
В следующих таблицах показаны службы Azure, которыми Microsoft управляет и которыми вы управляете. Они также указывают службы, высокодоступные по умолчанию.
Инфраструктура Foundry
| Сервис | Управляется | Высокий уровень доступности по умолчанию |
|---|---|---|
| Инфраструктура литейного цеха | Microsoft |
Связанные ресурсы
| Сервис | Управляется | Высокий уровень доступности по умолчанию |
|---|---|---|
| служба хранилища Azure | Вы | |
| Azure Key Vault | Вы | ✓ |
| Реестр контейнеров Azure | Вы | |
| Application Insights | Вы | Неприменимо |
Вычислительные ресурсы
| Сервис | Управляется | Высокий уровень доступности по умолчанию |
|---|---|---|
| Вычислительный узел | Microsoft |
Соединения
| Сервис | Управляется | Высокий уровень доступности по умолчанию |
|---|---|---|
| Подключения к внешним службам | Вы |
В остальной части этой статьи объясняется, как сделать каждую службу высокодоступной.
Планирование многорегионального развертывания
Многорегиональное развертывание зависит от создания ресурсов Foundry и другой инфраструктуры в двух регионах Azure. При возникновении регионального сбоя переключитесь на другой регион. При планировании развертывания ресурсов рассмотрите следующие возможности.
Региональная доступность: если это возможно, используйте регион в той же географической области, а не обязательно ближайший. Чтобы проверить доступность регионов для Foundry, см. статью Azure продукты по регионам.
Azure парные регионы: парные регионы координируют обновления платформы и обеспечивают приоритетное восстановление. Но не все регионы образуют пары. Дополнительные сведения см. в разделе парные регионы Azure.
Доступность службы: Решите, следует ли использовать горячий/горячий, горячий/тёплый или горячий/холодный для ресурсов решения.
- Горячий/горячий: оба региона активны одновременно, и любой регион готов к немедленному использованию.
- Горячий/Тёплый: основной регион активен. Дополнительный регион имеет критически важные ресурсы (например, развернутые модели), готовые к запуску. Разверните некритические ресурсы вручную в дополнительном регионе.
- Горячий или холодный: основной регион активен. В дополнительном регионе развернуты Foundry и другие ресурсы, а также необходимые данные. Развертывайте ресурсы, такие как модели, развернутые модели и конвейеры, вручную.
Совет
В зависимости от бизнес-требований, вы можете по-разному управлять службами Foundry.
Foundry основывается на других службах. Некоторые сервисы могут копироваться в другие регионы. Необходимо вручную создать другие службы в нескольких регионах. В следующей таблице перечислены службы, ответственные за репликацию, и обзор конфигурации:
| служба Azure | Географическая репликация с использованием | Конфигурации |
|---|---|---|
| Центр Foundry и проекты | Вы | Создайте концентратор и проекты в выбранных регионах. |
| Вычисления Foundry | Вы | Создайте вычислительные ресурсы в выбранных регионах. Для вычислительных ресурсов, которые могут динамически масштабироваться, убедитесь, что оба региона предоставляют достаточную квоту вычислений для ваших потребностей. |
| Хранилище ключей | Microsoft | Используйте один и тот же экземпляр Azure Key Vault с центром Foundry и ресурсами в обоих регионах. Azure Key Vault автоматически переключается на вторичный регион. Дополнительные сведения см. в разделе доступность и избыточность Azure Key Vault. |
| Учетная запись хранения | Вы | Машинное обучение Azure не поддерживает отработку отказа учетной записи хранения по умолчанию с помощью геоизбыточного хранилища (GRS), геозонально-избыточного хранилища (GZRS), геоизбыточного хранилища для чтения (RA-GRS) или геозонально-избыточного хранилища для чтения (RA-GZRS). Настройте учетную запись хранения в соответствии с вашими потребностями и используйте ее для центра. Все последующие проекты используют учетную запись хранения хаба. Дополнительные сведения см. в статье Резервирование служба хранилища Azure. |
| Реестр контейнеров Azure | Microsoft | Настройте экземпляр Реестр контейнеров Azure для георепликации в связанный регион для Foundry. Используйте один и тот же экземпляр для обоих центров. Дополнительные сведения см. в разделе Geo-replication in Реестр контейнеров Azure. |
| Application Insights | Вы | Создайте Application Insights для узла в обоих регионах. Для настройки периода удержания данных и сведений см. раздел "Сбор данных, удержание и хранение данных в Application Insights". |
Используйте следующие методики разработки, чтобы обеспечить быстрое восстановление и перезапуск в дополнительном регионе:
- Используйте шаблоны Azure Resource Manager. Шаблоны — это инфраструктура как код и позволяют быстро развертывать службы в обоих регионах.
- Чтобы избежать смещения между двумя регионами, обновите конвейеры непрерывной интеграции и развертывания для развертывания в обоих регионах.
- Создайте назначения ролей для пользователей в обоих регионах.
- Создайте сетевые ресурсы, такие как виртуальные сети Azure и частные конечные точки для обоих регионов. Убедитесь, что пользователи могут получить доступ к обеим сетевым средам. Например, настройте VPN и DNS для обеих виртуальных сетей.
Проектирование высокого уровня доступности
Зоны доступности
Некоторые службы Azure поддерживают зоны доступности. В регионах, поддерживающих зоны доступности, если зона выйдет из строя, проекты приостанавливаются, и рекомендуется сохранить ваши данные. Вы не можете обновлять данные, пока зона снова не станет доступна.
Дополнительные сведения см. в разделе "Поддержка службы зоны доступности".
Развертывание критически важных компонентов в нескольких регионах
Определите уровень непрерывности бизнес-процессов, необходимый. Уровень может отличаться от компонентов решения. Например, можно использовать горячую/горячую конфигурацию для рабочих конвейеров или развертываний моделей, а также горячую/холодную для разработки.
Foundry — это региональная служба и хранит данные как на стороне службы, так и в учетной записи хранения в подписке. При возникновении региональной аварии невозможно восстановить данные службы. Однако вы можете восстановить данные, которые служба хранит в учетной записи хранения вашей подписки, если включено резервирование хранилища. Данные на стороне службы в основном метаданные (теги, имена активов, описания). Данные в учетной записи хранения обычно не являются метаданными в отличие от загруженных данных.
Для подключений создайте два отдельных ресурса в двух разных регионах, а затем создайте два подключения для концентратора. Например, если средства Foundry критически важны для обеспечения непрерывности бизнес-процессов, создайте два ресурса ИИ и два концентратора подключений. Если один регион исчезнет, другой регион остается в рабочем состоянии.
Для всех центров, необходимых для обеспечения непрерывности бизнес-процессов, разверните ресурсы в двух регионах.
Изолированное хранилище
При подключении данных для настройки приложения ИИ эти наборы данных можно использовать в Azure ИИ и за пределами Azure ИИ. Объем набора данных может быть большим, поэтому рекомендуется хранить эти данные в отдельной учетной записи хранения. Оцените стратегию репликации данных, которая наиболее подходит для вашего варианта использования.
На портале Foundry создайте подключение к данным. Если у вас несколько экземпляров Foundry в разных регионах, можно указать одну и ту же учетную запись хранения, так как подключения работают между регионами.
Инициировать отказоустойчивость
Продолжать работу в узле резервного переключения
Если основной концентратор недоступен, переключитесь на дополнительный концентратор, чтобы продолжить разработку. Foundry не автоматически отправляет задания в дополнительный центр во время сбоя. Обновите конфигурацию, чтобы указать на вторичный концентратор или ресурсы проекта. Избегайте жестко закодированных ссылок на концентратор или проект.
Foundry не может синхронизировать или восстанавливать артефакты или метаданные между узлами. В зависимости от стратегии развертывания вам может потребоваться переместить или заново создать артефакты в узле аварийного переключения для продолжения. Если вы настроите первичный и вторичный центры для совместного использования связанных ресурсов с поддержкой георепликации, некоторые объекты могут быть доступны в резервном концентраторе. Например, оба узла могут совместно использовать одни и те же образы Docker, настроенные хранилища данных и ресурсы Azure Key Vault.
Примечание
Задания, выполняемые во время сбоя службы, не переходят автоматически во вторичный концентратор. Они также вряд ли возобновят работу и завершат её успешно в центральном узле после сбоя. Повторно отправьте эти задания в дополнительном хабе или в главном хабе после устранения сбоя.
Параметры восстановления
Удаление ресурсов
При удалении концентратора и его ресурсов некоторые ресурсы поддерживают мягкое удаление и могут быть восстановлены. Центры и проекты не поддерживают восстановимое удаление. Если удалить их, вы не сможете восстановить их. В следующей таблице показано, какие службы поддерживают обратимое удаление.
| Сервис | Мягкое удаление включено |
|---|---|
| Центр литейного производства | Неподдерживаемые |
| Проект Foundry | Неподдерживаемые |
| Ресурс инструментов Foundry | Да |
| служба хранилища Azure | См. статью "Восстановление удаленной учетной записи хранения". |
| Azure Key Vault | Да |
Устранение неполадок переключения на резерв
При возникновении проблем во время переключения резервирования проверьте следующие конфигурации:
- Управление доступом на основе ролей (RBAC): убедитесь, что у пользователей есть правильные разрешения в дополнительном регионе. Назначения ролей не реплицируются автоматически.
- Сеть. Убедитесь, что в дополнительном регионе есть необходимые сетевые ресурсы, такие как виртуальные сети, частные конечные точки и конфигурации DNS.
- Квота. Убедитесь, что в дополнительном регионе достаточно квоты для создаваемых вычислительных ресурсов.
- Хранилище. Убедитесь, что учетная запись хранения в дополнительном регионе доступна и имеет необходимые данные.
Связанное содержимое
- Дополнительные сведения о безопасных развертываниях инфраструктуры в Foundry см. в статье "Создание безопасного концентратора".
- Просмотрите соглашения об уровне обслуживания службы Azure.