Поделиться через


Подготовьте ваши облачные операции Azure

Управление средой Azure не только о сохранении освещения. Это касается поддержания системы управления и безопасности, обеспечивая согласованность облака с бизнес-целями с течением времени. По мере роста среды необходимо предотвратить смещение конфигурации, улучшить развертывания с помощью инфраструктуры в виде кода и эффективно управлять изменениями.

Методология управления Cloud Adoption Framework (CAF) представляет подход RAMP (Ready, Manage, Monitor, Protect) для создания этих возможностей. RAMP предоставляет структурированный способ упорядочить команды, определить обязанности и реализовать процессы и средства, которые обеспечивают безопасность, соответствие и устойчивость операций Azure. От повседневной администрации до мониторинга работоспособности и защиты от нарушений, RAMP помогает создать сильный операционный фундамент для долгосрочного успеха.

Схема, показывающая процесс управления CAF: готовность, администрирование, мониторинг и защита (RAMP).

Определение обязанностей по управлению

Эффективное управление Azure охватывает два уровня подотчетности: центральные (платформы) обязанности и обязанности рабочей нагрузки . Центральные обязанности применяются ко всей облачной инфраструктуре. Обязанности по управлению рабочей нагрузкой сосредоточены на отдельных приложениях или сервисах. Использование таблицы 1 для обеспечения того, чтобы операционная модель охватывала основные области управления облаком

Таблица 1. Основные обязанности по управлению облаком

Области управления облаком Обязанности центральной платформы Обязанности, связанные с рабочей нагрузкой
Compliance ▪ Определите операционные процедуры.
▪ Применение политик управления.
Следите за соблюдением и решайте возникающие проблемы или передавайте их на более высокий уровень по мере необходимости.
▪ Следуйте операционным процедурам.
▪ Совместите дизайн с политиками управления.
Безопасность ▪ Управление операциями безопасности всей организации.
▪ Управление удостоверениями в Microsoft Entra ID.
▪ Предоставьте доступ к подпискам Azure.
▪ Определение и обслуживание базовых показателей безопасности с помощью политики Azure и Microsoft Defender для облака.
▪ Контролируйте интеграцию защиты от угроз и реагирования на инциденты с Microsoft Sentinel.
▪ Реализуйте структуру безопасной рабочей нагрузки.
▪ Реагирование на оповещения и инциденты безопасности для конкретной рабочей нагрузки.
▪ Непрерывная оценка уязвимостей в рабочей нагрузке.
Управление ресурсами ▪ Определение и обслуживание иерархии ресурсов.
▪ Создайте подписки на нагрузки по запросу.
▪ Определите стратегию именования и тегов.
▪ Определите топологию сети.
▪ Настройте общую сеть (пиринг виртуальных сетей, локальное подключение).
▪ Управление перекрестной рабочей нагрузкой или общими ресурсами или службами.
▪ Отслеживайте ограничения подписки и обрабатывайте запросы на увеличение квоты.
▪ Управление подписками, специфичными для рабочих нагрузок (если делегировано).
▪ Управление группами ресурсов и ресурсами для каждой рабочей нагрузки.
▪ Соблюдайте и применяйте стандарты именования и тегов.
▪ Управление использованием ресурсов на уровне приложения, обеспечивая сохранение ресурсов в квотах подписки.
Развертывание ▪ Стандартизация и управление конвейерами и инструментами CI/CD (Azure DevOps, GitHub Actions).
▪ Определите эталонные шаблоны инфраструктуры как кода (Bicep, Terraform, шаблоны ARM).
▪ Предоставление основных рекомендаций по обеспечению безопасности конвейера (сканирование кода, управление секретами).
▪ Используйте центральную платформу CI/CD и шаблоны IaC для развертываний рабочих нагрузок.
▪ Реализуйте задачи развертывания для конкретных рабочих нагрузок (настройте параметры приложения, базу данных).
▪ Адаптация эталонных шаблонов к потребностям рабочей нагрузки при соблюдении центральных рекомендаций.
Развитие ▪ Предоставьте и применяйте стандартные цепочки инструментов разработки и платформы для ускорения согласованности (стандарты программирования, рекомендации DevOps).
▪ Сохраняйте внутренние репозитории или каналы пакетов для общих библиотек или модулей.
▪ Внедрение и адаптация стандартных цепочк инструментов для разработки рабочих нагрузок.
▪ Управлять жизненным циклом приложения и использовать лучшие практики (модульное тестирование, интеграционное тестирование).
▪ Управление непрерывным улучшением базы кода рабочей нагрузки.
Контроль ▪ Планирование стратегии мониторинга.
Оповещение о централизованных обязанностях.
▪ Предоставьте панели мониторинга для общих операционных метрик в среде.
▪ Мониторинг рабочей нагрузки
▪ Расширьте или настройте центральные оповещения для отслеживания условий, относящихся к рабочей нагрузке.
▪ Изучите и исправьте инциденты на уровне рабочей нагрузки на основе оповещений и журналов.
Себестоимость ▪ Выделение глобальных или облачных бюджетов на уровне подписки
▪ Отслеживайте расходы в облаке организации и создавайте отчеты о затратах.
▪ Выделение затрат для бизнес-единиц или продуктов, обычно с помощью тегов или пользовательских моделей распределения затрат.
▪ Примените стратегию тегов для распределения затрат.
Оптимизация затрат при проектировании рабочих нагрузок
▪ Соблюдайте ограничения бюджета.
Reliability ▪ Определите требования к надежности (SLO, RPO, RTO) для каждой рабочей нагрузки.
▪ Предоставьте рекомендации по непрерывности бизнес-процессов и аварийному восстановлению (BCDR).
▪ Управление централизованным решением аварийного восстановления .
▪ Поддержка управления крупными инцидентами во всех рабочих нагрузках.
▪ Разработка рабочей нагрузки в соответствии с требованиями к надежности.
Performance ▪ Отслеживайте и поддерживайте производительность в централизованных компонентах (центральной сети, общих службах).
▪ Укажите рекомендации по оптимизации производительности и планированию емкости.
▪ Мониторинг квоты
▪ Разработка рабочей нагрузки для повышения производительности.

Настройка облачных операций

Используйте обязанности, описанные в таблице 1 , для создания эффективной операционной основы. Четко определите команды, стандарты и процессы, выполнив следующие действия:

  1. Определите модель облачных операций. Выберите централизованную, общую или децентрализованную облачную операционную модель на основе размера и зрелости вашей организации. Инструкции см. в разделе "Выбор облачной операционной модели"

  2. Назначьте обязанности для центральной платформы. Создайте выделенную команду для выполнения задач центрального управления. Разработка матрицы навыков из таблицы 1 для выявления необходимых знаний.

  3. Назначьте обязанности по распределению нагрузки. Настройте специализированные команды для задач, относящихся к рабочей нагрузке. Определите обязанности, используя таблицу 1 , а затем набирайте соответствующим образом. Используйте Платформу Azure Well-Architected Framework и ее компонент Операционная эффективность, чтобы руководствоваться в управлении вашими обязанностями по нагрузкам.

  4. Назначьте ответственность. Назовите конкретных владельцев для всех обязанностей по управлению облаком. В совместной модели управления команды, которые занимаются рабочей нагрузкой, должны иметь автономию для управления своими подписками.

Документируйте облачные операции

Четко документируйте облачные операции, чтобы обеспечить эффективное реагирование на кризис и плавное внедрение изменений. Создайте общие процедуры и создайте подробные руководства для частых и конкретных задач.

Документирование операционных процедур

Определите операционные процедуры для управления изменениями, аварийного восстановления и стандартных задач обслуживания, которые не могут обрабатывать автоматизацию. Выполните следующие действия:

  1. Определите процедуры управления изменениями. Изменение является основной причиной сбоя в облаке. Разработайте стандартизованный процесс для управления изменениями, чтобы избежать сбоев в облачной среде. См. статью "Управление изменениями".

  2. Определение процедур развертывания (управление выпусками). Для поддержания согласованной конфигурации, стандартизации развертываний, выпусков и повышения уровня среды. См. раздел "Управление развертываниями".

  3. Определение процедур аварийного восстановления и непрерывности бизнес-процессов. Чтобы справиться с потенциальными сбоями, подготовьте стандартный план реагирования. См. статью "Управление аварийным восстановлением и непрерывностью бизнес-процессов".

  4. Определите дополнительные процедуры. Документируйте процессы управления запросами на обслуживание, установкой патчей и управлением конфигурацией. Четко задокументируйте эти процессы, чтобы заинтересованные лица знали, как инициировать или завершить каждую задачу.

Руководство по работе с документами

Создайте подробные пошаговые руководства (руководства Runbook или плейбуки) для ключевых задач операционной деятельности. Эта подготовка обеспечивает согласованное выполнение, повышает эффективность и сокращает время разрешения во время критических событий.

  1. Определите ежедневные задачи. Подготовьте руководства, охватывающие ежедневные обязанности, такие как запросы на повышение привилегий и проверки журналов. Установите стандартные операционные процедуры (SOP) для мониторинга метрик, пороговых значений оповещений и панелей мониторинга для каждой системы.

  2. Создайте библиотеку рабочих книг, связанных с Azure. Создайте рабочие книги, связанные с Azure, для сценариев, таких как:

    Scenario Example
    Высокая загрузка ЦП Управление увеличением масштаба в Службе приложений Azure
    Отказоустойчивость и восстановление после сбоя Отказоустойчивость и восстановление после отказа в Azure Site Recovery
    Развертывания с использованием blue-green стратегии Развертывание Blue/green в Azure Front Door
    Восстановление резервного копирования Восстановление резервного копирования в Azure Blob Storage и Azure Cosmos DB
  3. Сохраните эти рабочие книги в центральном репозитории. Сохраняйте рабочие книги в центральном репозитории, доступные дежурным инженерам для немедленного использования во время инцидентов.

  4. Реализуйте операции программным путем. Интегрируйте инфраструктуру как код в ваши runbooks для последовательного и точного развертывания общих ресурсов каждый раз.

  5. Проверка и обновление. Периодически просматривайте и пересматривайте документацию, чтобы отразить операционные корректировки и обновления облачной службы.

Инструменты и решения для документов

Очистка документации обеспечивает согласованность, снижает операционные риски и повышает эффективность команды. Создание и обслуживание комплексной документации по облачным средствам. Регулярно обновляйте документацию, чтобы отразить текущие методики и обеспечить легкий доступ для всех участников команды.

Area Примеры преимуществ
Integration Стандартизация упрощает интеграцию путем консолидации журналов и репозиториев кода.
Automation Повторное использование шаблонов IaC, скриптов автоматизации и лучших практик в различных командах и проектах.
Управление инцидентами Выявление проблем и разработка мер по их устранению, которые интегрируются в циклы выпуска.

Управление облачными операциями

Эффективное управление облаком оптимизирует операционную эффективность, сокращает время простоя и определяет роли и обязанности. Стандартизация облачных операций с помощью автоматизации и структурированных процессов поддержки. Выполните следующие операционные рекомендации.

  • Обеспечьте круглосуточную поддержку облачных решений. Организуйте поддержку 24/7 посредством работы глобальных команд, использующих модель «после захода солнца», или структуру дежурств на вызове. Четко определите обязанности по обеспечению своевременного реагирования и разрешения критически важных инцидентов. Настройте автоматические оповещения , чтобы немедленно уведомить назначенных сотрудников службы поддержки.

  • Автоматизация повторяющихся работ. Использование возможностей автоматизации Azure для минимизации ручных процессов и уменьшения рабочих накладных расходов. Автоматизация стандартных действий для устранения ошибок, оптимизации рабочих процессов и предоставления командам сосредоточиться на стратегических приоритетах.

    Вариант использования Примеры
    Automation Автоматизация рабочих процессов в системах Azure Boards или ITSM. Шаблоны рабочих элементов "Запрос на изменение" и "Инцидент".
    Реагирование на инциденты Чтобы автоматически генерировать тикеты на инциденты с заполненными стандартными полями, интегрируйте Azure Monitor и Azure Service Health с системой управления тикетами.
    Управление изменениями Используйте Azure Logic Apps для автоматического утверждения изменений с низким риском или автоматического устранения определенных инцидентов.
    Compliance Используйте политику Azure для принудительного применения и мониторинга соответствия облачным требованиям.
    Безопасность Используйте Microsoft Defender для облака и Microsoft Sentinel для автоматизации обнаружения угроз безопасности и реагирования. Используйте систему управления идентификаторами Microsoft Entra для проверки разрешений и автоматизации управления разрешениями.

Улучшение операций

Оптимизируйте облачную среду Azure, повышая непрерывное улучшение. Регулярно оценивать операции и определять приоритеты текущего обучения и обратной связи. Выполните следующие действия:

  1. Просмотр операций для улучшения. Следуйте рекомендациям по мониторингу работоспособности, соответствия, безопасности, затрат, данных и облачных ресурсов. Проводите еженедельные операционные проверки, чтобы обсудить ключевые метрики, недавние инциденты, развернутые изменения и ожидаемые риски. Активно устранять расползание ресурсов и технический долг.

  2. Обучение для операций. Способствовать непрерывной разработке навыков путем приоритета основных ресурсов обучения. Поддержание динамических облачных операций с помощью практических учебных сред. В следующей таблице приведены ресурсы для обучения операций.

    Обучение операционной деятельности Description
    Получение учетных данных Задайте цели для аккредитаций Майкрософт, таких как приобретенные навыки и сертификации Майкрософт для развития мастерства.
    Использование операционных ресурсов См. сведения о ресурсах управления Azure.
    Использование документации по продукту Используйте Microsoft Learn , чтобы найти рекомендации по службам Azure.
    Получите практический опыт Поощряйте практическую работу в тестовых песочницах.

Ресурсы управления Azure

Категория Ресурс управления Description
Compliance Управление CAF Фреймворк управления облачными ресурсами Майкрософт
Безопасность Управление операциями безопасности Руководство по управлению операциями безопасности
Безопасность Средство безопасности Майкрософт Список средств безопасности Майкрософт и Azure
Безопасность Безопасность рабочей нагрузки Руководство по рабочей нагрузке для обеспечения безопасности
Управление ресурсами Стратегия именования и тегов Рекомендации по именованию и тегам для управления ресурсами
Управление ресурсами Сокращение Azure Список аббревиаций для ресурсов Azure
Управление ресурсами Помощник по Azure Цифровой помощник, который соответствует рекомендациям Azure.
Управление ресурсами Правила именования Azure Правила именования для всех ресурсов Azure
Управление ресурсами Руководства по службе Azure Руководство по принятию решений по настройке службы
Развитие Разработка программного обеспечения рабочей нагрузки Руководство по рабочей нагрузке для разработки программного обеспечения
Развитие Центр архитектуры Azure Архитектура и руководства для различных вариантов использования
Развитие Концентратор ресурсов разработчика Центр инструментов и ресурсов для разработчиков
Развертывание Bicep, Terraform и шаблоны ARM Шаблоны IaC для каждого ресурса Azure
Развертывание Пары регионов Azure Список парных регионов Azure
Развертывание Каталог облачных служб Azure Каталог всех служб Azure
Развертывание Развертывание рабочей нагрузки Руководство по рабочей нагрузке для непрерывной интеграции
Контроль Мониторинг облачного пространства Azure Комплексное руководство по мониторингу Azure
Контроль Мониторинг рабочей нагрузки Руководство по управлению нагрузкой для мониторинга
Себестоимость Управление затратами Руководство по управлению затратами
Себестоимость Оптимизация затрат рабочей нагрузки Руководство по оптимизации затрат с учетом рабочей нагрузки
Reliability Управление надежностью данных Руководство по обеспечению надежности данных
Reliability Управление надежностью облачных ресурсов Руководство по обеспечению надежности ресурсов
Reliability Управление инцидентами безопасности Рекомендации по реагированию на инциденты безопасности
Performance Эффективность производительности рабочей нагрузки Руководство по производительности рабочей нагрузки

Дальнейшие шаги