Модель зрелости операционного превосходства

Путь к операционному совершенству — это процесс непрерывных улучшений, где каждый этап основывается на предыдущем, чтобы повысить эффективность и действенность в проектировании, реализации и поддержке рабочих процессов.

В основном это о упрощении ключевых методик, таких как развертывание, мониторинг, тестирование и автоматизация. Путешествие начинается с сильного фундамента: общий словарь, стандартизованные практики и мышление DevOps, которое поощряет совместную работу и стабильность. Оттуда стандартизация вводит согласованность и прогнозируемость в процессы. По мере того как команды становятся более опытными, отдельные задачи развиваются в интегрированных рабочих процессах, поддерживаемых рабочими возможностями, такими как автоматизированное тестирование, интеллектуальный мониторинг и непрерывная интеграция.

Когда системы вводятся в эксплуатацию в рабочей среде, операции усложняются. Команды оснащены для быстрого и надежного управления изменениями, соблюдения стандартов качества и уверенной реализации запросов на функции от продуктовых владельцев.

Самый зрелый этап — это все о оптимизации и инновациях. Здесь команды работают в масштабе, непрерывно адаптируя системы в режиме реального времени для удовлетворения изменяющихся бизнес-потребностей и технологических сдвигов. Однако это не фиксированное назначение; это динамическое мышление, готовность к постоянному улучшению и адаптации.

Модель структурирована на пяти отдельных уровнях зрелости, каждая из которых имеет основную цель и набор основных стратегий. Чтобы добиться значимых результатов производительности, начните оценивать, где искусственный интеллект может быть внедрен в свои операции с самого начала. Используйте приведенные ниже вкладки, чтобы изучить каждый уровень. Не забудьте также проверить выделенные компромиссы и связанные риски по ходу выполнения.

Значок цели Модернизировать операции посредством намеренного внедрения инструментов с поддержкой ИИ, чтобы уменьшить ручной труд, подверженный ошибкам, и обеспечить измеримую ценность.

Оценка рабочих процессов от начала до конца, чтобы определить, где ИИ может повысить согласованность и производительность, прагматически балансируя затраты, риски и время до достижения ценности.

Купить: готовые решения GenAI

У готовых средств GenAI есть встроенные возможности ИИ. Они могут быть широко классифицированы по намерению. Один из них — это универсальные интерактивные средства помощи, такие как GitHub Copilot, которые зависят от контекста и могут использоваться для различных задач. Эти средства не требуют установки и предоставления поддержки с учетом контекста, внедренной непосредственно в существующие рабочие процессы разработчика. Другая категория — это специально созданные средства и агенты, такие как агенты развертывания, агенты SRE, предназначенные для конкретных функций. Их можно интегрировать для повышения производительности разработчиков с помощью помощников по интегрированной среде разработки и интерфейса командной строки.

Существуют также службы Azure с интегрированными функциями ИИ, которые могут сопровождаться дополнительными затратами.

Сборка: GenAI с пользовательской реализацией

Custom GenAI внедряет ИИ непосредственно в рабочие процессы и рабочие процессы разработки, адаптированные к определенной рабочей нагрузке. Пользовательские агенты могут извлекать контекст из билетов, репозиториев кода, метрик и систем мониторинга для получения аналитических сведений, которые отражают текущее состояние операций и действовать в пределах определенных границ.

Более сложные реализации могут создавать и проверять код или инфраструктуру на основе внутренних стандартов, маршрутизировать работу на основе опыта или доступности, а также применять пользовательские модели машинного обучения для специализированных прогнозов. Этот подход обеспечивает более глубокую автоматизацию и более жесткое согласование с организационными процессами, но требует постоянного инвестиций в проектирование, качество данных, управление, безопасность и обслуживание.

Функциональные шаблоны ИИ

Ниже приведены некоторые из наиболее распространенных и подходных возможностей искусственного интеллекта, которые используются на практике, но этот список не является исчерпывающим. Используйте это в качестве вдохновения, чтобы оценить, где в ваших операциях можно внедрить ИИ для повышения производительности.

Замечание

Внедрение должно выполняться намеренно с течением времени: начните с ориентированных вариантов использования, таких как суммирование или создание контента, а затем введите агентские интерфейсы, которые перерабатывают задачи и рабочие процессы по мере роста возможностей и уверенности. На более высоком уровне зрелости многоагентные системы работают в интегрированных системах и данных для поддержки более сложных операционных сценариев.

Сводка. Средства искусственного интеллекта, которые считывают и конденсируют информацию из документов, отчетов, журналов или бесед, создавая краткие сводки, ключевые точки, используя язык и терминологию, которые пользователи будут понимать.
Рекомендации. Средства искусственного интеллекта, которые анализируют несколько источников данных вместе для обнаружения шаблонов и предоставления рекомендаций по контексту для операционных решений.
Создание артефактов. Средства искусственного интеллекта, которые преобразуют письменные требования в исполняемый код, определения инфраструктуры и автоматические тесты при соблюдении определенных стандартов.
Проверка политики. Средства искусственного интеллекта, которые просматривают код, конфигурации и рабочие процессы в соответствии с политиками, стандартами и проектными документами для обеспечения соответствия требованиям.
Действия по оптимизации. Средства искусственного интеллекта, использующие аналитические сведения в артефактах для маршрутизации работы и принятия решений.

Caution

Меры защиты не являются гипотетическими при привлечении агентов. Одна неконтролируемая модель, одна неисправная автоматизация или один параметр чрезмерного доступа может распространять ошибки, утечку конфиденциальных данных или компрометировать операционную целостность в масштабе.

Для защиты конфиденциальных данных все платформы должны применять строгое маскирование ПДн и ограничение доступа для безопасности. Пользователи видят только те выходные данные, к доступу к которых они авторизованы. Это означает, что выходные данные ИИ могут быть неполными, но полная видимость сопряжена с риском потенциального воздействия.

Анализ человека остается обязательным, особенно для архитектуры, безопасности и операционных проблем. Проверки должны сосредоточиться на намерении и рисках, а также на соответствии стандартам организации, вместо внимания к синтаксическому уровню деталей. Отзывы о проверках должны быть записаны для непрерывного улучшения запросов, шаблонов и стандартов.

✓ Агенты суммирования

Агенты суммаризации обычно используют простую архитектуру в стиле Copilot с понятным процессом извлечения и генерации ответов, что делает их относительно простыми для реализации и эксплуатации.

Риск: Суммирование несет риск правильности, особенно при синтезе в нескольких документах. Хотя ошибки не могут быть полностью устранены, операционный риск может быть сокращен с помощью объяснимости и добавочной навигации. Системы должны четко указывать, какое содержимое было обобщено и позволяет пользователям детализировать исходный материал для проверки.

Затраты на вывод могут накапливаться с течением времени. Перенаправляйте простые запросы к меньшим, менее затратным моделям, и резервируйте более сложные модели для сложного синтеза многодокументных материалов, принимая во внимание дополнительную оркестрацию, которая может потребоваться. Предоставьте краткие начальные сводки и позволить пользователям детализировать вспомогательные сведения и исходное содержимое.

Управление данными представляет дополнительные скрытые затраты. Активно управляйте жизненным циклом данных, чтобы предотвратить раздувание индекса, вызванное устаревшими документами или лишними версиями. Если требуется исторический контекст, сохраните предварительное содержимое путем преднамеренного управления версиями, а не неконтролируемого дублирования.

Прямая обратная связь пользователей ценна. Захватить входные данные о качестве и полезности резюме и использовать их для оценки решений маршрутизации моделей, эффективности индексов и влияния стратегий кэширования и предварительной обработки.

Примеры

Культура DevOps OE:01. Извлеките структурированные элементы, такие как действия, ответственные, крайние сроки и оценки рисков из неструктурированных документов.
Ответ на инцидент OE:08. Сводите инциденты, посмертные отчеты, выявленные проблемы безопасности и отчеты аудита, чтобы быстро получить представление об области, влиянии и результатах.

✓ Агенты рекомендаций

Агенты ИИ, предоставляющие рекомендации, полагаются на модели, ориентированные на обоснование, способные анализировать несколько источников данных. Эти модели должны иметь достаточную аналитическую глубину, чтобы поддерживать корреляцию между источниками, а не полагаться на упрощенные или чисто генеривные подходы.

Компромисс: Хотя более широкий охват может добавить ценность, перекрестные ссылки могут иметь неправильный вес или несоответствовать исходному намерению; чрезмерное использование таких ответов, созданных ИИ, рискует усилить ошибки и потенциально усложнить проблему с итеративными вызовами.

Обычно они увеличивают затраты на запрос и задержку вывода. Свести к минимуму внешние обращения, предпочитая меньшее количество более содержательных запросов вместо множества более детализированных запросов. Доступ к нескольким внешним источникам во время выполнения может быть дорогостоящим, поэтому выполняйте параллельный доступ к данным и, при возможности, предварительно загружайте данные в общие индексы.

Работа с несколькими источниками повышает сложность интеграции. Ошибки в одном источнике могут распространяться через конвейер рекомендаций. При объединении входных данных примените валидацию и средства защиты для обеспечения безопасности. Если требуется низкая задержка, запросы следует выполнять параллельно на различных источниках. Шаги предварительной обработки, которые не зависят от конкретного запроса, например классификации, обогащения и поиска. Кэшируйте промежуточные результаты и часто используемые функции для уменьшения повторяющихся вычислений.

Рассматривайте подсистемы рекомендаций как системы поддержки принятия решений, а не черные ящики. Объяснение является центральным для создания доверия и надежности эксплуатации. Системы должны предоставлять четкие обоснование рекомендаций, выделение ключевых сигналов и вклад источников данных. Рассмотрите возможность включения индикаторов достоверности (например, 0–100%), чтобы помочь нижестоящим системам или пользователям оценить надежность.

Примеры

OE:06 Проектирование цепочки поставок рабочей нагрузки. Найдите клиентские предельные случаи и сценарии, которые трудно обнаружить и которые часто остаются незамеченными, чтобы включить их в ваш набор тестов.
Управление инцидентами OE:08. Проверьте правильность планов перехода поставщиков, используя ИИ для имитации группы поддержки поставщиков с помощью только предоставленной документации, планов действий, моделей работоспособности и путей эскалации. Имитация выделяет пробелы и скрытые зависимости перед передачей.
Проектирование автоматизации OE:10. Оцените код автоматизации, данные телеметрии и инциденты, чтобы рекомендовать, какие службы автоматизации следует улучшить, снять с учета или развернуть.

✓ Агенты создания артефактов

Агенты ИИ могут помочь в создании кода, определений инфраструктуры и тестов, но их выходные данные могут стать частью рабочей нагрузки. Создание кода по сути является недетерминированным, и преобразование требований естественного языка в исполняемые артефакты может привести к результатам, которые отступят от исходного намерения. По этой причине четкое владение, явные элементы управления и интеграция с существующими методиками проектирования являются важными. ИИ наиболее эффективен в тех случаях, когда пространство проблем хорошо понято, а вариативность ограничена, например, в повторяющихся или стандартизированных задачах программирования, и к его выходным данным должны применяться контрольные меры.

Выбор правильных моделей имеет решающее значение. Используйте модели, подходящие для создания кода и выполнения инструментов, и сочетайте их в соответствии с соответствующими параметрами. Модель рассуждений может помочь в системном анализе, планировании или декомпозиции, модель, ориентированная на код, может создавать сами артефакты, а дополнительные модели могут послужить поддержкой на этапах тестирования или развертывания.

Создание должно основываться на шаблонах, эталонных реализациях, рекомендациях по написанию кода и примерах, которые отражают организационные и отраслевые стандарты. Четкие стандарты помогают обнаруживать смещение и применять согласованность. С помощью шаблонов выходные данные ИИ являются более предсказуемыми.

Как и большинство агентов, генераторы кода могут извлекаться из нескольких источников. Все выходные данные должны рассматриваться как ненадежные до тех пор, пока не будут проверены. Применение принципов наименьших привилегий для ограничения разрешений и областей выполнения инструментов. Агенты никогда не должны развертывать или изменять рабочие ресурсы без явного, контрольного утверждения.

Интеграция созданных артефактов в стандартный жизненный цикл разработчика. Сюда входят запросы на вытягивание, проверки кода, автоматическое тестирование и сканирование безопасности. Примените ту же строгость, что и для кода, созданных человеком, включая проверки зависимостей и сканирование инфраструктуры как кода, чтобы обеспечить надежность и соответствие требованиям.

Компромисс: Анализ человека остается частью модели затрат и должен быть учтен в ROI. Кроме того, увеличение генерации артефактов перемещает нагрузку по пропускной способности дальше по потоку; рабочие процессы тестирования, проверки и развертывания должны масштабироваться соответствующим образом, чтобы избежать появления новых узких мест. Автоматизация проверки везде, где это возможно, с помощью линтеров, тестов, статического анализа и проверок политик необходима для сохранения сквозного потока и сокращения времени получения ценности.

Примеры

OE:02 Стандартизировать операции. Генерируйте артефакты кода и документов, соответствующие стандартам организации, и обновляйте документацию по стандартам по мере развития активов.
OE:07 Проектирование системы мониторинга. Создайте конфигурации интегрированных панелей мониторинга, которые выравнивают метрики проектирования с бизнес-результатами, автоматически выбирая нужные метрики в разных источниках.
Проектирование автоматизации OE:10. Автономно отслеживайте рабочие среды на отклонения конфигурации, определяйте предполагаемое состояние и обновляйте настройки начальной загрузки для поддержания согласованности систем со временем.

✓ Агенты проверки политики

Агенты ИИ могут помочь в проверке и валидации активов на предмет соответствия политике и стандартам. Их роль заключается в поддержке принятия решений, выявлении отклонений и обеспечении соблюдения, в то время как люди сохраняют окончательный надзор.

Проверка начинается с тщательной оценки и тестирования перед развертыванием. Стандарты должны иметь версии, и каждый актив должен четко ссылаться на соответствующую политику, обеспечивая прослеживаемость. По мере развития политик необходимо учитывать затраты на обслуживание, а процессы проверки обновляются соответствующим образом. Выполняйте проверки пакетно и параллельно, а проверки изменений делайте инкрементно, вместо повторного сканирования всех ресурсов.

Затраты и производительность требуют тщательного баланса. Рассмотрим объем исторических данных, необходимых для точного прогнозирования влияния на хранение, обработку и задержку. Слишком мало данных снижает надежность, в то время как слишком много увеличивает затраты.

Безопасность остается ключевым фактором. Доступ к выходным данным проверки должен быть ограничен авторизованными пользователями, такими как рецензенты безопасности, обеспечивая защиту конфиденциальной информации.

Эффективность измеряется, а не предполагается. Используйте панели мониторинга для отслеживания таких метрик, как обнаруженные проблемы, проблемы в продакшене, ложные срабатывания и покрытие. Введите эти аналитические сведения обратно в логику проверки, запросы и операционные процессы, непрерывно уточняя вклад агента.

Примеры

OE:03 Формализация методик разработки. Проверьте описания задач и критерии принятия в соответствии с шаблонами организации, чтобы обеспечить согласованный уровень качества.
OE:04 Стандартизировать инструменты и процессы. Просмотрите кодовую базу, чтобы применить стандарты качества и организации и записать пробелы как техническую задолженность.
OE:05 Используйте инфраструктуру в качестве кода. Применение стандартов безопасности путем просмотра кода, шаблонов IaC и проектов для обнаружения небезопасных шаблонов, нарушений политики и слабых конфигураций.

✓ Агенты оптимизации действий

Агенты оптимизации действий выходят за рамки анализа и рекомендаций, принимая прямые операционные действия. Так как их выходные данные могут изменять системы или процессы, эти агенты требуют тщательного проектирования, надзора и интеграции с рабочими процессами.

Риск: Безопасность является основной проблемой. Агенты должны в идеале работать в процессе, включающем участие человека, где предлагаемые действия проходят проверку и утверждение перед выполнением в производственной системе. Доступ к средствам и системам должен соответствовать принципу наименьших привилегий, ограничивая агент только разрешениями, необходимыми для выполнения своих задач. Подробный аудит имеет важное значение, фиксируя предлагаемые действия, кто их одобрил, и журналы выполнения, обеспечивающие трассировку.

Реализуйте ограждения, которые обеспечивают минимальный радиус взрыва, сохраняя область каждого изменения ограничена. Выполнение инструментов должно быть идемпотентным, чтобы обеспечить безопасные повторные попытки, а система должна включать механизмы проверки и возврата. Контрольные точки, резервные копии или другие стратегии восстановления могут поддерживать безопасное исправление непредвиденных изменений.

Примеры

Управление инцидентами OE:08. Как только оповещение срабатывает, автоматически собирать контекст, сопоставлять данные и выполнять первоначальную оценку. Инженеры начинают с четкой картины инцидента вместо ручной сбора данных.
Проектирование автоматизации OE:10. Непрерывно оптимизируйте параметры рабочей среды с низким риском, такие как размеры кэша и значения времени ожидания, в пределах определенных человеком границ, используя значения, полученные из анализа данных мониторинга.
Методы безопасного развертывания OE:11. Автоматизируйте прогрессивную стратегию развертывания, при самостоятельном определении оптимального времени выпуска, а также правильного целевого сегмента и процентов для канареечного развертывания.

Значок цели стандартизует базовые процессы. Этот подход упрощает принятие решений и определяет требования к развертыванию системы и мониторингу.

На уровне 2 команда должна принять более структурированный подход и сосредоточиться на разработке основных функциональных возможностей рабочей нагрузки. Создание согласованности на раннем этапе помогает свести к минимуму операционные нагрузки на последующих этапах.

Ключевые стратегии

Определение ролей команды и обязанностей по принятию решений
Стремитесь делать улучшения, какими бы маленькими они ни были
Стандартизация базовых процессов
Приобретение инструментов вместо создания пользовательских инструментов
Внедрение автоматизации в рабочей нагрузке
Расширение возможностей инфраструктуры как кода для настройки инфраструктуры и управления приложениями
Определение стратегии развертывания рабочей нагрузки
Проектирование стека мониторинга рабочей нагрузки

✓ Определение ролей команды и обязанностей по принятию решений

Принятие мышления, ориентированного на продукт. Вместо того чтобы просматривать рабочую нагрузку как интеграцию инструментов, технологий или функций заданий, рассматривать ее как согласованный продукт с четким акцентом на конечной цели. На уровне 2 применяется более структурированный подход, в котором каждая роль четко определена и уважается.

Опыт в команде часто различается. Это разнообразие может быть полезно в распространении принятия решений между различными функциями работы. Например, конкретные члены команды могут преуспеть в принятии технических решений, а другие члены команды могут быть экспертами в определении бизнес-результатов, чтобы оставаться конкурентоспособными в экосистеме.

Риск: Некоторые команды, занимающиеся рабочими задачами, принимают культуру, основанную на достижении консенсуса, и берут на себя задачи, только если все согласны. Эта культура способствует инклюзивности, но часто заглушает инициативы, когда полный консенсус не достигается.

Обеспечьте хорошо структурированный процесс принятия решений с помощью следующих принципов:

Назначьте непосредственно ответственного человека, чтобы обеспечить распределение принятия решений между членами группы и соответствие их областям опыта, а не централизованное использование одного человека.

Документируйте, кто является лицами, принимающими решения, и включите эти сведения в материалы по подключению для новых сотрудников.
Рассмотрите возможность принятия методологии принятия решений, которая четко определяет определенные роли и обязанности. Помните, что эти подходы могут создавать разделение и перемещать фокус в сторону от целей продукта. Установите систему сдержек и противовесов, чтобы предотвратить изолированное принятие решений и уменьшить трения.

✓ Стремитесь к улучшениям, даже если они небольшие

Содействие непрерывному улучшению мышления означает принятие решений сегодня с пониманием того, что они могут быть уточнены завтра.

Задержка изменений может привести к тому, что команда пропустит возможности улучшения. Избегайте перемысления и нерешительности. Стремление к идеальному решению может препятствовать малому, но значимому прогрессу. Сосредоточьтесь на улучшениях сейчас, постоянно ища новые способы для этого.

Технический долг является стратегическим инструментом в разработке для принятия краткосрочных решений. Он может служить мотиватором для инкрементальных обновлений, что предотвращает ненужные накопления. Рассматривать технический долг как повторяющуюся задачу в бэклоге.

✓ Стандартизация базовых процессов

Различные классы рабочих нагрузок имеют уникальные требования к процессу, адаптированные к конкретным характеристикам. Например, рабочие нагрузки ИИ зависят от операций машинного обучения и операций генерации ИИ для направления потоков данных к модели. Критически важные рабочие нагрузки отдают приоритет панелям мониторинга в режиме реального времени, позволяющим инженерам по обеспечению надежности сайта оперативно реагировать.

В классе рабочей нагрузки следует стремиться к стандартизации для повышения согласованности и уменьшения рабочей нагрузки. Для рабочих нагрузок ИИ, включающих как дискриминирующие, так и формирующие модели, стандартизируйте процессы вокруг операций с данными. К этим операциям относятся доступ к данным, очистка и преобразование, прежде чем они используются для обучения моделей или генеративных моделей ИИ.

Для следующих вариантов использования рекомендуется стандартизация:

Процедура	Преимущества
Отслеживание проблем и управление	Упрощает более эффективное взаимодействие между ролями, помогает в определении приоритетов и требуется для анализа прошлых проблем
Средства коммуникации и процессы, особенно для обработки инцидентов	Свести к минимуму риск несогласия и повысить координацию между членами группы, чтобы быстрее устранить проблемы
Стили кода, соглашения об именовании ресурсов и стандарты документации	Улучшает удобочитаемость кода и удобство обслуживания путем создания рекомендаций
Процедуры тестирования	Гарантирует, что все изменения проходят через выбранный набор тестов, который обеспечивает проверку качества
Непрерывная интеграция и непрерывное развертывание	Обеспечивает автоматическое тестирование, интеграцию и развертывание изменений кода, что приводит к более надежным выпускам.

Риск: Непрерывное улучшение и инновации часто происходят, когда команда немного отклоняется от установленных стандартов, чтобы изучить лучшие подходы. Эти отклонения следует поощрять, но структурировать. Например, размещение инновационных дней позволяет команде сосредоточиться на предварительно выбранных проектах по улучшению, что способствует новым идеям и экспериментам.

✓ Приобретение инструментов вместо создания пользовательских инструментов

Стандартизированные процессы включают необходимые средства для эффективной реализации. На этом уровне установите приоритеты на готовые решения вместо индивидуально разработанных решений, которые можно пересмотреть позже для специализированных вариантов использования.

Повседневные средства для рабочих нагрузок включают средства разработки, тестирования, мониторинга и развертывания. Приобретенные инструменты упрощают рабочие процессы и обеспечивают согласованность. Эта согласованность позволяет командам сосредоточиться на предоставлении функций без сложности разработки и поддержания пользовательских решений.

Риск: При рассмотрении средств часто возникает тенденция чрезмерной расширяемости и будущего потенциала средства, а не ее основной функциональности. На этом этапе сосредоточьтесь на средствах, которые являются практическими, устраняют текущие проблемы и соответствуют текущему рабочему процессу.

✓ Внедрение автоматизации в рабочей нагрузке

При разработке новой или существующей рабочей нагрузки ищите возможности интеграции автоматизации. Проектирование новой рабочей нагрузки с учетом автоматизации с самого начала упрощает внедрение в будущем. Аналогичным образом, включение автоматизации в существующие рабочие нагрузки или рабочие нагрузки браунфилда в начале жизненного цикла помогает повысить эффективность и обеспечить согласованность с течением времени.

Чтобы упростить внедрение, используйте готовые и готовые инструменты, совместимые с облачной платформой вместо создания решений с нуля. Изучите собственные средства автоматизации от поставщика облачных служб, чтобы упростить проектирование. Например, многие службы Azure поддерживают автомасштабирование для повышения производительности и резервирование для аварийного восстановления. При оценке средств, отличных от Майкрософт, следует учитывать опыт вашей команды и любые соответствующие бизнес-стандарты.

Следующие области могут воспользоваться автоматизацией:

Обычные операционные задачи, такие как мониторинг и оповещение, а также управление обновлениями
Задачи жизненного цикла разработки программного обеспечения, такие как развертывания и тестирование
Оптимизация производительности рабочей нагрузки, например масштабирование ресурсов
Механизмы безопасности и управления, такие как проверки и применение политик
Действия резервного копирования и восстановления
Оптимизация затрат, например размещение ресурсов и завершение работы

Риск: На ранних этапах разработки рабочей нагрузки будьте осторожны с чрезмерным увлечением созданием или интеграцией автоматизации, так как это может отвлечь внимание от ввода рабочей нагрузки в эксплуатацию. Придерживайтесь взвешенного подхода, чтобы рабочая нагрузка оставалась управляемой при сохранении скорости разработки.

Компромисс: Если задача может быть выполнена редко, эффективно и безопасно людьми, это может быть не стоит автоматизировать. Например, автоматизация ежегодного обновления сертификата может не оправдать инвестиции в циклы разработки.

Расширьте свой опыт использования инфраструктуры как кода для настройки инфраструктуры и управления приложениями

На уровне 1 основное внимание уделяется внедрению средств инфраструктуры как кода (IaC) для развертывания инфраструктуры и конвейеров для кода приложения. На уровне 2 эта практика расширяется, чтобы включить конфигурацию и управление этой развернутой инфраструктурой и приложениями.

Используйте подход к конфигурации требуемого состояния для загрузки ресурсов и предотвращения смещения конфигурации. Для различных задач и платформ требуются различные средства автоматизации. Например, Ansible подходит для управления требуемой конфигурацией состояния для виртуальных машин, а решение GitOps, например Flux, подходит для кластеров Kubernetes.

Определите правильный уровень автоматизации для задач после развертывания, чтобы свести к минимуму нагрузку на работу, сохраняя простоту разработки. Такие задачи, как установка сертификатов, конфигураций ОС и заполнение базы данных, являются хорошими вариантами автоматизации. Кроме того, рекомендуется расширить автоматизацию, чтобы включить развертывание и настройку приложения на только что развернутых виртуальных машинах или узлах контейнеров.

Риск: Избегайте ненужного расширения инструментов. Разработчики или группы разработчиков, использующие различные подходы и технологии, могут привести к перелому экосистемы инструментов. Стандартизируйте количество инструментов для рабочей нагрузки, удовлетворяющих вашим требованиям, и убедитесь, что ваша группа рабочей нагрузки обучена этим средствам. Аналогичным образом, будьте выборочными в отношении внедрения организационных стандартов для инструментов. Если ваша организация предлагает инструменты, которые добавляют чрезмерный риск для рабочей нагрузки, оцените альтернативные инструменты, которые более подходящи.

✓ Определение стратегии развертывания рабочей нагрузки

Стратегия развертывания является критически важным компонентом операционного превосходства. Хорошо разработанная стратегия развертывания гарантирует, что службы остаются доступными для пользователей, уменьшая или устраняя простой во время обновлений или изменений. Получите консенсус от заинтересованных лиц о том, как и когда изменения развертываются в рабочей среде. Рассмотрим следующие моменты:

Определите допустимое время простоя. Определите, может ли рабочая нагрузка поддерживать простой, не вызывая существенных проблем или финансовых потерь. Четко укажите, является ли нулевое время простоя обязательным для обычных развертываний.
Установите частоту развертывания. Определите частоту развертывания на основе разработки компонентов. Договоритесь о расписании, будь то ежедневное, еженедельное, ежеквартальное или другое подходящее. По возможности укажите более мелкие приоритеты, более частые развертывания, если они соответствуют вашему сценарию.
Планирование чрезвычайных развертываний. Разработайте план внедрения процедур, управляющих чрезвычайными развертываниями, такими как критические обновления безопасности. Этот подход гарантирует, что члены команды понимают свои обязанности и могут быстро действовать при необходимости.

Создайте повторяемую систему развертывания, которая может быть автоматизирована для минимизации ошибок и обеспечения согласованности. Включите механизмы отката, чтобы восстановить систему в функциональное состояние, если возникнут ошибки в последнем развертывании.

✓ Разработка стека мониторинга рабочей нагрузки

Для разработки системы мониторинга необходимо выбрать, что отслеживать и понимать важность этих метрик для пользователей.

Начните с сбора журналов и метрик из всех компонентов в рабочей нагрузке. Воспользуйтесь преимуществами инструментов мониторинга, предоставляемых платформой. Эти средства интегрируются со службами и предоставляют функциональные и операционные аналитические сведения с небольшой конфигурацией. Безопасно храните эти данные в надежном решении хранилища, которое можно запросить для анализа.

Риск: Избегайте сбора чрезмерных данных, так как это может создавать шум и увеличивать затраты. Начните с базовых метрик, таких как ЦП, использование памяти и использование хранилища. С течением времени добавьте полезные метрики работоспособности приложений.

На основе первоначального анализа взаимодействуйте с заинтересованными сторонами, чтобы определить, что означают здоровое и нестабильное состояния для нагрузки. Эти сведения используются на последующих этапах для разработки модели работоспособности, которая точно отражает это состояние работоспособности.

Риск: Конвейер мониторинга служит средством сбора бизнес-метрик, включая чарджбэки, соглашения об уровне обслуживания транзакций, гарантии емкости и итоговые данные о продажах. Сохраняйте четкое различие между метриками работоспособности рабочей нагрузки и бизнес-метриками.

Сбор бизнес-метрик в качестве функции приложения вместо конфигураций мониторинга. Мониторинг потоков данных может выполняться с выборкой и обычно не восстанавливается в случае аварии. Обращайтесь с критически важными для бизнеса данными как с данными рабочей нагрузки, но держите их отдельно от сигналов о работоспособности рабочей нагрузки.

Значок цели гарантирует, что система соответствует стандартам качества, обещанным пользователям, и предотвращает нарушения соглашений на уровне обслуживания.

На предыдущих уровнях команда, занимающаяся нагрузками, фокусируется на создании функций и введении системы в эксплуатацию. На этом уровне фокус перемещается с создания функций на поддержание и улучшение динамической системы. Теперь, когда реальные пользователи полагаются на него, приоритетом становится управление изменениями с помощью эффективных операций второго дня, таких как триаж, обслуживание, обновление и устранение неполадок.

Основная стратегия заключается в использовании реального опыта для улучшения операций. Тестирование также становится неотменяемой практикой снижения рисков, связанных с изменениями. Необходимо интегрировать тестирование в каждую часть разработки, от исправления ошибок до добавления функций и уточнения реагирования на инциденты. Без неё серьёзные проблемы могут остаться незамеченными до тех пор, пока они не достигнут ввода в эксплуатацию.

На этом уровне технический долг становится реальной проблемой. Реализации, которые далеки от идеала, могут быть запущены в работу, что может усложнить обслуживание. Команды должны проанализировать нагрузку на техническое обслуживание и сосредоточиться на ее сокращении.

Ключевые стратегии

Использование методов безопасного развертывания
Оптимизация операций сборки
Проверка процессов реагирования на инциденты
Оптимизировать операции, используя данные мониторинга из производства
Автоматизация обслуживания
Повышение эффективности путем выравнивания средств и процессов с использованием стандартов организации
Управление техническим долгом на регулярной основе

✓ Использование методов безопасного развертывания

После производства, три ключевых типа изменений обычно включают рутинные обновления, новые обновления функций и экстренные обновления. Используйте методы безопасного развертывания, чтобы обеспечить стабильную систему во время этих изменений. Независимо от типа изменений, следует рассматривать каждое изменение как потенциальную точку сбоя для пользователей рабочей нагрузки.

Интегрируйте следующие стратегии в процесс управления изменениями:

Непрерывно и комплексно проверяйте. Тестируйте на ранних этапах и часто на протяжении всего жизненного цикла разработки по мере того, как изменения внедряются в различных средах. В идеале каждый раз при изменении артефакта создавайте тесты, ориентированные на эти изменения. Затем запустите полный набор тестов, чтобы проверить сквозные потоки. Результаты теста предоставляют данные проверки, но бизнес-заинтересованные лица по-прежнему должны утвердить эти изменения.

Компромисс: Выполнение всего набора тестов создает уверенность в развертываниях. Однако это может быть нецелесообразно для всех изменений из-за времени и стоимости. Сбалансируйте тщательное тестирование с учетом затрат. Настройка процесса утверждения на основе влияния изменений. Незначительные изменения должны иметь упрощенную процедуру, в то время как значительные изменения, такие как новые функции, требуют тщательной проверки.

На этом уровне можно внедрить расширенные операционные модели, такие как региональное резервирование. Цель состоит в том, чтобы полностью автоматизировать эти процессы, с акцентом на самовосстановление в большинстве сценариев. Эти процессы также должны быть тщательно проверены.
Реализуйте управление версиями для API. Тщательно управляйте изменениями в модели данных, чтобы обеспечить обратную совместимость. Стратегия управления версиями API помогает существующим системам продолжать работать гладко после развертывания изменений. Управление версиями задним числом может быть сложным, поэтому следует разработать стратегию заранее.
Постепенный выпуск обновлений. На уровне 3 процессы развертывания стандартизированы с помощью автоматизированных конвейеров во всех средах. На уровне 4 зрелости рабочая нагрузка находится в продакшне. Фокус переключится на уточнение добавочных обновлений, включая управление циклами выпуска.

Разверните небольшие, частые обновления, чтобы упростить проверку для небольшого набора изменений. Автоматизация задач проверки, таких как нагрузочное тестирование, развертывание в средах тестирования и тестирование A/B.

Замечание

Шаблоны безопасного развертывания, такие как канареечные и синие-зеленые развертывания, обеспечивают гибкость и надежность при их одновременном использовании. Например, в сине-зеленых развертываниях создается новая среда, трафик перемещается, а старая среда удаляется. Другие методы развертывания включают флажки функций и скрытые запуски. Эти подходы позволяют тестировать в рабочей среде перед развертыванием изменений для всех пользователей. Эта возможность доступна в определенных службах Azure, таких как Служба приложений Azure, где можно развертывать обновления путем постепенного переключения между слотами развертывания.
Восстановитесь после ошибок развертывания. Следует ожидать, что некоторые обновления завершатся ошибкой. При добавочных обновлениях устранение неполадок ускоряется при возникновении проблем. Если происходит сбой, остановите систему, чтобы предотвратить дальнейшие повреждения и реализовать изменения, чтобы устранить проблему. Восстановление из резервных копий приемлемо, если оно сохраняет непрерывность. Цель состоит в том, чтобы перейти к стабильной версии вместо того, чтобы полагаться исключительно на процедуры отката.

✓ Оптимизация операций сборки

На уровне 3 необходимо иметь отдельные циклы развертывания для разных слоев архитектуры на основе их скорости изменения. Как минимум, сохраняйте инфраструктуру и конвейеры кода.

Теперь, когда рабочая нагрузка введена в эксплуатацию, вернитесь к многоуровневому подходу. Если это возможно, архитектурные компоненты могут быть дополнительно отделены, чтобы обеспечить более гибкую частоту выпусков. Такой подход снижает задержки и сокращает количество сбоев в отдельных компонентах. Кроме того, выполните тесты и длительные процессы в качестве параллельных заданий, чтобы сэкономить время и повысить производительность разработчика.

✓ Проверка процессов реагирования на инциденты

На уровне 3 вы устанавливаете систему поддержки по вызову с сборниками схем для определения ответов на инциденты. Однако наличие сборника схем является только первым шагом. Теперь, когда рабочая нагрузка находится в рабочей среде, необходимо проверить и повысить эффективность процесса управления инцидентами и разработать надежный план коммуникации. Рассмотрим следующие методики.

Тестирование ответов на инциденты. Интеграция ответов из технологий, людей и процессов. Чтобы внедрить реалистичность в усилия по проверке, рекомендуется запустить дни игры. Дни игры — это запланированные события, в которых вводятся ошибки для проверки способности команды обнаруживать и устранять проблемы. Такой подход гарантирует, что команда имеет правильные инструменты, ресурсы и процедуры. Инженерия хаоса является еще одним ценным методом, который вводит контролируемые нарушения для наблюдения за результатами. Кроме того, для проверки ответа можно использовать ручные методы, такие как отключение серверной части в глобальном балансировщике нагрузки или переключение на резервную базу данных.
Разработка плана коммуникации. Четко определите обязанности по взаимодействию между группой рабочей нагрузки, группами поддержки и персоналом реагирования на чрезвычайные ситуации. Стандартизация каденции и формата внутренних обновлений состояния для заинтересованных лиц бизнеса способствует прозрачности и доверию. В определенных сценариях, таких как нарушения безопасности, требуется ответственное раскрытие информации конечным пользователям. Убедитесь, что в этих внешних коммуникациях четко определены соответствующий тип и уровень информации.
Провести проверку инцидента. Рассматривайте каждый инцидент как возможность использовать для обучения на производственных процессах. Используйте этот процесс для выявления слабых мест в процессах развертывания и разработки и обязательства проведения улучшений системы.

✓ Оптимизация операций с помощью данных мониторинга из производственной среды

На уровне 4 расширенный мониторинг должен выдавать, сопоставлять и анализировать метрики в бизнес-контексте. На этом уровне улучшайте его точность, обучаясь на основе опыта эксплуатации. Используйте данные мониторинга для уточнения процессов, созданных на основе лучших предположений. Рассмотрим следующие ключевые примеры:

Основное внимание на уровне 3 уделяется разработке модели работоспособности для рабочей нагрузки. На уровне 4 настройте систему оповещений и задайте реалистичные цели и индикаторы уровня обслуживания.
В рамках операций Day-2 минимизация отклонения конфигурации должна быть ключевым приоритетом. Без этого фокуса среда выполнения может постепенно отделиться от предполагаемого состояния. Начните с создания моментального снимка известно-рабочей конфигурации. Затем воспользуйтесь преимуществами метрик наблюдаемости из рабочей среды, чтобы сравнить текущее поведение с этим базовым показателем. Этот подход обеспечивает непрерывное соответствие с предназначенным состоянием системы.
Этот уровень идеально подходит для внедрения циклов обратной связи, чтобы лучше понять, как система работает под определенными стрессорами и прогнозировать влияние новых функций. Данные телеметрии системы приводят к этим циклам обратной связи, предоставляя ключевые сведения, которые помогают прогнозировать изменения рабочей нагрузки и формировать упреждающие решения для потенциальных проблем. Эти данные также можно использовать для определения приоритета технической задолженности.

Оптимизируйте стек мониторинга на основе данных и паттернов наблюдаемости в рабочей среде. Рассмотрим следующие методики.

Настройте уровни журналирования, чтобы сбалансировать видимость и шумовую нагрузку для отслеживания действий на критически важных маршрутах.
Расширение важных оповещений при подавлении неуместных.

✓ Автоматизация обслуживания

На уровне 3 усилия по автоматизации в основном сосредоточены на развертывании в рабочей среде. На уровне 4 команды значительно сократили ручную работу путем автоматизации процессов сборки, тестирования и развертывания с помощью непрерывной интеграции и конвейеров непрерывной доставки. Как и при использовании контрольных точек качества, определенные одобрения также могут управляться с помощью автоматизированных рабочих процессов.

На уровне 4 операционная автоматизация должна быть обусловлена реальным опытом производства и сосредоточена на решении технического долга.

Рассмотрим примеры автоматизации второго этапа.

Процедура	Преимущества
Автоматизация смены сертификатов, ключей API и других секретов.	Автоматизация гарантирует своевременную смену, устраняя необходимость ручного вмешательства, что экономит время и снижает вероятность человеческой ошибки.
Автоматизация регулярного обслуживания инфраструктуры.	Обычное обслуживание инфраструктуры требует обширного тестирования и координации. Автоматизация может ускорить эти задачи, сократить усилия вручную и минимизировать риски.
Автоматизация процесса реагирования на чрезвычайные ситуации.	Без надлежащей автоматизации люди могут прибегнуть к несогласованным действиям во время экстренного освобождения, что потенциально приводит к дальнейшим проблемам.
Автоматизация масштабирования ресурсов при пиках нагрузки и падениях.	Автоматическое масштабирование гарантирует динамическое выделение ресурсов на основе спроса. Это выделение приводит к более эффективному использованию ресурсов, так как при снижении спроса ресурсы будут освобождены без чрезмерной рабочей нагрузки.
Автоматизация извлечения и доставки данных.	Этот подход сокращает время и усилия, необходимые для выполнения запросов данных, отправленных пользователями. Вместо ручного доступа к базам данных скрипты активируются для доступа к базе данных, получения соответствующих данных и отправки его пользователю.
Автоматизируйте создание сред разработчика на основе определенных критериев.	Этот подход гарантирует, что среды последовательно создаются для обеспечения безопасных изменений в рабочей нагрузке в рамках операций команды второго дня.

Замечание

При разработке стратегии автоматизации развертывания начните с известных и прогнозируемых задач. Учитывайте общие точки отказа. После автоматизации этих точек расширьте охват для устранения непредвиденных проблем, некоторые из которых могут потребовать ручного вмешательства. Например, сначала автоматизация стандартных задач, таких как обновления инфраструктуры, так как они более управляемы. Затем принимайтесь за экстренные исправления, так как они могут содержать неизвестные сценарии отказа.

Например, команда может регулярно развертывать рабочую нагрузку с помощью управляемого воздействия на пользователей во всех географических регионах. Для завершения этого процесса может потребоваться несколько дней. Кроме того, им нужна возможность предоставлять возможность развертывания "горячих исправлений" раньше, пропуская определенные шаги в определенных ситуациях. Процесс автоматизации должен учитывать эти ускоряемые развертывания.

Основная цель заключается в выявлении повторяющихся, управляемых человеком задач, которые, возможно, были пропущены на более ранних этапах из-за крайних сроков. Но вы не должны автоматизировать все. Автоматизация должна руководствоваться рентабельностью инвестиций. Предпочитайте использовать существующие технологии и знания вместо того, чтобы начать с совершенно новых инструментов. Если требуется легкий инструмент, оцените его жизненный цикл и требования к обслуживанию.

✓ Повышение эффективности путем выравнивания средств и процессов с организационными стандартами

На уровне 4 зрелости сосредоточьтесь на получении операционной эффективности путем оценки инженерных активов и процессов. Определите, какие ресурсы являются важными, но не основными для вашего бизнеса.

Для этих ресурсов рассмотрим следующие моменты:

Используйте общие инструменты, уже доступные в вашей организации.
Рассмотрим программное обеспечение, отличное от Майкрософт, для определенных задач, таких как преобразование данных.

Предварительно созданные ресурсы приходят с каналами поддержки и могут заменить пользовательские решения. Такой подход снижает нагрузку на операционные решения, созданные командой. Оцените, насколько хорошо эти ресурсы соответствуют вашим потребностям и определяют все оставшиеся пробелы.

Изучите следующие области рабочей нагрузки:

Оцените ваш настроенный код. Вместо написания пользовательского кода для таких задач, как синтаксический анализ, оцените решения с открытым кодом, которые считаются отраслевыми стандартами. Использование этих средств может снизить потребность в обслуживании кода и привести к меньшей базе кода. Изучите параметры, уже доступные в вашей организации. Могут существовать существующие библиотеки, которые можно интегрировать в рабочую нагрузку для обработки стандартных задач, таких как проверка подлинности.
Оцените цепочку инструментов. Оцените области, где можно полагаться на другие команды, использующие аналогичные средства. Соответствующим образом настройте использование библиотек, шаблонов и модулей. Согласование инструментов "инфраструктура как код" в рамках организации для упрощения операций.
Оцените процессы. Определите централизованные процессы, которые могут выполнять задачи, которые могли быть реализованы самостоятельно, например сканирование безопасности. Вместо того чтобы управлять собственным процессом карантина для пакетов NuGet, используйте существующий процесс группы безопасности организации, уведомляя их о модулях, используемых в рабочей нагрузке.

Возможность поддержки — это еще одна ключевая область. На раннем этапе команды разработчиков часто самостоятельно занимаются поддержкой, отслеживая метрики и устраняя активные проблемы. На этом этапе рассмотрите возможность настройки выделенных ролей, таких как инженеры по вызову. Если у вашей организации есть общая группа поддержки, используйте ее для уменьшения нагрузки на поддержку для разработчиков.

Замечание

Если это возможно, передайте повседневную поддержку внешним поставщикам. У поставщиков нет глубокого понимания, как у команды разработчиков или архитекторов, которые выводят рабочую нагрузку в производственную среду. Прежде чем передавать задачи поставщику, убедитесь, что система стабильна в рабочей среде и четко определяет задачи управления. Чтобы добиться успеха, поставщикам необходимы ключевые элементы. Определите пороговые значения в модели работоспособности, которые представляют работоспособность, неработоспособные и пониженные состояния. Обучать поставщиков по руководствам, инструментам и другим ресурсам для устранения неполадок. Если они не могут определить причины, настройте четко определенные пути для эскалации и маршрутизации проблем к команде, занимающейся рабочими нагрузками.

✓ Управление техническим долгом на регулярном уровне

Технический долг возникает в результате компромиссов, которые принимаются во время разработки для соблюдения сроков, что может привести к реализации, которая не соответствует идеалу. Команды должны работать над сокращением этой задолженности, анализируя сложность и время обслуживания. Если технический долг не устранен, системы могут стать более сложными и сложными для поддержания или масштабирования. Эта сложность замедляет инновации, так как разработчики тратят больше времени на устранение проблем вместо работы над новыми функциями.

Рассмотрим следующие тактические рекомендации по обработке технического долга:

Отслеживание технического долга наряду с разработкой новых функций.
Зарезервируйте мощность в каждом спринте для устранения технического долга отдельно от разработки функций. Иногда следует выделить целые спринты на решение технического долга.
Добавьте предлагаемое решение в бэклог сразу, если вы планируете взять на себя новый технический долг для новых функций.

Технический долг является нормальной частью развития и возможностью для улучшения. По мере добавления новых функций долг накапливается. Сбалансируйте усилия по выплате старой задолженности с новым долгом от разработки новых функций.

Дальнейшие шаги

Ознакомьтесь с контрольным списком проверки качества эксплуатации , чтобы получить подробные сведения о рекомендациях.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-11

Модель зрелости операционного превосходства

Купить: готовые решения GenAI

Сборка: GenAI с пользовательской реализацией

Функциональные шаблоны ИИ

✓ Агенты суммирования

Примеры

✓ Агенты рекомендаций

Примеры

✓ Агенты создания артефактов

Примеры

✓ Агенты проверки политики

Примеры

✓ Агенты оптимизации действий

Примеры

Дальнейшие шаги

Обратная связь

Дополнительные ресурсы