Поделиться через


Зоны приземления данных

Зоны приземления данных подключены к зоне управления данными посредством пиринга виртуальных сетей или частными конечными точками. Каждая зона приземления данных считается зоной приземления, связанной с архитектурой зоны приземления Azure.

Важный

Перед созданием посадочной зоны данных убедитесь, что ваша операционная модель DevOps и непрерывной интеграции и непрерывной доставки (CI/CD) реализована, а зона управления данными развернута.

Каждая целевая зона данных содержит несколько уровней, которые обеспечивают гибкость интеграции данных службы и приложений данных, содержащихся в ней. Вы можете развернуть новую целевую зону данных со стандартным набором служб, которые позволяют целевой зоне данных получать и анализировать данные.

В следующей таблице показана структура типичной подписки Azure, связанной с целевой зоной данных.

Слой Обязательно Группы ресурсов
уровень служб платформы Да
Ключевые службы Да
применение данных Необязательный
отчетов и визуализаций Необязательный

Заметка

Базовый уровень служб помечается как обязательный, но не все группы ресурсов и службы, включенные в эту статью, могут потребоваться для целевой зоны данных.

Архитектура зоны приземления данных

В следующей архитектуре целевой зоны данных показаны уровни, группы ресурсов и службы, содержащиеся в каждой группе ресурсов. Архитектура предоставляет обзор всех групп и ролей, связанных с зоной размещения данных, и объём их доступа к уровням управления и данных. Архитектура также показывает, как каждый слой соответствует обязанностям операционной модели.

Схема архитектуры зоны приземления данных.

Совет

Перед развертыванием целевой зоны данных необходимо учитывать количество начальных целевых зон данных, которые требуется развернуть.

Службы платформы

Уровень служб платформы включает службы, необходимые для обеспечения возможности подключения и наблюдаемости к зоне приземления данных в контексте аналитики на облачном уровне. В следующей таблице перечислены рекомендуемые группы ресурсов.

Группа ресурсов Обязательно Описание
network-rg Да Сети
security-rg Да Безопасность и мониторинг

Сети

Группа сетевых ресурсов содержит службы подключения, включая виртуальную сеть Azure, группы безопасности сети и таблицы маршрутов. Все эти службы развертываются в одной группе ресурсов.

Виртуальная сеть целевой зоны данных автоматически пиринговая связь с виртуальной сетью целевой зоны управления данными и виртуальной сети подписки на подключение.

Безопасность и мониторинг

Группа ресурсов безопасности и мониторинга включает в себя Azure Monitor и Microsoft Defender для облака для сбора данных телеметрии служб, определения критериев мониторинга и оповещений и применения политик и сканирования к службам.

Основные службы

Уровень основных служб включает основные службы, необходимые для создания зоны приземления данных в контексте облачной аналитики. В следующей таблице перечислены группы ресурсов, которые предоставляют стандартный набор доступных сервисов в каждой зоне приземления данных, которую вы развертываете.

Группа ресурсов Обязательно Описание
storage-rg Да Службы Data Lake
runtimes-rg Да Общие ip-интерфейсы
mgmt-rg Да Агенты CI/CD
external-data-rg Да Внешнее хранилище данных
data-ingestion-rg Необязательный Общие службы приема данных
shared-applications-rg Необязательный Общие приложения (Azure Databricks)

Хранение

На предыдущей диаграмме показаны три учетные записи Azure Data Lake Storage Gen2, созданные в одной группе ресурсов служб хранилища данных. Данные, преобразованные на разных этапах, сохраняются в одном из озер данных вашей зоны получения данных. Данные доступны для использования командами аналитики, обработки и анализа данных и визуализации.

Слои озера данных используют различные терминологии в зависимости от технологии и поставщика. В этой таблице приведены рекомендации по применению терминов для облачной аналитики:

Аналитика в масштабе облака Delta Lake Другие термины Описание
Сырой Бронза Посадка и соответствие Таблицы приема
Обогащенный Серебро Зона стандартизации Уточненные таблицы. Хранимые полные объекты, наборы данных, готовые к обработке, из системы учета.
Курированный Золото Зона продуктов Функции или агрегированные таблицы. Основная зона для приложений, команд и пользователей для использования продуктов данных.
Развитие -- Зона разработки Расположение инженеров и специалистов по обработке данных, состоящее из песочницы аналитики и зоны разработки продуктов.

Заметка

На предыдущей схеме каждая зона приземления данных имеет три учетные записи для хранения в озере данных. В зависимости от ваших требований вы можете объединить необработанные, обогащенные и курированные слои в одну учетную запись хранения и сохранить другую учетную запись хранения, именуемую рабочей областью, для потребителей данных, чтобы они могли добавлять другие полезные продукты данных.

Дополнительные сведения см. в следующем разделе:

Общие ip-интерфейсы

Конвейеры Фабрики данных Azure используют IR для безопасного доступа к источникам данных в одноранговых или изолированных сетях. Общие интеграционные узлы (IR) следует развернуть на виртуальной машине (VM) или на наборах масштабируемых виртуальных машин Azure в группе ресурсов общего IR.

Чтобы включить общую группу ресурсов, выполните следующие действия.

Заметка

В развертывании описывается одно размещение виртуальной машины с самодостаточной интеграционной средой выполнения. Локальную среду ir можно связать с несколькими виртуальными машинами в локальной среде или в Azure. Такие компьютеры называются узлами. Вы можете иметь до четырех узлов, связанных с самостоятельно размещаемой локальной средой IR. Преимущества использования нескольких узлов:

  • Более высокий уровень доступности локального узла интеграции данных (IR), чтобы он больше не был единственной точкой сбоя в приложении данных или в оркестрации интеграции облачных данных.

  • Улучшена производительность и пропускная способность во время перемещения данных между локальными и облачными службами данных. Дополнительные сведения см. в руководстве по производительности и масштабируемости действий копирования.

Вы можете связать несколько узлов, установив локальное программное обеспечение IR из Центра загрузки Майкрософт. Затем зарегистрируйте его с помощью любого из ключей проверки подлинности, полученных из командлета New-AzDataFactoryV2IntegrationRuntimeKey , как описано в руководстве.

Дополнительные сведения см. в статье о высокой доступности и масштабируемости фабрики данных Azure.

Не забудьте развернуть общие IR как можно ближе к источнику данных. Вы можете развернуть IR в целевой зоне данных, в облаках, отличных от Майкрософт, или в частном облаке, если виртуальная машина подключена к необходимым источникам данных.

Управление

Агенты CI/CD выполняются на виртуальных машинах и помогают развертывать артефакты из репозитория исходных файлов, включая приложения данных и изменения в зоне приземления данных.

Для получения дополнительной информации см. Агенты Azure Pipelines.

Внешнее хранилище

Издатели данных партнера должны интегрировать данные на вашу платформу, чтобы команды по обработке данных могли извлекать их в свои озера данных. Вы также можете иметь внутренние или внешние источники данных, которые не могут поддерживать требования к подключению или проверке подлинности, применяемые в остальных целевых зонах данных. Рекомендуется использовать отдельную учетную запись хранения для получения данных. Затем используйте общий процесс загрузки ИК или аналогичный процесс интеграции, чтобы перенести его в конвейер обработки.

Команды по работе с данными запрашивают блобы хранения. Эти запросы утверждаются командой операций зоны приёма данных. Данные следует удалить из исходного BLOB-объекта хранилища после приема в хранилище необработанных данных.

Важный

Так как блобы службы хранения Azure подготавливаются по мере необходимости, в каждой целевой зоне данных сначала следует развернуть пустую группу ресурсов службы хранения.

Прием данных

Эта группа ресурсов является необязательной и не мешает вам развернуть посадочную зону. Он применяется, если у вас есть или разрабатывается механизм приема данных, не зависящий от данных, который автоматически получает данные на основе зарегистрированных метаданных. Эта функция включает строки подключения, пути для передачи данных и расписания приема данных.

Группа ресурсов приема и обработки имеет ключевые службы для такой платформы.

Разверните экземпляр Базы данных SQL Azure для хранения метаданных, которые использует фабрика данных Azure. Подготовьте хранилище ключей Azure для хранения секретов, связанных со службами автоматического приема данных. Эти секреты могут включать:

  • Доступ к метахранилищу Azure Data Factory.
  • Учетные данные субъекта-службы для процесса автоматического приема данных.

Для получения дополнительной информации см. механизм приема данных, не зависящий от типа данных.

В следующей таблице описываются службы в этой группе ресурсов.

Служба Обязательно Руководящие принципы
Фабрика данных Azure Да Фабрика данных Azure — это механизм оркестрации для независимого от типа данных извлечения.
База данных SQL Azure Да База данных SQL — это хранилище метаданных фабрики данных Azure.
Центры событий Azure или Центр Интернета вещей Azure Необязательный Центры событий или Центр Интернета вещей могут предоставлять потоковую передачу в реальном времени в центры событий, а также пакетную и потоковую обработку через рабочую область проектирования Azure Databricks.
Azure Databricks Необязательный Вы можете развернуть Azure Databricks для использования с подсистемой приема, не зависящей от данных.

Общие приложения

Используйте эту необязательную группу ресурсов, если необходимо предоставить набор общих служб, доступных всем командам, создающим приложения данных в этой целевой зоне данных. К вариантам использования относятся:

  • Рабочая область Azure Databricks, используемая в качестве общего хранилища метаданных для всех других рабочих областей Databricks, созданных в той же целевой зоне или регионе данных.

Заметка

Azure Databricks использует каталог Unity для управления доступом и видимостью хранилищ метаданных в рабочих областях Databricks. Каталог Unity включен на уровне клиента, но хранилища метаданных соответствуют регионам Azure. Эта настройка означает, что все рабочие области с поддержкой каталога Unity Databricks в определенном регионе Azure должны регистрироваться в одном хранилище метаданных. Дополнительные сведения см. в статье Рекомендации по Unity Catalog.

Чтобы интегрировать Azure Databricks, следуйте рекомендациям по облачной аналитике. Дополнительные сведения см. в статье "Безопасный доступ к Azure Data Lake 2-го поколения" из Azure Databricks и рекомендации по Azure Databricks.

Приложение данных

Каждая площадка приземления данных может иметь несколько приложений данных. Эти приложения можно создать, используя данные из различных источников. Вы также можете создавать приложения данных из других приложений данных в той же целевой зоне данных или из других целевых зон данных. Создание приложений данных требует утверждения дата-стюардов.

Группа ресурсов приложения данных

Группа ресурсов приложения данных включает все службы, необходимые для создания приложения данных. Например, для MySQL требуется база данных Azure, которая используется средством визуализации. Перед занесением в базу данных MySQL данные должны пройти процессы приема и преобразования. В этом случае можно развернуть базу данных Azure для MySQL и Фабрику данных Azure в группе ресурсов приложения данных.

Совет

Если вы решите не реализовывать движок, не зависящий от данных, для единого импорта из операционных источников или если сложные подключения не поддерживаются в вашем движке, разработайте приложение для обработки данных, выровненное под источник.

Отчеты и визуализация

Вы можете использовать средства визуализации и отчетов в рабочих областях Fabric, аналогичные рабочим областям Power BI. Эта функция позволяет избежать развертывания уникальных ресурсов в целевой зоне данных. Вы можете включить группу ресурсов для развертывания емкости Fabric, виртуальных машин для шлюзов данных или других необходимых служб данных для доставки приложения данных пользователю.

Следующий шаг