Поделиться через


Настройка качества данных для бессерверного и хранилища данных Microsoft Azure Synapse

Microsoft Azure Synapse Analytics — это служба корпоративной аналитики, которая ускоряет анализ между хранилищами данных и системами больших данных. Она объединяет лучшие технологии SQL, используемые в хранилище корпоративных данных, технологии Apache Spark для больших данных и azure Data Explorer для аналитики журналов и временных рядов. Дополнительные сведения см. в документации по Azure Synapse Analytics.

В следующем примере показана рабочая область Synapse с экземпляром выделенной Data Warehouse Synapse (DWH) Table EMPLOYEE и бессерверной базой данных (SQL_ON_DEMAND) с таблицей SynapseSalesDelta.

Снимок экрана: рабочая область synapse analytics.

После сканирования ресурсов они будут доступны в Microsoft Purview. В следующем примере показана таблица сотрудников в выделенном экземпляре Synapse Analytics.

Azure Synapse Analytics Dedicated (Data Warehouse)

Настройка сканирования карты данных

Чтобы проверить Azure Synapse Analytics Dedicated (Data Warehouse), следуйте этим инструкциям. Чтобы предоставить необходимые разрешения управляемого удостоверения для выделенного экземпляра DWH, выполните следующие действия.

Снимок экрана: конфигурация сканирования карты данных.

После сканирования ресурсов они будут доступны в Единый каталог Microsoft Purview. В следующем примере показана таблица сотрудников в выделенном экземпляре Synapse Analytics:

Снимок экрана: результат сканирования карты данных.

Настройка подключения к выделенному хранилищу данных Synapse

На этом этапе у вас есть отсканированный ресурс, готовый к каталогизации и управлению. Свяжите отсканированный ресурс с продуктом данных в домене управления. На вкладке Качество данных добавьте новый Azure SQL подключение к базе данных: Получите имя базы данных, введенное вручную.

  1. В Единый каталог перейдите в раздел Управление>работоспособностью Качество данных и выберите домен управления.

  2. На странице сведений о домене управления выберите Управление, а затем Connections.

  3. На странице Connections выберите Создать и настройте подключение со следующими сведениями, как показано в примере ниже.

    • Добавьте имя и описание подключения.
    • Выберите тип источника Azure Synapse Analytics.
    • Выберите Подписка Azure.
    • Выберите Имя рабочей области.
    • Выберите Выделенная конечная точка SQL.
    • Выберите бессерверную конечную точку SQL.
    • Выберите Тип конечной точки.
    • Выберите База данных.
    • Добавьте MSI в качестве учетных данных.

    Снимок экрана: настройка подключения к источнику данных.

  4. Проверьте подключение. После настройки подключения к источнику данных и его успешного тестирования можно перейти к настройке и запуску профилирования данных и проверки качества данных.

  5. Если источник данных Synapse находится за частной конечной точкой, необходимо включить управляемые виртуальные сети. Выполните действия, описанные в разделе Настройка управляемых виртуальных сетей.

Важно!

Администраторам по качеству данных требуется доступ только на чтение к выделенному хранилищу данных Synapse для настройки подключения к качеству данных. Для настройки управляемой виртуальной сети невозможно проверить подключение.

Профилирование и проверка качества данных в выделенном хранилище данных Synapse

После настройки подключения можно профилировать данные, создавать и применять правила, а также выполнять проверку качества данных в хранилище Synapse. Следуйте пошаговые рекомендации, описанные в следующих статьях:

Важно!

  • Производительность запросов и даже их успешное выполнение зависят от конфигурации хранилища, которая имеется для выделенных экземпляров базы данных.
  • Соответствующие задания оценки качества данных или любое другое задание качества данных вызывают подключение к выделенному хранилищу данных и могут завершиться ошибкой, если экземпляр находится в состоянии подготовки или не удалось выполнить ограничения параллелизма. Необходимо знать о конфигурации хранилища данных. Его параллелизм имеет жесткие ограничения для любого экземпляра во времени.
  • Ограничения параллелизма могут привести к завершению задания. Ограничения dw (например, 1000 DW) обеспечивают возможность выполнения запросов.

Бессерверная аналитика Azure Synapse

Настройка сканирования карты данных

Чтобы проверить Azure Synapse Аналитика бессерверной службы, следуйте этим инструкциям. Чтобы предоставить необходимые разрешения управляемого удостоверения для выделенного экземпляра DWH, выполните следующие действия. После проверки бессерверные ресурсы становятся доступными в Единый каталог.

Снимок экрана: конфигурация сканирования карты данных для бессерверных серверов.

Настройка подключения к бессерверному synapse

На этом этапе у вас есть отсканированный ресурс, готовый к каталогизации и управлению. Свяжите отсканированный ресурс с продуктом данных в домене управления. В разделе Качество данных добавьте новое База данных SQL Подключение: получение имени базы данных, введенного вручную.

  1. В Единый каталог перейдите в раздел Управление>работоспособностью Качество данных и выберите домен управления.

  2. На странице сведений о домене управления выберите Управление, а затем Connections.

  3. На странице Connections выберите Создать и настройте подключение со следующими сведениями, как показано в примере ниже.

    • Добавьте имя и описание подключения.
    • Выберите тип источника Azure Synapse Analytics.
    • Выберите Подписка Azure.
    • Выберите Имя рабочей области.
    • Выберите Выделенная конечная точка SQL.
    • Выберите бессерверную конечную точку SQL.
    • Выберите Тип конечной точки.
    • Выберите База данных.
    • Добавьте MSI в качестве учетных данных.

    Снимок экрана: настройка подключения к источнику данных для бессерверного synapse.

  4. Проверьте подключение. После настройки подключения к источнику данных и его успешного тестирования можно перейти к настройке и запуску профилирования данных и проверки качества данных.

  5. Если источник данных Synapse находится за частной конечной точкой, необходимо включить управляемые виртуальные сети. Выполните действия, описанные в разделе Настройка управляемых виртуальных сетей.

Важно!

  • Для настройки подключения к качеству данных администраторам качества данных требуется доступ только на чтение к выделенному хранилищу данных Synapse.
  • В бессерверной настройке Synapse внешняя таблица указывает на разностные данные, хранящиеся в ADLS 2-го поколения.
  • Соединитель Synapse обнаруживает и поддерживает только sql.azuresynapse.net. Если полное имя (FQN), созданное при проверке карты данных, содержит database.windows.net, подключение Synapse для проверки качества данных завершится ошибкой.

Профилирование и проверка качества данных в Бессерверном Synapse

После настройки подключения можно профилировать данные, создавать и применять правила, а также выполнять проверку качества данных в хранилище Synapse. Следуйте пошаговые инструкции, описанные в следующих статьях:

Важно!

  • Оценки качества данных и профилирование выполняются в Spark в фоновом режиме. У вас есть несколько подключений, где каждый узел Spark имеет spid подключения. Таким образом, Data Warehouse могут столкнуться с текущими ограничениями запросов, если вы используете или планируете превышение Data Warehouse ограничений, что приведет к сбоям. Но для Azure Synapse бессерверной таблицы SQL такие ограничения параллелизма не применяются. Это зависит от оптимизации бессерверного Delta Parquet, используемого в экземпляре ADLS 2-го поколения. Подсистема тесно перекликается с бессерверным Data Warehouse Databricks. Оба они работают с внешними источниками Lakehouse, такими как таблицы формата DELTA.

Ресурсы