Поделиться через


Настройка качества данных для данных Snowflake

При сканировании источников данных Snowflake Microsoft Purview поддерживает извлечение технических метаданных, в том числе:

  • Сервер, базы данных, схемы и таблицы, включая столбцы; представления, включая столбцы, внешние ключи и уникальные ограничения.
  • Хранимые процедуры, включая набор данных параметров и результирующий набор.
  • Функции, включая набор данных параметров.
  • Каналы, этапы и потоки, включая столбцы.
  • Задачи и последовательности.

Настройка сканирования карты данных для каталогизации данных Snowflake в Microsoft Purview

Регистрация источника Snowflake

Чтобы зарегистрировать новый источник Snowflake в Единый каталог, выполните следующие действия.

  • Войдите на портал Microsoft Purview.
  • Выберите решение "Карта данных" карта. Если карта решения "Карта данных" не отображается, выберите Просмотреть все решения, а затем выберите Карта данных в разделе Основные.
  • Нажмите Зарегистрировать.
  • В разделе Регистрация источников выберите Snowflake.

Настройка сканирования карты данных

  • Выберите зарегистрированный источник Snowflake.
  • Выберите + Создать сканирование.
  • Укажите следующие сведения:
    • Имя: имя сканирования
    • Подключение через среду выполнения интеграции. Выберите среду выполнения интеграции Azure, управляемую виртуальная сеть IR или SHIR в соответствии с вашим сценарием.
    • Узел для подключения. Выберите конечную точку, используемую для подключения к Snowflake во время проверки. Вы можете выбрать URL-адрес сервера или другие узлы, настроенные в источнике данных.
    • Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:
      • При создании учетных данных выберите Обычная проверка подлинности.
      • Укажите имя пользователя, используемое для подключения к Snowflake, в поле Ввода имени пользователя.
      • Сохраните пароль пользователя, используемый для подключения к Snowflake, в секретном ключе.
    • Warehouse: укажите имя экземпляра хранилища, используемого для разрешения сканирования в случае прописной буквы. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь права USAGE в этом хранилище.
    • Базы данных. Укажите одно или несколько имен экземпляров базы данных для импорта с прописной буквой. Разделите имена в списке с запятой (;). Например, DB1; DB2. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь соответствующие права на объекты базы данных.
    • Схема: перечисление подмножества схем для импорта, выраженных в виде списка, разделенного точкой с запятой.
  • Выберите Проверить подключение, чтобы проверить параметры (доступные при использовании Azure Integration Runtime).
  • Нажмите Продолжить.
  • Выберите набор правил сканирования для классификации. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил.
  • Просмотрите проверку и выберите Сохранить и запустить.

После сканирования ресурс данных в Snowflake будет доступен в Единый каталог поиска. Дополнительные сведения о подключении Snowflake и управлении ими в Microsoft Purview см. в этом документе.

Важно!

При удалении объекта из источника данных последующее сканирование не приведет к автоматическому удалению соответствующего ресурса в Microsoft Purview.

Настройка подключения к источнику данных Snowflake для проверки качества данных

На этом этапе отсканированный ресурс готов к каталогизации и управлению. Свяжите отсканированный ресурс с продуктом данных в Sele домена управления. На вкладке Качество данных добавьте новый Azure SQL подключение к базе данных: Получите имя базы данных, введенное вручную.

  1. На портале Microsoft Purview откройте Единый каталог.

  2. В разделе Управление работоспособностью выберите Качество данных.

  3. Выберите домен управления в списке, а затем выберите Connections в раскрывающемся списке Управление.

  4. Настройка подключения на странице Connections:

    • Добавьте имя и описание подключения.
    • Выберите тип источника Snowflake.
    • Добавьте имя сервера, имя хранилища, имя базы данных, имя схемы и имя таблицы.
    • Выберите метод проверки подлинности — обычная проверка подлинности.
    • Добавьте имя пользователя.
    • Добавить учетные данные:
      • Добавление подписки Azure
      • Подключение к хранилищу ключей
      • Имя секрета
      • Версия секрета
    • Установите флажок Включить управляемую V-Net, если Snowflake работает в Azure виртуальная сеть.
    • Выберите Регион Azure.
    • Добавьте идентификатор ресурсов Приватный канал.
    • Добавьте полное доменное имя.
  5. Проверьте подключение, чтобы убедиться, что оно работает. Если вы используете виртуальная сеть, функция тестирования подключения не поддерживается.

    Снимок экрана, на котором показано, как настроить подключение к снежинке.

    Снимок экрана: настройка маркера подключения snowflake.

Идентификатор ресурса для целевого приватного канала Snowflake имеет следующий формат: /subscriptions/(subscription_id)/resourcegroups/az(region)-privatelink/providers/microsoft.network/privatelinkservices/sf-pvlinksvc-az(region).

  • Чтобы получить идентификатор региона и полное имя, выполните SYSTEM_WHITE_LIST и SYSTEM_WHITE_LIST_PRIVATELINK , чтобы получить SNOWFLAKE_DEPLOYMENTзначения , SNOWFLAKE_DEPLOYMENT_REGIONLESSи OCSP_CACHE для общедоступных узлов и списков разрешений.
  • Чтобы получить идентификатор подписки, выполните команду SYSTEM$GET_SNOWFLAKE_PLATFORM_INFO() от ACCOUNTADMIN имени, чтобы получить значения snowflake-vnet-subnet-ids . Идентификатор подписки для Приватный канал клиента Azure Snowflake получается отсюда.

Важно!

  • Администраторам по качеству данных требуется доступ только на чтение к Snowflake, чтобы настроить подключение к качеству данных.
  • Соединитель Snowflake не принимает https://. Удалите https:// при добавлении имени сервера для настройки подключения к источнику данных.
  • Если общий доступ отключен, установите флажок Разрешить доверенные службы Майкрософт для Key Vault. Это необходимо только для Key Vault, а не для рабочей области Snowflake.
  • виртуальная сеть поддержка в настоящее время доступна в предварительной версии и доступна по всему миру. Он временно включен в номера SKU управления данными для обеспечения гибкости на этом этапе. виртуальная сеть цены пока недоступны и могут быть сделаны до общей доступности функции.

Профилирование и проверка качества данных в Snowflake

После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку качества данных в Snowflake. Следуйте пошаговому руководству, описанному в следующих документах:

Справочные документы