Поделиться через


Качество данных для Google BigQuery (предварительная версия)

Поддерживаемые возможности

При сканировании источника Google BigQuery Microsoft Purview поддерживает:

  • Извлечение технических метаданных, включая:
    • Проекты и наборы данных
    • Таблицы, включая столбцы
    • Представления, включая столбцы
  • Получение статического происхождения данных о связях ресурсов между таблицами и представлениями.

При настройке сканирования можно выбрать сканирование всего проекта Google BigQuery. Вы также можете область сканирование подмножества наборов данных, соответствующих заданным именам или шаблонам имен.

Известные ограничения

  • В настоящее время Microsoft Purview поддерживает только сканирование наборов данных Google BigQuery в нескольких регионах США. Если указанный набор данных находится в другом расположении, например us-east1 или EU, вы увидите, что проверка завершена, но ресурсы в Microsoft Purview не отображаются.
  • При удалении объекта из источника данных в настоящее время при последующей проверке не удаляется автоматически соответствующий ресурс в Microsoft Purview.

Настройка сканирования карты данных для каталогизации данных Google BigQuery в Microsoft Purview

Регистрация проекта Google BigQuery

  • Откройте Microsoft Purview и выберите Карта данных в области навигации слева.
  • Нажмите Зарегистрировать.
  • В разделе Регистрация источников выберите Google BigQuery. Нажмите Продолжить.
    • Введите имя, которое источник данных будет указан в каталоге.
    • Введите ProjectID. Это должен быть полный идентификатор проекта. Например, mydomain.com: myProject
    • Выберите коллекцию из списка.
    • Нажмите Зарегистрировать.

Настройка сканирования карты данных для проекта Google BigQuery

  • Убедитесь, что настроена локальная среда выполнения интеграции. Если он не настроен, выполните действия, описанные в предварительных требованиях.
  • Перейдите в раздел Источники.
  • Выберите зарегистрированный проект BigQuery.
  • Выберите + Создать сканирование.
  • Укажите следующие сведения:
    • Имя: имя сканирования
    • Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции.
    • Учетные данные. При настройке учетных данных BigQuery убедитесь, что:
      • Выберите Обычная проверка подлинности в качестве метода проверки подлинности.
      • Укажите идентификатор электронной почты учетной записи службы в поле Имя пользователя. Пример: [email protected]
      • Чтобы создать закрытый ключ, выполните следующие действия. Скопируйте весь файл ключа JSON и сохраните его как значение секрета Key Vault.
      • Чтобы создать новый закрытый ключ на облачной платформе Google, выполните приведенные ниже действия.
        • В меню навигации выберите IAM (управление доступом к удостоверениям) и выберите Администратор -> Учетные записи служб -> Выберите проект .>
        • Выберите адрес электронной почты учетной записи службы, для которой требуется создать ключ.
        • Перейдите на вкладку Ключи.
        • Выберите раскрывающееся меню Добавить ключ, а затем выберите Создать новый ключ.
        • Выберите формат JSON.
    • Укажите путь к расположению драйвера JDBC (Подключение к базе данных Java) на компьютере, где запущена среда выполнения интеграции с локальным узлом. Например: D:\Drivers\GoogleBigQuery.
    • Укажите список наборов данных BigQuery для импорта. Например, dataset1; dataset2. Если список пуст, импортируются все доступные наборы данных.
    • Максимальный объем памяти (в ГБ), доступный на виртуальной машине (виртуальной машине) для использования процессами сканирования. Это зависит от размера отсканированного проекта Google BigQuery.
  • Выберите Проверить подключение.
  • Нажмите Продолжить.
  • Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.
  • Просмотрите проверку и выберите Сохранить и запустить.

После сканирования ресурсы данных в проекте Google BigQuery будут доступны в поиске каталога данных. Дополнительные сведения о подключении и управлении Google BigQuery в Microsoft Purview см. в этом документе.

Важно!

При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.

Настройка подключения к проекту Google BigQuery для проверки качества данных

На этом этапе у нас есть отсканированный ресурс, готовый к каталогизации и управлению. Свяжите отсканированные ресурсы с продуктами данных в домене управления, чтобы настроить проверку качества данных.

  1. Выберите вкладку Управление доменом управления качеством >> данных, чтобы создать подключение.

    Снимок экрана: навигация по страницам подключения.

  2. Настройка подключения

    • Добавление имени и описания подключения
    • Выбор типа источника Google BigQuery
    • Добавление идентификатора проекта, имени набора данных и имени таблицы
    • Выбор закрытого ключа учетной записи службы
      • Добавление подписки Azure
      • Подключение к хранилищу ключей
      • имя секрета
      • Версия секрета
  3. Проверьте подключение, чтобы подключение к источнику данных было успешно настроено.

    Снимок экрана, на котором показано, как настроить подключение к Google BigQuery.

    Снимок экрана, на котором показано, как настроить подключение для google BigQuery.

Важно!

Для настройки подключения к качеству данных администраторам требуется доступ только на чтение к Google BigQuery.

Профилирование и проверка качества данных в Google BigQuery

После успешной настройки подключения вы можете профилировать, создавать и применять правила, а также выполнять проверку качества данных в Google BigQuery. Следуйте пошаговому руководству, описанному в следующих документах:

Справочные документы