Качество данных для Google BigQuery (предварительная версия)
Поддерживаемые возможности
При сканировании источника Google BigQuery Microsoft Purview поддерживает:
- Извлечение технических метаданных, включая:
- Проекты и наборы данных
- Таблицы, включая столбцы
- Представления, включая столбцы
- Получение статического происхождения данных о связях ресурсов между таблицами и представлениями.
При настройке сканирования можно выбрать сканирование всего проекта Google BigQuery. Вы также можете область сканирование подмножества наборов данных, соответствующих заданным именам или шаблонам имен.
Известные ограничения
- В настоящее время Microsoft Purview поддерживает только сканирование наборов данных Google BigQuery в нескольких регионах США. Если указанный набор данных находится в другом расположении, например us-east1 или EU, вы увидите, что проверка завершена, но ресурсы в Microsoft Purview не отображаются.
- При удалении объекта из источника данных в настоящее время при последующей проверке не удаляется автоматически соответствующий ресурс в Microsoft Purview.
Настройка сканирования карты данных для каталогизации данных Google BigQuery в Microsoft Purview
Регистрация проекта Google BigQuery
- Откройте Microsoft Purview и выберите Карта данных в области навигации слева.
- Нажмите Зарегистрировать.
- В разделе Регистрация источников выберите Google BigQuery. Нажмите Продолжить.
- Введите имя, которое источник данных будет указан в каталоге.
- Введите ProjectID. Это должен быть полный идентификатор проекта. Например, mydomain.com: myProject
- Выберите коллекцию из списка.
- Нажмите Зарегистрировать.
Настройка сканирования карты данных для проекта Google BigQuery
- Убедитесь, что настроена локальная среда выполнения интеграции. Если он не настроен, выполните действия, описанные в предварительных требованиях.
- Перейдите в раздел Источники.
- Выберите зарегистрированный проект BigQuery.
- Выберите + Создать сканирование.
- Укажите следующие сведения:
- Имя: имя сканирования
- Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции.
- Учетные данные. При настройке учетных данных BigQuery убедитесь, что:
- Выберите Обычная проверка подлинности в качестве метода проверки подлинности.
- Укажите идентификатор электронной почты учетной записи службы в поле Имя пользователя. Пример: [email protected]
- Чтобы создать закрытый ключ, выполните следующие действия. Скопируйте весь файл ключа JSON и сохраните его как значение секрета Key Vault.
- Чтобы создать новый закрытый ключ на облачной платформе Google, выполните приведенные ниже действия.
- В меню навигации выберите IAM (управление доступом к удостоверениям) и выберите Администратор -> Учетные записи служб -> Выберите проект .>
- Выберите адрес электронной почты учетной записи службы, для которой требуется создать ключ.
- Перейдите на вкладку Ключи.
- Выберите раскрывающееся меню Добавить ключ, а затем выберите Создать новый ключ.
- Выберите формат JSON.
- Укажите путь к расположению драйвера JDBC (Подключение к базе данных Java) на компьютере, где запущена среда выполнения интеграции с локальным узлом. Например: D:\Drivers\GoogleBigQuery.
- Укажите список наборов данных BigQuery для импорта. Например, dataset1; dataset2. Если список пуст, импортируются все доступные наборы данных.
- Максимальный объем памяти (в ГБ), доступный на виртуальной машине (виртуальной машине) для использования процессами сканирования. Это зависит от размера отсканированного проекта Google BigQuery.
- Выберите Проверить подключение.
- Нажмите Продолжить.
- Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.
- Просмотрите проверку и выберите Сохранить и запустить.
После сканирования ресурсы данных в проекте Google BigQuery будут доступны в поиске каталога данных. Дополнительные сведения о подключении и управлении Google BigQuery в Microsoft Purview см. в этом документе.
Важно!
При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
Настройка подключения к проекту Google BigQuery для проверки качества данных
На этом этапе у нас есть отсканированный ресурс, готовый к каталогизации и управлению. Свяжите отсканированные ресурсы с продуктами данных в домене управления, чтобы настроить проверку качества данных.
Выберите вкладку Управление доменом управления качеством >> данных, чтобы создать подключение.
Настройка подключения
- Добавление имени и описания подключения
- Выбор типа источника Google BigQuery
- Добавление идентификатора проекта, имени набора данных и имени таблицы
- Выбор закрытого ключа учетной записи службы
- Добавление подписки Azure
- Подключение к хранилищу ключей
- имя секрета
- Версия секрета
Проверьте подключение, чтобы подключение к источнику данных было успешно настроено.
Важно!
Для настройки подключения к качеству данных администраторам требуется доступ только на чтение к Google BigQuery.
Профилирование и проверка качества данных в Google BigQuery
После успешной настройки подключения вы можете профилировать, создавать и применять правила, а также выполнять проверку качества данных в Google BigQuery. Следуйте пошаговому руководству, описанному в следующих документах: