Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Проверки качества данных проверяют ресурсы данных на основе применяемых правил качества данных и дают оценку. Эти оценки могут использоваться для оценки работоспособности данных и решения любых проблем, которые могут снизить качество данных.
Предварительные условия
- Чтобы выполнять и планировать проверки качества данных, пользователи должны быть в роли администратора качества данных.
- В настоящее время учетную запись Microsoft Purview можно настроить так, чтобы разрешить общий доступ или управляемый доступ к виртуальной сети, чтобы можно было выполнять проверки качества данных.
Жизненный цикл качества данных
Проверка качества данных — это седьмой этап жизненного цикла качества данных для ресурса данных. Предыдущие шаги:
- Назначьте пользователям разрешения на управление качеством данных в Единый каталог Microsoft Purview, чтобы они могли использовать все функции качества данных.
- Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
- Добавление ресурса данных в продукт данных
- Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.
-
Настройте и запустите профилирование данных для ресурса в источнике данных.
- После завершения профилирования просмотрите результаты для каждого столбца в ресурсе данных, чтобы понять текущую структуру и состояние данных.
- Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
Поддерживаемые многооблачные источники данных
Просмотрите документ о поддерживаемых источниках данных , чтобы просмотреть список поддерживаемых источников данных, включая форматы файлов для профилирования данных и проверки качества данных, с поддержкой виртуальной сети и без нее.
Важно!
Качество данных для файла Parquet предназначено для поддержки:
- Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
Убедитесь, что в структуре каталогов или вложенных каталогов нет шаблонов {n}. Это должно быть прямое полное доменное имя, ведущее к {SparkPartitions}. - Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение: Он не предназначен для или не поддерживает N произвольных иерархий каталогов с файлами Parquet. Рекомендуется представить данные в (1) или (2) сконструированной структуре.
Поддерживаемые методы проверки подлинности
В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы качества данных работают в Apache Spark 3.4 и Delta Lake 2.4. Дополнительные сведения о поддерживаемых регионах см. в статье Общие сведения о качестве данных.
Важно!
- Если схема обновлена в источнике данных, перед выполнением проверки качества данных необходимо повторно запустить проверку карты данных. Вы также можете использовать функцию импорта схемы на странице обзора качества данных.
- Импорт схемы не поддерживается для источников данных, работающих в управляемой виртуальной сети или частной конечной точке.
- Виртуальная сеть не поддерживается для Azure Databricks, Google BigQuery и Snowflake.
Запуск проверки качества данных
Настройте подключение к источнику данных к ресурсам, которые вы проверяете на качество данных , если вы еще этого не сделали.
В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
Выберите домен управления в списке.
Выберите продукт данных , чтобы оценить качество данных ресурсов данных , связанных с этим продуктом.
Выберите имя ресурса данных, чтобы открыть страницу Обзор качества данных.
Вы можете просмотреть существующие правила качества данных и добавить новые правила, выбрав Правила. Чтобы просмотреть схему ресурса данных, выберите Схема. Вы можете включить или отключить уже добавленные правила.
Запустите проверку качества, выбрав Запустить проверку качества на странице обзора.
Пока выполняется проверка, вы можете отслеживать ход ее выполнения на странице мониторинга качества данных в домене управления.
Планирование проверок качества данных
Хотя проверки качества данных можно выполнять нерегламентированно, нажав кнопку Запустить проверку качества , в рабочих сценариях, скорее всего, исходные данные постоянно обновляются. Лучше всего обеспечить регулярный мониторинг качества данных, чтобы обнаружить любые проблемы. Автоматизация процесса сканирования помогает управлять регулярными обновлениями проверки качества.
В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
Выберите домен управления в списке.
Выберите Управление, а затем — Запланированные проверки.
Заполните форму на странице Создание запланированной проверки . Добавьте имя и описание источника, настроив расписание.
Нажмите Продолжить.
На вкладке Область выберите отдельный продукт и ресурсы данных или все продукты данных и ресурсы данных для всего домена управления.
Нажмите Продолжить.
Задайте расписание в соответствии с вашими предпочтениями и нажмите кнопку Продолжить.
На вкладке Рецензирование выберите Сохранить (или Сохранить и запустить для немедленного тестирования), чтобы завершить планирование проверки качества данных.
Запланированные проверки можно отслеживать на странице мониторинга задания качества данных на вкладке Сканирование .
Удаление предыдущих проверок качества данных и журнала
При удалении ресурса данных из продукта данных, если этот ресурс данных имеет оценку качества данных, сначала необходимо удалить оценку качества данных, а затем удалить ресурс данных из продукта данных.
При удалении данных журнала качества данных удаляются журнал профиля, журнал проверки качества данных и правила качества данных, но действия по обеспечению качества данных не удаляются.
Выполните следующие действия, чтобы удалить предыдущие проверки качества данных ресурса данных:
- В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
- Выберите домен управления в списке.
- Выберите продукт данных из списка.
- Выберите ресурс данных из списка, чтобы перейти на страницу Обзор качества данных.
- Щелкните многоточие (...) в правом верхнем углу страницы Обзор качества данных.
- Выберите Удалить данные о качестве данных , чтобы удалить журнал запусков качества данных.
Примечание.
- Мы рекомендуем использовать удаление данных о качестве данных только для тестовых запусков, ошибок качества данных или при удалении ресурса данных из продукта данных.
- Мы храним до 50 моментальных снимков профилирования качества данных и журнала оценки качества данных. Если вы хотите удалить определенный snapshot, выберите нужный запуск журнала и щелкните значок удаления.
Связанные материалы
- Качество данных для хранилища данных Fabric
- Качество данных для источников зеркальных данных Fabric
- Качество данных для источников данных сочетания клавиш Fabric
- Качество данных для Azure Synapse бессерверных хранилищ и хранилищ данных
- Качество данных для каталога Azure Databricks Unity
- Качество данных для источников данных Snowflake
- Качество данных для Google Big Query
Дальнейшие действия
- Мониторинг проверки качества данных
- Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.
- Настройка оповещений для результатов проверки качества данных