Поделиться через


Общие сведения о качестве данных в Единый каталог Microsoft Purview

Качество данных в Единый каталог Microsoft Purview позволяет домену управления и владельцам данных оценивать и контролировать качество своей экосистемы данных, облегчая целенаправленные действия по улучшению. В современном ландшафте на основе ИИ надежность данных напрямую влияет на точность аналитических сведений и рекомендаций на основе ИИ. Без надежных данных существует риск подорвать доверие к системам ИИ и препятствовать их внедрению.

Низкое качество данных или несовместимые структуры данных могут препятствовать бизнес-процессам и возможностям принятия решений. Качество данных в Единый каталог решает эти проблемы, предлагая пользователям возможность оценивать качество данных с помощью правил без кода или низкого кода, включая встроенные правила (OOB) и правила, созданные ИИ. Эти правила применяются на уровне столбцов и агрегируются для предоставления оценок на уровнях ресурсов данных, продуктов данных и доменов управления, обеспечивая сквозную видимость качества данных в каждом домене.

Качество данных в Microsoft Purview также включает возможности профилирования данных на основе ИИ, рекомендуя столбцы для профилирования и позволяя человеческому вмешательству уточнить эти рекомендации. Этот итеративный процесс не только повышает точность профилирования данных, но и способствует постоянному улучшению базовых моделей ИИ.

Применяя качество данных, организации могут эффективно измерять, отслеживать и повышать качество своих ресурсов данных, повышая надежность аналитических сведений на основе ИИ и повышая доверие к процессам принятия решений на основе ИИ.

Жизненный цикл качества данных

  1. Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
  2. Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
  3. Добавление ресурса данных в продукт данных
  4. Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.
  5. Настройте и запустите профилирование данных для ресурса в источнике данных.
    1. После завершения профилирования просмотрите результаты для каждого столбца в ресурсе данных, чтобы понять текущую структуру и состояние данных.
  6. Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
  7. Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
  8. Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.
  9. Периодически повторяйте шаги 5–8 в течение жизненного цикла ресурса данных, чтобы обеспечить его качество.
  10. Постоянный мониторинг качества данных
    1. Просмотрите действия по обеспечению качества данных для выявления и устранения проблем.
    2. Настройте уведомления о качестве данных , чтобы оповещать вас о проблемах с качеством.

Поддерживаемые регионы качества данных

В настоящее время качество данных поддерживается в следующих регионах.

Поддерживаемые многооблачные источники данных

Просмотрите список поддерживаемых источников данных.

Важно!

Качество данных для файлов Parquet предназначено для поддержки:

  1. Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions} Убедитесь, что структура каталогов и подкаталогов не содержит шаблонов {n}. Вместо этого используйте прямое полное доменное имя, ведущее к {SparkPartitions}.
  2. Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение: Качество данных не предназначено для поддержки произвольных иерархий каталогов с файлами Parquet. Рекомендуется представить данные в сконструированной структуре (1) или (2).

В настоящее время Microsoft Purview может выполнять проверку качества данных только с помощью управляемого удостоверения в качестве параметра проверки подлинности. Службы качества данных работают в Apache Spark 3.4 и Delta Lake 2.4.

Функции качества данных

  • Конфигурация подключения к источнику данных
    • Настройте подключение, чтобы разрешить приложению SaaS для качества данных Microsoft Purview доступ на чтение данных для проверки качества и профилирования.
    • Microsoft Purview использует управляемое удостоверение в качестве параметра проверки подлинности.
  • Профилирование данных
    • Опыт профилирования данных с поддержкой ИИ.
    • Отраслевые стандартные статистические snapshot (распределение, минимум, максимум, стандартное отклонение, уникальность, полнота, дубликаты и т. д.).
    • Детализация мер профилирования на уровне столбцов.
  • Правила качества данных
    • Готовые правила для измерения шести отраслевых стандартов качества данных (полнота, согласованность, соответствие, точность, свежесть и уникальность).
    • Пользовательские функции создания правил включают количество нестандартных функций и значений выражений.
    • Автоматически созданные правила с интегрированным интерфейсом ИИ.
  • Проверка качества данных
    • Выберите и назначьте правила столбцам для проверки качества данных.
    • Примените правило актуальности данных на уровне сущности или таблицы, чтобы измерить соглашение об уровне обслуживания по обновлению данных.
    • Планирование задания проверки качества данных на период времени (ежечасно, ежедневно, еженедельно, ежемесячно и многое другое).
  • Мониторинг заданий качества данных
    • Включите мониторинг состояния задания качества данных (активное, завершенное, неудачное и многое другое).
    • Включите просмотр журнала проверки качества данных.
  • Оценка качества данных
    • Оценка качества данных на уровне правила (что такое оценка качества для правила, применяемого к столбцу).
    • Оценка качества данных для ресурсов данных, продуктов данных и доменов управления (в одном домене управления может быть много продуктов данных, в одном продукте данных может быть много ресурсов данных, в одном ресурсе данных может быть много столбцов данных).
  • Оповещения о качестве данных
    • Настройте оповещения, чтобы уведомлять владельцев данных и владельцев данных о превышении порогового значения качества данных.
    • Настройте псевдоним электронной почты или группу рассылки для отправки уведомлений о проблемах с качеством данных.
  • Действия по обеспечению качества данных
    • Центр действий по качеству данных с действиями по устранению состояний аномалий качества данных, включая диагностические запросы на управление качеством данных до нуля для конкретных данных, которые необходимо исправить для каждого состояния аномалии.
  • Управляемая виртуальная сеть качества данных
    • Виртуальная сеть, управляемая качеством данных, которая подключается с частными конечными точками к источникам данных Microsoft Azure.

Расположение и шифрование данных

Учетная запись хранения, управляемая Корпорацией Майкрософт, хранит метаданные качества данных и сводку профилирования. Они хранятся в том же регионе, что и источник данных, поэтому расположение данных остается неизменным. Все данные шифруются. Для метаданных используется региональное хранилище пользовательских данных поставщика ресурсов Purview. Он обрабатывает все шифрование и является общим для всех служб Purview. Если требуется дополнительный контроль над шифрованием данных с помощью ключа шифрования, управляемого клиентом (CMK), используйте отдельный процесс. Дополнительные сведения о ключе клиента Microsoft Purview.

Цены на вычисления для качества данных

Плата за использование качества данных взимается на основе единиц обработки данных (DGPU) с оплатой по мере использования. Узнайте, как вычисляются цены на качество данных.

Ограничение

  • Виртуальная сеть пока не поддерживается для Google Big Query.

Дальнейшие действия

  1. Назначьте пользователям разрешения на управление качеством данных в Единый каталог, чтобы они могли использовать все функции качества данных.
  2. Настройте подключение к источнику данных , чтобы подготовить источник к оценке качества данных.
  3. Настройте и запустите профилирование данных для ресурса в источнике данных.