Поделиться через


Сканирование и прием данных в схеме данных

В этой статье приводятся общие сведения о функциях сканирования и приема в Схема данных Microsoft Purview. Эти функции подключают учетную запись Microsoft Purview к источникам для заполнения карты данных и Единый каталог, чтобы вы могли приступить к изучению данных и управлению ими с помощью Microsoft Purview.

  • Сканирование захватывает метаданные из источников данных и переносит их в Microsoft Purview.
  • Прием обрабатывает метаданные и сохраняет их в Единый каталог из обоих:
    • Проверка источников данных — отсканированные метаданные добавляются в карту данных.
    • Подключения к происхождению. Ресурсы преобразования добавляют метаданные о своих источниках, выходных данных и действиях в карту данных.

Сканирование

После регистрации источников данных в учетной записи Microsoft Purview проверьте источники данных. Процесс сканирования подключается к источнику данных и записывает технические метаданные, такие как имена, размер файла, столбцы и многое другое. Он также извлекает схему для структурированных источников данных, применяет классификации к схемам и применяет метки конфиденциальности, если карта данных подключена к порталу Microsoft Purview. Вы можете запустить процесс сканирования немедленно или запланировать его периодическое выполнение, чтобы поддерживать актуальность учетной записи Microsoft Purview.

Для каждой проверки можно настроить процесс так, чтобы вы сканируете только необходимые сведения, а не весь источник.

Выбор метода проверки подлинности для проверок

По умолчанию Microsoft Purview защищен. В нем не хранятся пароли или секреты напрямую, поэтому необходимо выбрать метод проверки подлинности для источников. Вы можете проверить подлинность учетной записи Microsoft Purview несколькими способами, но не все методы поддерживаются для каждого источника данных.

  • Управляемое удостоверение
  • Субъект-служба
  • Проверка подлинности SQL
  • Проверка подлинности Windows
  • Роль ARN
  • Делегированная проверка подлинности
  • Ключ потребителя
  • Ключ учетной записи или обычная проверка подлинности

По возможности используйте управляемое удостоверение, так как оно устраняет необходимость в хранении учетных данных и управлении ими для отдельных источников данных. Этот метод позволяет значительно сократить время, затрачивается на настройку и устранение неполадок проверки подлинности для проверок. При включении управляемого удостоверения для учетной записи Microsoft Purview удостоверение создается в Microsoft Entra ID (идентификатор Entra) и привязано к жизненному циклу учетной записи.

Область сканирования

При проверке источника можно сканировать весь источник данных или выбрать только определенные сущности (папки или таблицы). Доступные параметры зависят от источника, который вы сканируете. Эти параметры можно определить как для однократных, так и для запланированных проверок.

Например, при создании и выполнении проверки базы данных Azure SQL можно выбрать таблицы для сканирования или выбрать всю базу данных.

Для каждой сущности (папки или таблицы) существуют три состояния выделения: полностью выбрано, частично выбрано и не выбрано. В следующем примере, если выбрать Отдел 1 в иерархии папок, отдел 1 считается полностью выбранным. Родительские сущности для отдела 1( например , "Компания " и "Компания") считаются частично выбранными, так как другие сущности в том же родительском элементе (например, Отдел 2) не выбраны. Различные значки используются в пользовательском интерфейсе для сущностей с разными состояниями выделения.

Снимок экрана: область страницы сканирования.

После выполнения проверки в исходной системе, скорее всего, будут добавлены новые ресурсы. По умолчанию будущие ресурсы под определенным родительским элементом выбираются автоматически, если родительский элемент выбран полностью или частично при повторном запуске проверки. В предыдущем примере после выбора отдела 1 и выполнения проверки все новые ресурсы в папке Department 1 или в разделе Компания и пример будут включены при повторном запуске проверки.

Кнопка переключения, как показано на рисунке ниже, позволяет пользователям управлять автоматическим включением новых ресурсов в частично выбранный родительский элемент. По умолчанию переключатель отключен, а автоматическое включение для частично выбранного родительского элемента отключено. Если переключатель выключен, все новые ресурсы в разделе частично выбранных родителей, таких как Компания и пример , не включаются при повторном запуске сканирования. Только новые ресурсы в разделе 1 включаются в будущую проверку.

Снимок экрана: область страницы сканирования с выключенной кнопкой переключения.

Если переключатель включен, новые ресурсы под родительским элементом автоматически выбираются, если родительский элемент выбран полностью или частично при повторном запуске проверки. Поведение включения такое же, как и перед вводом переключателя.

Снимок экрана: область страницы сканирования с включенной кнопкой переключателя.

Примечание.

  • Доступность переключателя зависит от типа источника данных. В настоящее время он доступен в общедоступной предварительной версии для источников, включая Хранилище BLOB-объектов Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Файлы Azure и выделенный пул SQL Azure (ранее — хранилище данных SQL).
  • Для всех проверок, созданных или запланированных до введения переключателя, состояние переключателя устанавливается как Включено и не может быть изменено. Для всех проверок, созданных или запланированных после введения переключателя, состояние переключателя нельзя изменить после сохранения сканирования. Чтобы изменить состояние переключателя, необходимо создать новую проверку.
  • Если переключатель отключен, для источников типа хранилища, таких как Azure Data Lake Storage 2-го поколения, может потребоваться до четырех часов, прежде чем функция просмотра по исходному типу станет полностью доступной после завершения задания сканирования.

Известные ограничения

Если переключатель выключен, выполните следующие действия.

  • Сущности файлов в частично выбранном родительском элементе не проверяются.
  • Если все существующие сущности в родительском элементе выбраны явным образом, родительский элемент считается полностью выбранным, а все новые ресурсы в родительском элементе включаются при повторном запуске проверки.

Настройка уровня сканирования

В терминологии карты данных существуют три разных уровня сканирования на основе метаданных область и функциональных возможностей:

  • Проверка L1: извлекает основные сведения и метаданные, такие как имя файла, размер и полное имя.
  • Проверка L2: извлекает схему для структурированных типов файлов и таблиц баз данных
  • Проверка L3: извлекает схему, если это применимо, и подвергает выборку файла системным и пользовательским правилам классификации.

При настройке новой проверки или изменении существующей проверки можно настроить уровень сканирования для источников данных, поддерживающих конфигурацию уровня сканирования.

Снимок экрана: раскрывающийся список для выбора уровней сканирования.

По умолчанию будет выбран параметр "Автоматическое обнаружение", что означает, что Microsoft Purview применяет самый высокий уровень сканирования, доступный для этого источника данных. Возьмем Azure SQL базе данных в качестве примера, если проверка выполняется, так как источник данных уже поддерживает классификацию в Microsoft Purview, будет разрешаться как уровень 3. Уровень сканирования в подробных сведениях о выполнении проверки показывает фактический примененный уровень.

Снимок экрана: фактический примененный уровень сканирования.

Для всех запусков сканирования в журнале сканирования, которые были завершены до настройки уровня сканирования в качестве новой функции, уровень сканирования устанавливается и отображается как Автоматическое обнаружение.

Снимок экрана, на котором показан уровень сканирования как автоматическое обнаружение.

  • Когда для источника данных становится доступен более высокий уровень сканирования, сохраненные или запланированные проверки, для которых задан уровень проверки, для которых задано значение Автоматическое обнаружение , автоматически применяют новый уровень сканирования. Например, если для данного источника данных включена классификация как новая функция, все существующие проверки этого источника данных автоматически применяют классификацию.

  • Параметр уровня сканирования отображается в интерфейсе мониторинга сканирования для каждого запуска сканирования.

  • При выборе уровня 1 сканирование возвращает только базовые технические метаданные, такие как имя ресурса, размер ресурса, измененная метка времени и т. д., в зависимости от доступности метаданных определенного источника данных. Для База данных SQL процесс создает сущности активов, такие как таблицы, в схеме данных, но не извлекает схему таблицы. (Примечание. Пользователи по-прежнему могут просматривать схему таблицы в режиме реального времени, если у них есть необходимые разрешения в исходной системе.

  • При выборе уровня 2 сканирование возвращает схемы таблиц и базовые технические метаданные, но не выполняет выборку и классификацию данных. Для базы данных Azure SQL сущности табличных активов фиксируют схему таблицы без сведений о классификации.

  • Если выбрать уровень 3, при проверке выполняется выборка и классификация данных. Это стандартная конфигурация для Azure SQL проверки базы данных перед уровнем сканирования в качестве новой функции.

  • Если задать для запланированного сканирования более низкий уровень проверки, а затем изменить его на более высокий уровень сканирования, следующий запуск сканирования автоматически выполнит полную проверку и обновит все существующие ресурсы данных из источника данных с метаданными, введенными более высоким уровнем сканирования. Например, при изменении запланированного набора проверки уровня 2 в базе данных Azure SQL на уровень 3 следующий запуск проверки — это полная проверка и обновление всех существующих Azure SQL таблицы базы данных и просмотр ресурсов с помощью сведений о классификации. Все проверки после этого возобновляется как добавочные проверки, заданные на уровне 3.

  • Если вы задали запланированное сканирование на более высокий уровень проверки, а затем измените его на более низкий уровень сканирования, следующий запуск проверки продолжит выполнять добавочную проверку, а все новые ресурсы данных из источника данных будут представлены только с помощью параметра более низкого уровня сканирования. Например, при изменении запланированного набора проверки уровня 3 в базе данных Azure SQL на уровень 2 следующий запуск проверки является добавочным, а все новые Azure SQL таблицы базы данных и ресурсов просмотра, добавленных в схему данных, не содержат сведений о классификации. Все существующие ресурсы данных по-прежнему хранят сведения о классификации, созданные из предыдущего набора сканирования с уровнем 3.

Примечание.

  • Настройка уровня сканирования в настоящее время доступна для следующих источников данных: база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure Cosmos DB для NoSQL, База данных Azure для PostgreSQL, База данных Azure для MySQL, Azure Data Lake Storage 2-го поколения, Хранилище BLOB-объектов Azure, Файлы Azure, Azure Synapse Analytics, Azure Выделенный пул SQL (ранее — хранилище данных SQL), Azure Data Explorer, Dataverse, Azure Multiple (Azure подписка), Azure Multiple (группа ресурсов Azure), Snowflake, Azure Databricks Unity Catalog
  • В настоящее время эта функция доступна только в среде выполнения интеграции Azure и управляемой среде выполнения интеграции виртуальная сеть версии 2.

Набор правил сканирования

Набор правил сканирования определяет типы сведений, которые поиск выполняется при выполнении проверки в одном из источников. Доступные правила зависят от типа проверяемого источника, но включают такие параметры, как типы файлов , которые следует сканировать, и необходимые типы классификаций .

Многие типы источников данных уже имеют наборы правил проверки системы, но вы также можете создать собственные наборы правил проверки , чтобы адаптировать сканирование к вашей организации.

Планирование сканирования

Microsoft Purview предоставляет возможность ежедневного, еженедельного или ежемесячного сканирования в определенное время. Дополнительные сведения о поддерживаемых параметрах расписания. Ежедневное или еженедельное сканирование может подходить для источников данных со структурами, которые активно разрабатываются или часто изменяются. Ежемесячное сканирование лучше подходит для источников данных, которые изменяются нечасто. Обратитесь к администратору источника, который вы хотите проверить, чтобы определить время, когда потребность в вычислительных ресурсах в источнике низка.

Как сканирование обнаруживает удаленные ресурсы

Каталог Microsoft Purview знает о состоянии хранилища данных только при выполнении проверки. Чтобы каталог узнал, удаляется ли файл, таблица или контейнер, он сравнивает последние выходные данные сканирования с текущими выходными данными сканирования. Например, предположим, что при последнем сканировании учетной записи Azure Data Lake Storage 2-го поколения она включала папку с именем folder1. При повторном сканировании той же учетной записи папка 1 отсутствует. Таким образом, каталог предполагает, что папка удалена.

Совет

Из-за обнаружения удаленных файлов может потребоваться несколько успешных проверок для обнаружения и разрешения удаленных ресурсов. Если Единый каталог не регистрирует удаления для сканирования с заданной областью, попробуйте выполнить несколько полных проверок, чтобы устранить проблему.

Обнаружение удаленных файлов

Логика обнаружения отсутствующих файлов работает для нескольких проверок одного и того же пользователя и разных пользователей. Например, предположим, что пользователь выполняет однократное сканирование в Data Lake Storage 2-го поколения хранилище данных в папках A, B и C. Позже другой пользователь в той же учетной записи выполняет разовую проверку папок C, D и E одного хранилища данных. Так как папка C сканировалась дважды, каталог проверяет ее на наличие возможных удалений. Однако папки A, B, D и E сканировались только один раз, и каталог не проверка их на наличие удаленных ресурсов.

Чтобы удалить удаленные файлы из каталога, важно выполнять регулярные проверки. Интервал сканирования важен, так как каталог не может обнаружить удаленные ресурсы, пока не будет выполнена другая проверка. Таким образом, при выполнении проверок раз в месяц в определенном хранилище каталог не сможет обнаружить удаленные ресурсы данных в этом хранилище, пока не будет выполнена следующая проверка через месяц.

При перечислении больших хранилищ данных, таких как Data Lake Storage 2-го поколения, существует несколько способов (включая ошибки перечисления и удаленные события) пропускать информацию. При определенной проверке может пропустить, что файл был создан или удален. Таким образом, если каталог не уверен, что файл удален, он не удаляет его из каталога. Эта стратегия означает, что могут возникнуть ошибки, если файл, который не существует в сканированном хранилище данных, по-прежнему существует в каталоге. В некоторых случаях хранилище данных может потребоваться проверить два или три раза, прежде чем оно перехватывает некоторые удаленные ресурсы.

Примечание.

  • Ресурсы, помеченные для удаления, удаляются после успешной проверки. Удаленные ресурсы могут оставаться видимыми в каталоге в течение некоторого времени, прежде чем они будут обработаны и удалены.
  • Обнаружение удаления поддерживается только для следующих источников в Microsoft Purview: рабочие области Azure Synapse Analytics, SQL Server Azure с поддержкой Arc, Хранилище BLOB-объектов Azure, Файлы Azure, Azure Cosmos DB, Azure Обозреватель данных, База данных Azure для MySQL, База данных Azure для PostgreSQL, выделенный пул SQL Azure, машинное обучение Azure, база данных Azure SQL и Azure SQL Управляемый экземпляр. Для этих источников при удалении ресурса из источника данных последующие проверки автоматически удаляют соответствующие метаданные и происхождение в Microsoft Purview.

Приеме внутрь

Прием — это процесс, который заполняет карту данных метаданными, собранными в различных процессах.

Примечание.

Совокупное число всех дочерних объектов (ссылающихся сущностей) и контактов (владелец, эксперт) не должно превышать 20 000 сущностей.

Прием из сканирований

Процесс сканирования определяет технические метаданные или классификации и отправляет их для приема. При приеме анализируются входные данные сканирования, применяются шаблоны набора ресурсов, заполняются доступные сведения о происхождении , а затем автоматически загружается карта данных. Обнаружить или курировать ресурсы и схемы можно только после завершения приема. Если проверка завершена, но ресурсы не отображаются в схеме данных или каталоге, необходимо дождаться завершения процесса приема.

Прием данных из подключений к происхождению

Вы можете подключить такие ресурсы, как Фабрика данных Azure и Azure Synapse к Microsoft Purview, чтобы перенести данные об источнике и происхождении данных в карту данных. Например, когда конвейер копирования выполняется в Фабрика данных Azure, подключенном к Microsoft Purview, служба выполняет прием метаданных о входных источниках, действиях и источниках выходных данных. Сведения добавляются в карту данных.

При добавлении источника данных в карту данных путем сканирования сведения о происхождении данных о действии добавляются в существующий источник. Если вы еще не добавили источник данных в карту данных, процесс приема данных добавляет его в корневую коллекцию со сведениями о происхождении.

Дополнительные сведения о доступных подключениях к происхождению данных см. в руководстве пользователя по происхождению данных.

Дальнейшие действия

Дополнительные сведения или инструкции по проверке источников см. по ссылкам ниже.