Заметка
Доступ к этой странице требует авторизации. Вы можете попробовать войти в систему или изменить каталог.
Доступ к этой странице требует авторизации. Вы можете попробовать сменить директорию.
В этой статье перечислены поддерживаемые источники данных, типы файлов и основные понятия сканирования в Схема данных Microsoft Purview.
Перечисление источников данных по типу
В приведенных ниже таблицах показаны все источники данных с техническими метаданными, доступными в Схема данных Microsoft Purview, а также другие поддерживаемые возможности. Выберите имя источника данных в столбце Источник данных , чтобы получить инструкции по подключению этого источника к схеме данных.
Azure
Azure ресурсы доступны только в том же клиенте, что и учетная запись Microsoft Purview, если на странице каждого источника данных не указано иное.
| Источник данных | Может автоматически применять классификации | Может применять метки конфиденциальности к ресурсам карты данных | Может применять политики | Происхождение данных | Доступные в режиме реального времени |
|---|---|---|---|---|---|
| Выберите ссылку для инструкций по подключению и проверке. | Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования. | Сведения о метках конфиденциальности (предварительная версия). | Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита. | Выберите Да , чтобы получить дополнительные сведения. | Сведения о динамическом представлении. |
| Несколько источников | Да | Зависимость от источника | Да | Нет | Ограниченная функциональность |
| Хранилище BLOB-объектов Azure | Да | Да | Да (предварительная версия) | Ограниченный* | Да |
| Azure Cosmos DB для API SQL | Да | Да | Нет | Нет* | Нет |
| Azure Data Explorer | Да | Да | Нет | Нет* | Нет |
| Фабрика данных Azure | Нет | Нет | Нет | Да | Нет |
| Azure Data Lake Storage 2-го поколения | Да | Да | Да (предварительная версия) | Ограниченный* | Да |
| Azure Data Share | Нет | Нет | Нет | Да | Нет |
| База данных Azure для MySQL | Да | Да | Нет | Нет* | Нет |
| База данных Azure для PostgreSQL | Да | Да | Нет | Нет* | Нет |
| хранилище метаданных Azure Databricks Hive | Нет | Нет | Нет | Да | Нет |
| Каталог Unity Azure Databricks | Да | Да | Нет | Да | Нет |
| Выделенный пул SQL Azure (ранее — SQL DW) | Да | Нет | Нет | Нет* | Нет |
| Файлы Azure | Да | Да | Нет | Ограниченный* | Нет |
| Машинное обучение Azure | Нет | Нет | Нет | Да | Нет |
| База данных SQL Azure | Да | Да | Да | Да (предварительная версия) | Да |
| Управляемый экземпляр SQL Azure | Да | Да | Да | Нет* | Нет |
| аналитика Azure Synapse (рабочая область) | Да | Да | Нет | Да — конвейеры Synapse | Нет |
* Помимо происхождения данных в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.
База данных
| Источник данных | Может автоматически применять классификации | Может применять метки конфиденциальности к ресурсам карты данных | Может применять политики | Происхождение данных | Доступные в режиме реального времени |
|---|---|---|---|---|---|
| Выберите ссылку для инструкций по подключению и проверке. | Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования. | Сведения о метках конфиденциальности (предварительная версия). | Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита. | Выберите Да , чтобы получить дополнительные сведения. | Сведения о динамическом представлении. |
| Amazon RDS | Да | Нет | Нет | Нет | Нет |
| Amazon Redshift | Нет | Нет | Нет | Нет | Нет |
| Cassandra | Нет | Нет | Нет | Да | Нет |
| Db2 | Нет | Нет | Нет | Да | Нет |
| Google BigQuery | Нет | Нет | Нет | Да | Нет |
| База данных хранилища метаданных Hive | Нет | Нет | Нет | Да* | Нет |
| MongoDB | Нет | Нет | Нет | Нет | Нет |
| MySQL | Нет | Нет | Нет | Да | Нет |
| Oracle | Да | Нет | Нет | Да* | Нет |
| PostgreSQL | Нет | Нет | Нет | Да | Нет |
| Хранилище SAP для бизнеса | Нет | Нет | Нет | Нет | Нет |
| SAP HANA | Нет | Нет | Нет | Нет | Нет |
| Снежинка | Да | Да | Нет | Да* | Нет |
| Сервер SQL Server. | Да | Да | Нет | Нет* | Нет |
| SQL Server на Azure Arc | Да | Нет | Да | Нет* | Нет |
| Teradata | Да | Нет | Нет | Да* | Нет |
* Помимо происхождения данных в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.
File
| Источник данных | Может автоматически применять классификации | Может применять метки конфиденциальности к ресурсам карты данных | Может применять политики | Происхождение данных | Доступные в режиме реального времени |
|---|---|---|---|---|---|
| Выберите ссылку для инструкций по подключению и проверке. | Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования. | Сведения о метках конфиденциальности (предварительная версия). | Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита. | Выберите Да , чтобы получить дополнительные сведения. | Сведения о динамическом представлении. |
| Amazon S3 | Да | Да | Нет | Ограниченный* | Нет |
| Распределенная файловая система Hadoop (HDFS) | Да | Нет | Нет | Нет | Нет |
* Помимо происхождения данных в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.
Службы и приложения
| Источник данных | Может автоматически применять классификации | Может применять метки конфиденциальности к ресурсам карты данных | Может применять политики | Происхождение данных | Доступные в режиме реального времени |
|---|---|---|---|---|---|
| Выберите ссылку для инструкций по подключению и проверке. | Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования. | Сведения о метках конфиденциальности (предварительная версия). | Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита. | Выберите Да , чтобы получить дополнительные сведения. | Сведения о динамическом представлении. |
| Воздушный поток | Нет | Нет | Нет | Да | Нет |
| Dataverse | Да | Да | Нет | Нет | Нет |
| Erwin | Нет | Нет | Нет | Да | Нет |
| Ткань | Нет | Нет | Нет | Да | Да |
| Looker | Нет | Нет | Нет | Да | Нет |
| Power BI | Нет | Нет | Нет | Да | Да** |
| Qlik Sense | Нет | Нет | Нет | Нет | Нет |
| Salesforce | Нет | Нет | Нет | Нет | Нет |
| SAP ECC | Нет | Нет | Нет | Да* | Нет |
| SAP S/4HANA | Нет | Нет | Нет | Да* | Нет |
| Tableau | Нет | Нет | Нет | Нет | Нет |
* Помимо происхождения данных в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.
** Элементы Power BI в клиенте Fabric доступны в динамическом режиме.
Примечание.
В настоящее время Схема данных Microsoft Purview не может сканировать ресурс с /именем , \или # . Чтобы область проверку и избежать сканирования ресурсов с этими символами в имени ресурса, используйте пример в разделе Регистрация и проверка базы данных Azure SQL.
Важно!
Если вы планируете использовать локальную среду выполнения интеграции, сканирование некоторых источников данных требует дополнительной настройки на локальном компьютере среды выполнения интеграции. Например, JDK, Microsoft Visual C++ распространяемый объект или конкретный драйвер. Сведения о необходимых компонентах см. в каждой статье. Все требования перечислены в разделе Предварительные требования .
Регионы сканера карты данных
В следующем списке показаны все Azure регионах источника данных (центра обработки данных), в которых работает сканер карты данных. Если источник данных Azure находится в регионе за пределами этого списка, средство проверки выполняется в регионе экземпляра Microsoft Purview.
- Восток Австралии
- Юго-восток Австралии
- Южная Бразилия
- Центральная Канада
- Восточная Канада
- Центральная Индия
- Северный Китай 3
- Восточная Азия
- Восточная часть США
- Восточная часть США 2
- Центральная Франция
- Центрально-Западная Германия
- Восточная Япония
- Центральная Корея
- Центрально-северная часть США
- Северная Европа
- Центральный Катар
- Северная часть Южной Африки
- Центрально-южная часть США
- Юго-Восточная Азия
- Северная Швейцария
- Север ОАЭ
- Южная часть Соединенного Королевства
- USGov Вирджиния
- Центрально-западная часть США
- Западная Европа
- Западная часть США
- Западная часть США 2
- Западная часть США 3
Типы файлов, поддерживаемые для сканирования
Типы файлов, перечисленные в следующем разделе, поддерживают сканирование, извлечение схемы и классификацию, если применимо. Кроме того, карта данных поддерживает пользовательские расширения файлов и настраиваемые средства синтаксического анализа.
Форматы структурированных файлов, поддерживаемые расширением, включают сканирование, извлечение схемы, а также классификацию на уровне активов и столбцов:
- AVRO
- CSV
- GZIP
- JSON
- ОРК
- ПАРКЕТ*
- PSV
- SSV
- TSV
- TXT
- XML
*Для несжатых файлов PARQUET поддерживаются все форматы Parquet. Для сжатых файлов PARQUET поддерживается только формат Snappy Parquet.
Форматы файлов документов, поддерживаемые расширением, включают сканирование и классификацию на уровне ресурсов:
- ДОКТОР
- DOCM
- DOCX
- ТОЧКА
- ODP
- ODS
- ODT
- ГОРШОК
- PPS
- PPSX
- PPT
- PPTM
- PPTX
- XLC
- XLS
- XLSB
- XLSM
- XLSX
- XLT
Примечание.
Известные ограничения:
- Сканер Схема данных Microsoft Purview поддерживает извлечение схемы только для структурированных типов файлов, перечисленных в предыдущем разделе.
- Для типов файлов AVRO, ORC и PARQUET сканер не поддерживает извлечение схемы для файлов, содержащих сложные типы данных (например, MAP, LIST, STRUCT).
- Для несжатых файлов PARQUET поддерживаются все форматы Parquet. Для сжатых файлов PARQUET для извлечения и классификации схемы поддерживается только прикрепленный формат Parquet.
- Для типов файлов GZIP GZIP должен быть сопоставлен с одним CSV-файлом внутри. На файлы GZIP применяются системные и пользовательские правила классификации. В настоящее время сканер не поддерживает сканирование GZIP-файла, сопоставленного с несколькими файлами внутри или с файлами любого типа, кроме CSV.
- Для файлов Parquet, если вы используете локальную среду выполнения интеграции, необходимо установить на компьютере IR 64-разрядную версию JRE 11 (среда выполнения Java) или OpenJDK . См. руководство по установке среды выполнения Java.
- Формат Delta не поддерживается. Если вы сканируете формат Delta непосредственно из источника данных хранилища, например Microsoft Azure Data Lake Storage 2-го поколения, набор файлов Parquet из разностного формата анализируется и обрабатывается как набор ресурсов, как описано в разделе Общие сведения о наборах ресурсов. Столбцы, используемые для секционирования, не распознают как часть схемы для набора ресурсов.
Для файлов с разделителями (CSV, PSV, SSV, TSV, TXT):
- Файлы с разделителями с одним столбцом не могут быть определены как CSV-файлы и не имеют схемы.
- Обнаружение типов данных не поддерживается. Тип данных указан как "string" для всех столбцов.
- Единственными поддерживаемыми разделителями являются запятая(',),точка с запятой(';'), вертикальная черта('|') и tab('\t').
- Файлы с разделителями с менее чем тремя строками не могут быть определены как CSV-файлы, если они используют настраиваемый разделитель. Например, файлы с разделителем ~и менее трех строк не могут быть определены как CSV-файлы.
- Если поле содержит двойные кавычки, двойные кавычки могут отображаться только в начале и конце поля и должны совпадать. Двойные кавычки, которые отображаются в середине поля или отображаются в начале и конце, но не совпадают, распознаются как недопустимые данные, и схема не анализируется из файла. Строки, количество столбцов которых отличается от числа строк заголовка, считаются строками ошибок. Количество строк ошибок, разделенных на количество строк, в которых выполняется выборка, должно быть меньше 0,1.
Извлечение схемы
Для источников данных, поддерживающих извлечение схемы во время сканирования, количество столбцов не усечено напрямую схему ресурсов.
Вложенные данные
Вложенные данные поддерживаются только для содержимого JSON. Для всех поддерживаемых системой типов файлов, если в столбце есть вложенное содержимое JSON, средство проверки анализирует вложенные данные JSON и отображает их на вкладке схемы ресурса.
Вложенные данные или синтаксический анализ вложенной схемы не поддерживается в SQL. Столбец со вложенными данными будет сообщаться и классифицироваться как есть, а подданные не будут анализироваться.
Выборка данных для классификации
В терминологии карты данных:
- Проверка L1. Извлекает основные сведения и метаданные, такие как имя файла, размер и полное имя.
- Проверка L2: извлекает схему для структурированных типов файлов и таблиц баз данных.
- Проверка L3: извлекает схему, если применимо, и подвергает выборку файл системным и пользовательским правилам классификации.
Дополнительные сведения о настройке уровней сканирования.
Для всех форматов структурированных файлов Схема данных Microsoft Purview сканировать файлы следующим образом:
- Для структурированных типов файлов он отсортирует первые 128 строк в каждом столбце или первые 1 МБ в зависимости от того, какая из них меньше.
- Для форматов файлов документов он отытет первые 20 МБ каждого файла. — Если размер файла документа превышает 20 МБ, сканер не выполняет глубокое сканирование (при условии классификации). В этом случае Microsoft Purview записывает только базовые метаданные, такие как имя файла и полное имя.
- Для табличных источников данных (SQL) он отсортирует первые 128 строк.
- Для Azure Cosmos DB для NoSQL для схемы собираются до 300 уникальных свойств из первых 10 документов в контейнере. Для каждого свойства сканер выполняет выборку значений до 128 документов или первых 1 МБ.
Выборка файла набора ресурсов
Если папка или группа файлов секций соответствуют политике набора системных ресурсов или определенной клиентом политике набора ресурсов, карта данных обнаруживает их как набор ресурсов. Если сканер обнаруживает набор ресурсов, он проверяет каждую папку, в ней содержится. Дополнительные сведения о наборах ресурсов см. в разделе Наборы ресурсов в Схема данных Microsoft Purview.
Выборка файлов для наборов ресурсов по типам файлов:
- Файлы с разделителями (CSV, PSV, SSV, TSV): сканер примеров 1 в 100 файлов (проверка L3) в папке или группе файлов секций, которые считаются набором ресурсов.
- Типы файлов Data Lake (Parquet, Avro, Orc): сканер примеров 1 в 18 446 744 073 709 551 615 (long max) файлов (проверка L3) в папке или группе файлов секций, которые считаются набором ресурсов.
- Другие структурированные типы файлов (JSON, XML, TXT): сканер примеров 1 из 100 файлов (проверка L3) в папке или группе файлов секционирования, которые считаются набором ресурсов.
- Объекты SQL и Azure сущности Cosmos DB. Сканер L3 сканирует каждый файл.
- Типы файлов документов. Сканер L3 сканирует каждый файл. Шаблоны набора ресурсов не применяются к этим типам файлов.