Свойства метаданных содержимого, используемые в поиске ИИ Azure

Несколько поддерживаемых индексатором источников данных, включая Хранилище BLOB-объектов Azure, Azure Data Lake Storage 2-го поколения и SharePoint, содержат автономные файлы или внедренные объекты различных типов контента. Многие из этих типов контента имеют свойства метаданных, которые могут быть полезны для индексирования. Так же, как можно создать поля поиска для стандартных свойств metadata_storage_nameBLOB-объектов, можно создать поля в индексе поиска для свойств метаданных, относящихся к формату документа.

Поддерживаемые форматы документов

Искусственный интеллект Azure поддерживает индексирование объектов blob и индексирование документов SharePoint для следующих форматов документов:

Свойства формата документа

В следующей таблице приводится сводка обработки для каждого формата документа и описание свойств метаданных, извлеченных индексатором BLOB-объектов и индексатором SharePoint.

Формат документа или тип содержимого Извлекаемые метаданные Сведения об обработке
CSV (текст или csv) metadata_content_type
metadata_content_encoding
Извлечение текста
ПРИМЕЧАНИЕ: Если нужно извлечь несколько полей документа из двоичного объекта CSV, см. Индекс CSV blobs
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
DOCM (приложение/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
DOCX ("application/vnd.openxmlformats-officedocument.wordprocessingml.document") metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
EML (message/rfc8222) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Извлечение текста, включая вложения
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Извлечение текста из всех документов в архиве
GZ (application/gzip) metadata_content_type Извлечение текста из всех документов в архиве
HTML (text/html или application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Извлечение HTML-элементов и текста
JSON (application/json) metadata_content_type
metadata_content_encoding
Извлечение текста
ПРИМЕЧАНИЕ: Если необходимо извлечь несколько полей документа из блоба JSON, см. раздел "Индекс JSON-блобов"
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Удаление XML-элементов и извлечение текста
MSG (файл электронной почты, формат Microsoft Outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Извлечение текста, включая текст из вложений. metadata_message_to_email, metadata_message_cc_emailи metadata_message_bcc_email являются коллекциями строк. Остальные поля — строки.
ODP (формат файла презентации в формате OpenDocument, application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Извлечение текста, включая внедренные документы
ODS (приложение/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
PDF (приложение/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Извлечение текста, включая вложенные документы (кроме изображений)
Обычный текст (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Извлечение текста
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
PPTM (формат presentation с поддержкой макросов для Microsoft PowerPoint: application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
RTF (приложение или RTF) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Удаление XML-элементов и извлечение текста
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Удаление XML-элементов и извлечение текста
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XLSM (это формат файла Excel с поддержкой макросов, application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XLSX (приложение/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Удаление XML-элементов и извлечение текста
ZIP (приложение/zip) metadata_content_type Извлечение текста из всех документов в архиве