Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Несколько поддерживаемых индексатором источников данных, включая Хранилище BLOB-объектов Azure, Azure Data Lake Storage 2-го поколения и SharePoint, содержат автономные файлы или внедренные объекты различных типов контента. Многие из этих типов контента имеют свойства метаданных, которые могут быть полезны для индексирования. Так же, как можно создать поля поиска для стандартных свойств metadata_storage_nameBLOB-объектов, можно создать поля в индексе поиска для свойств метаданных, относящихся к формату документа.
Поддерживаемые форматы документов
Искусственный интеллект Azure поддерживает индексирование объектов blob и индексирование документов SharePoint для следующих форматов документов:
- CSV (см. раздел индексирование больших двоичных объектов CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (см. индексирование BLOB-объектов JSON);
- KML (XML для географических представлений)
- Markdown (язык разметки)
- Форматы Microsoft Office: DOCX/DOC/DOCM, XLSX/XLSM, PPTX/PPT/PPTM, MSG (outlook emails), XML (как 2003, так и 2006 WORD XML)
- Форматы открытых документов: ODT, ODS, ODP
- обычные текстовые файлы (см. также индексирование обычного текста);
- RTF
- XML
- ZIP-архив
Свойства формата документа
В следующей таблице приводится сводка обработки для каждого формата документа и описание свойств метаданных, извлеченных индексатором BLOB-объектов и индексатором SharePoint.
| Формат документа или тип содержимого | Извлекаемые метаданные | Сведения об обработке |
|---|---|---|
| CSV (текст или csv) | metadata_content_typemetadata_content_encoding |
Извлечение текста ПРИМЕЧАНИЕ: Если нужно извлечь несколько полей документа из двоичного объекта CSV, см. Индекс CSV blobs |
| DOC (application/msword) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Извлечение текста, включая внедренные документы |
| DOCM (приложение/vnd.ms-word.document.macroenabled.12) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Извлечение текста, включая внедренные документы |
| DOCX ("application/vnd.openxmlformats-officedocument.wordprocessingml.document") | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Извлечение текста, включая внедренные документы |
| EML (message/rfc8222) | metadata_content_typemetadata_message_frommetadata_message_tometadata_message_ccmetadata_creation_datemetadata_subject |
Извлечение текста, включая вложения |
| EPUB (application/epub+zip) | metadata_content_typemetadata_authormetadata_creation_datemetadata_titlemetadata_descriptionmetadata_languagemetadata_keywordsmetadata_identifiermetadata_publisher |
Извлечение текста из всех документов в архиве |
| GZ (application/gzip) | metadata_content_type |
Извлечение текста из всех документов в архиве |
| HTML (text/html или application/xhtml+xml) | metadata_content_encodingmetadata_content_typemetadata_languagemetadata_descriptionmetadata_keywordsmetadata_title |
Извлечение HTML-элементов и текста |
| JSON (application/json) | metadata_content_typemetadata_content_encoding |
Извлечение текста ПРИМЕЧАНИЕ: Если необходимо извлечь несколько полей документа из блоба JSON, см. раздел "Индекс JSON-блобов" |
| KML (application/vnd.google-earth.kml+xml) | metadata_content_typemetadata_content_encodingmetadata_language |
Удаление XML-элементов и извлечение текста |
| MSG (файл электронной почты, формат Microsoft Outlook) | metadata_content_typemetadata_message_frommetadata_message_from_emailmetadata_message_tometadata_message_to_emailmetadata_message_ccmetadata_message_cc_emailmetadata_message_bccmetadata_message_bcc_emailmetadata_creation_datemetadata_last_modifiedmetadata_subject |
Извлечение текста, включая текст из вложений.
metadata_message_to_email, metadata_message_cc_emailи metadata_message_bcc_email являются коллекциями строк. Остальные поля — строки. |
| ODP (формат файла презентации в формате OpenDocument, application/vnd.oasis.opendocument.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_title |
Извлечение текста, включая внедренные документы |
| ODS (приложение/vnd.oasis.opendocument.spreadsheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Извлечение текста, включая внедренные документы |
| ODT (application/vnd.oasis.opendocument.text) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Извлечение текста, включая внедренные документы |
| PDF (приложение/pdf) | metadata_content_typemetadata_languagemetadata_authormetadata_titlemetadata_creation_date |
Извлечение текста, включая вложенные документы (кроме изображений) |
| Обычный текст (text/plain) | metadata_content_typemetadata_content_encodingmetadata_language |
Извлечение текста |
| PPT (application/vnd.ms-powerpoint) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Извлечение текста, включая внедренные документы |
| PPTM (формат presentation с поддержкой макросов для Microsoft PowerPoint: application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Извлечение текста, включая внедренные документы |
| PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Извлечение текста, включая внедренные документы |
| RTF (приложение или RTF) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Извлечение текста |
| WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_typemetadata_authormetadata_creation_date |
Удаление XML-элементов и извлечение текста |
| WORD XML (application/vnd.ms-word2006ml) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Удаление XML-элементов и извлечение текста |
| XLS (application/vnd.ms-excel) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Извлечение текста, включая внедренные документы |
| XLSM (это формат файла Excel с поддержкой макросов, application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Извлечение текста, включая внедренные документы |
| XLSX (приложение/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Извлечение текста, включая внедренные документы |
| XML (application/xml) | metadata_content_typemetadata_content_encodingmetadata_language |
Удаление XML-элементов и извлечение текста |
| ZIP (приложение/zip) | metadata_content_type |
Извлечение текста из всех документов в архиве |