Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Навык извлечения документов извлекает содержимое из файла в конвейере обогащения. По умолчанию извлечение содержимого встроено в конвейер обогащения. Однако с помощью навыка извлечения документов можно управлять настройкой параметров и именем извлеченного содержимого в дереве обогащения.
Для векторного и многомодального поиска извлечение документов в сочетании с навыком разделения текста является более доступным, чем другие подходы к фрагментации данных. В этом руководстве показано, как это показано в многомодальном руководстве .
Note
Этот навык не привязан к средствам Foundry и не имеет ключевого требования к инструментам Foundry.
Этот навык извлекает текст и изображения. Извлечение текста бесплатно. Извлечение изображений взимается с помощью службы "Поиск ИИ Azure". В бесплатной службе поиска стоимость 20 транзакций на индексатор в день поглощается, чтобы вы могли завершить краткие руководства, учебники и небольшие проекты без платы. Для базовых и более высоких уровней извлечение изображений оплачивается.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Поддерживаемые форматы документов
DocumentExtractionSkill может извлечь текст из следующих форматов документов:
- CSV (см. раздел индексирование больших двоичных объектов CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (см. индексирование BLOB-объектов JSON);
- KML (XML для географических представлений)
- Markdown (язык разметки)
- Форматы Microsoft Office: DOCX/DOC/DOCM, XLSX/XLSM, PPTX/PPT/PPTM, MSG (outlook emails), XML (как 2003, так и 2006 WORD XML)
- Форматы открытых документов: ODT, ODS, ODP
- обычные текстовые файлы (см. также индексирование обычного текста);
- RTF
- XML
- ZIP
Параметры навыков
Параметры чувствительны к регистру.
| Inputs | Допустимые значения | Description |
|---|---|---|
parsingMode |
default
text
json
|
Задайте значение default для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если parsingMode он не определен явно, он будет иметь значение default.
text Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных. Установите для json извлечения структурированного содержимого из json-файлов. |
dataToExtract |
contentAndMetadata
allMetadata
|
Установите для contentAndMetadata извлечения всех метаданных и текстового содержимого из каждого файла. Если dataToExtract он не определен явно, он будет иметь значение contentAndMetadata. Задайте для allMetadata извлечения только свойств метаданных для типа контента (например, метаданные, уникальные только для .png файлов). |
configuration |
См. ниже. | Словарь необязательных параметров, которые настраивают способ извлечения документа. В таблице ниже приведены описания поддерживаемых свойств конфигурации. |
| Параметр конфигурации | Допустимые значения | Description |
|---|---|---|
imageAction |
none
generateNormalizedImages
generateNormalizedImagePerPage
|
Установите для none пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию. Для OCR и анализа изображений задайте generateNormalizedImages для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия требуется, чтобы parsingMode для этого задано default значение и dataToExtract задано значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эти сведения создаются для каждого изображения при использовании этого параметра. Если задано generateNormalizedImagePerPageзначение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы generateNormalizedImages он был задан. |
normalizedImageMaxWidth |
Любое целое число от 50 до 10000 | Максимальная ширина (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000. |
normalizedImageMaxHeight |
Любое целое число от 50 до 10000 | Максимальная высота (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000. |
Note
По умолчанию навыками OCR и анализа изображений поддерживаются нормализованные изображения с максимальными шириной и высотой в 2000 пикселей. Навык OCR поддерживает максимальную ширину и высоту 4200 для языков, отличных от английского, и 10 000 для английского языка. Если увеличить максимальные пределы, то обработка может завершиться сбоем на больших изображениях в зависимости от определения набора навыков и языка документов.
Входные данные навыков
| Входное имя | Description |
|---|---|
file_data |
Файл, из которого должно быть извлечено содержимое. |
Входные данные "file_data" должны быть объектом, определенным как:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Кроме того, его можно определить следующим образом:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Объект ссылки на файл можно создать одним из трех способов:
При задании
allowSkillsetToReadFileDataпараметра в определении индексатора задано значение true. При этом создается путь/document/file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов.imageActionЗадание параметра в определении индексатора значение, отличное отnoneзначения. При этом создается массив изображений, которые соответствуют требуемому соглашению для ввода этого навыка, если они передаются по отдельности (т/document/normalized_images/*. е. ).Если пользовательский навык возвращает объект JSON, определенный ТОЧНО, как описано выше. Параметр
$typeдолжен бытьfileзадан точно, иdataпараметр должен быть в кодировке 64 байтов данных массива байтов содержимого файла, илиurlпараметр должен быть правильно отформатированным URL-адресом с доступом для скачивания файла в этом расположении.
Выходные данные навыка
| Название вывода | Description |
|---|---|
content |
Текстовое содержимое документа. |
normalized_images |
imageAction Если задано значение, отличное noneот значения, новое поле normalized_images содержит массив изображений. Дополнительные сведения о выходном формате см. в статье "Извлечение текста и сведений из изображений ". |
Пример определения
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Пример ввода
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Пример полученных результатов
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}