Когнитивный навык извлечения документов

Навык извлечения документов извлекает содержимое из файла в конвейере обогащения. По умолчанию извлечение содержимого встроено в конвейер обогащения. Однако с помощью навыка извлечения документов можно управлять настройкой параметров и именем извлеченного содержимого в дереве обогащения.

Для векторного и многомодального поиска извлечение документов в сочетании с навыком разделения текста является более доступным, чем другие подходы к фрагментации данных. В этом руководстве показано, как это показано в многомодальном руководстве .

Note

Этот навык не привязан к средствам Foundry и не имеет ключевого требования к инструментам Foundry.

Этот навык извлекает текст и изображения. Извлечение текста бесплатно. Извлечение изображений взимается с помощью службы "Поиск ИИ Azure". В бесплатной службе поиска стоимость 20 транзакций на индексатор в день поглощается, чтобы вы могли завершить краткие руководства, учебники и небольшие проекты без платы. Для базовых и более высоких уровней извлечение изображений оплачивается.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Поддерживаемые форматы документов

DocumentExtractionSkill может извлечь текст из следующих форматов документов:

CSV (см. раздел индексирование больших двоичных объектов CSV)
EML
EPUB
GZ
HTML
JSON (см. индексирование BLOB-объектов JSON);
KML (XML для географических представлений)
Markdown (язык разметки)
Форматы Microsoft Office: DOCX/DOC/DOCM, XLSX/XLSM, PPTX/PPT/PPTM, MSG (outlook emails), XML (как 2003, так и 2006 WORD XML)
Форматы открытых документов: ODT, ODS, ODP
PDF
обычные текстовые файлы (см. также индексирование обычного текста);
RTF
XML
ZIP

Параметры навыков

Параметры чувствительны к регистру.

Inputs Допустимые значения Description

Inputs	Допустимые значения	Description
`parsingMode`	`default` `text` `json`	Задайте значение `default` для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если `parsingMode` он не определен явно, он будет иметь значение `default`. `text` Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных. Установите для `json` извлечения структурированного содержимого из json-файлов.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Установите для `contentAndMetadata` извлечения всех метаданных и текстового содержимого из каждого файла. Если `dataToExtract` он не определен явно, он будет иметь значение `contentAndMetadata`. Задайте для `allMetadata` извлечения только свойств метаданных для типа контента (например, метаданные, уникальные только для .png файлов).
`configuration`	См. ниже.	Словарь необязательных параметров, которые настраивают способ извлечения документа. В таблице ниже приведены описания поддерживаемых свойств конфигурации.

parsingMode

default
text
json

Задайте значение default для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если parsingMode он не определен явно, он будет иметь значение default.

text Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных.

Установите для json извлечения структурированного содержимого из json-файлов.

dataToExtract

contentAndMetadata
allMetadata

Установите для contentAndMetadata извлечения всех метаданных и текстового содержимого из каждого файла. Если dataToExtract он не определен явно, он будет иметь значение contentAndMetadata.

Задайте для allMetadata извлечения только свойств метаданных для типа контента (например, метаданные, уникальные только для .png файлов).

configuration См. ниже. Словарь необязательных параметров, которые настраивают способ извлечения документа. В таблице ниже приведены описания поддерживаемых свойств конфигурации.

Параметр конфигурации Допустимые значения Description

Параметр конфигурации	Допустимые значения	Description
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Установите для `none` пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию. Для OCR и анализа изображений задайте `generateNormalizedImages` для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия требуется, чтобы `parsingMode` для этого задано `default` значение и `dataToExtract` задано значение `contentAndMetadata`. Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эти сведения создаются для каждого изображения при использовании этого параметра. Если задано `generateNormalizedImagePerPage`значение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы `generateNormalizedImages` он был задан.
`normalizedImageMaxWidth`	Любое целое число от 50 до 10000	Максимальная ширина (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000.
`normalizedImageMaxHeight`	Любое целое число от 50 до 10000	Максимальная высота (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Установите для none пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию.

Для OCR и анализа изображений задайте generateNormalizedImages для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия требуется, чтобы parsingMode для этого задано default значение и dataToExtract задано значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эти сведения создаются для каждого изображения при использовании этого параметра.

Если задано generateNormalizedImagePerPageзначение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы generateNormalizedImages он был задан.

normalizedImageMaxWidth Любое целое число от 50 до 10000 Максимальная ширина (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000.

normalizedImageMaxHeight Любое целое число от 50 до 10000 Максимальная высота (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000.

Note

По умолчанию навыками OCR и анализа изображений поддерживаются нормализованные изображения с максимальными шириной и высотой в 2000 пикселей. Навык OCR поддерживает максимальную ширину и высоту 4200 для языков, отличных от английского, и 10 000 для английского языка. Если увеличить максимальные пределы, то обработка может завершиться сбоем на больших изображениях в зависимости от определения набора навыков и языка документов.

Входные данные навыков

Входное имя	Description
`file_data`	Файл, из которого должно быть извлечено содержимое.

Входные данные "file_data" должны быть объектом, определенным как:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Кроме того, его можно определить следующим образом:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Объект ссылки на файл можно создать одним из трех способов:

При задании allowSkillsetToReadFileData параметра в определении индексатора задано значение true. При этом создается путь /document/file_data , представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов.
imageAction Задание параметра в определении индексатора значение, отличное от noneзначения. При этом создается массив изображений, которые соответствуют требуемому соглашению для ввода этого навыка, если они передаются по отдельности (т /document/normalized_images/*. е. ).
Если пользовательский навык возвращает объект JSON, определенный ТОЧНО, как описано выше. Параметр $type должен быть file задан точно, и data параметр должен быть в кодировке 64 байтов данных массива байтов содержимого файла, или url параметр должен быть правильно отформатированным URL-адресом с доступом для скачивания файла в этом расположении.

Выходные данные навыка

Название вывода	Description
`content`	Текстовое содержимое документа.
`normalized_images`	`imageAction` Если задано значение, отличное `none`от значения, новое поле normalized_images содержит массив изображений. Дополнительные сведения о выходном формате см. в статье "Извлечение текста и сведений из изображений ".

Пример определения

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Пример ввода

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Пример полученных результатов

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

См. также

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-07