Поделиться через


Когнитивный навык извлечения документов

Навык извлечения документов извлекает содержимое из файла в конвейере обогащения. По умолчанию извлечение содержимого встроено в конвейер обогащения. Однако с помощью навыка извлечения документов можно управлять настройкой параметров и именем извлеченного содержимого в дереве обогащения.

Для векторного и многомодального поиска извлечение документов в сочетании с навыком разделения текста является более доступным, чем другие подходы к фрагментации данных. В этом руководстве показано, как это показано в многомодальном руководстве .

Note

Этот навык не привязан к средствам Foundry и не имеет ключевого требования к инструментам Foundry.

Этот навык извлекает текст и изображения. Извлечение текста бесплатно. Извлечение изображений взимается с помощью службы "Поиск ИИ Azure". В бесплатной службе поиска стоимость 20 транзакций на индексатор в день поглощается, чтобы вы могли завершить краткие руководства, учебники и небольшие проекты без платы. Для базовых и более высоких уровней извлечение изображений оплачивается.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Поддерживаемые форматы документов

DocumentExtractionSkill может извлечь текст из следующих форматов документов:

Параметры навыков

Параметры чувствительны к регистру.

Inputs Допустимые значения Description
parsingMode default
text
json
Задайте значение default для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если parsingMode он не определен явно, он будет иметь значение default.

text Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных.

Установите для json извлечения структурированного содержимого из json-файлов.
dataToExtract contentAndMetadata
allMetadata
Установите для contentAndMetadata извлечения всех метаданных и текстового содержимого из каждого файла. Если dataToExtract он не определен явно, он будет иметь значение contentAndMetadata.

Задайте для allMetadata извлечения только свойств метаданных для типа контента (например, метаданные, уникальные только для .png файлов).
configuration См. ниже. Словарь необязательных параметров, которые настраивают способ извлечения документа. В таблице ниже приведены описания поддерживаемых свойств конфигурации.
Параметр конфигурации Допустимые значения Description
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Установите для none пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию.

Для OCR и анализа изображений задайте generateNormalizedImages для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия требуется, чтобы parsingMode для этого задано default значение и dataToExtract задано значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эти сведения создаются для каждого изображения при использовании этого параметра.

Если задано generateNormalizedImagePerPageзначение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы generateNormalizedImages он был задан.
normalizedImageMaxWidth Любое целое число от 50 до 10000 Максимальная ширина (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000.
normalizedImageMaxHeight Любое целое число от 50 до 10000 Максимальная высота (в пикселях) для сформированных нормализованных изображений. Значение по умолчанию — 2000.

Note

По умолчанию навыками OCR и анализа изображений поддерживаются нормализованные изображения с максимальными шириной и высотой в 2000 пикселей. Навык OCR поддерживает максимальную ширину и высоту 4200 для языков, отличных от английского, и 10 000 для английского языка. Если увеличить максимальные пределы, то обработка может завершиться сбоем на больших изображениях в зависимости от определения набора навыков и языка документов.

Входные данные навыков

Входное имя Description
file_data Файл, из которого должно быть извлечено содержимое.

Входные данные "file_data" должны быть объектом, определенным как:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Кроме того, его можно определить следующим образом:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Объект ссылки на файл можно создать одним из трех способов:

  • При задании allowSkillsetToReadFileData параметра в определении индексатора задано значение true. При этом создается путь /document/file_data , представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов.

  • imageAction Задание параметра в определении индексатора значение, отличное от noneзначения. При этом создается массив изображений, которые соответствуют требуемому соглашению для ввода этого навыка, если они передаются по отдельности (т /document/normalized_images/*. е. ).

  • Если пользовательский навык возвращает объект JSON, определенный ТОЧНО, как описано выше. Параметр $type должен быть file задан точно, и data параметр должен быть в кодировке 64 байтов данных массива байтов содержимого файла, или url параметр должен быть правильно отформатированным URL-адресом с доступом для скачивания файла в этом расположении.

Выходные данные навыка

Название вывода Description
content Текстовое содержимое документа.
normalized_images imageAction Если задано значение, отличное noneот значения, новое поле normalized_images содержит массив изображений. Дополнительные сведения о выходном формате см. в статье "Извлечение текста и сведений из изображений ".

Пример определения

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Пример ввода

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Пример полученных результатов

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

См. также