Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Навык "Понимание содержимого Azure " использует анализаторы документов из службы "Распознавание содержимого Azure" в средстве Foundry для анализа неструктурированных документов и других типов контента, создавая упорядоченные и доступные для поиска выходные данные, которые можно интегрировать в рабочие нагрузки автоматизации. Этот навык извлекает как текст, так и изображения, включая метаданные расположения, которые сохраняют положение каждого изображения в документе. Близость изображения к связанному содержимому особенно полезна для многомодального поиска, агентическогоизвлечения и получения дополненного поколения (RAG).
Вы можете использовать навык распознавания содержимого Azure для извлечения содержимого и фрагментирования. Нет необходимости использовать навык разделения текста в наборе навыков. Этот навык реализует тот же интерфейс, что и навык макета документа, в котором используется textмодель макета средств Foundry в Azure Document Intelligence.outputFormat Однако навык распознавания содержимого Azure предлагает несколько преимуществ по сравнению с навыком макета документов:
Таблицы и цифры выходные данные в формате Markdown упрощают понимание больших языковых моделей (LLM). Напротив, навык макета документов выводит таблицы и цифры в виде обычного текста, что может привести к потере информации.
Для таблиц, охватывающих несколько страниц, навык макета документов извлекает страницы таблиц по страницам. Навык распознавания содержимого Azure может распознавать и извлекать межстраничные таблицы в виде одной единицы.
Навык макета документов ограничивает блоки на одну страницу, но семантические единицы, такие как межстраничные таблицы, не должны быть ограничены границами страниц. Навык "Понимание содержимого Azure" позволяет фрагментам охватывать несколько страниц.
Навык "Распознавание содержимого Azure" является более экономичным, чем навык макета документов, так как API распознавания контента является менее дорогостоящим.
Навык распознавания содержимого Azure привязан к оплачиваемому ресурсу Microsoft Foundry. В отличие от других навыков ресурсов ИИ Azure, таких как навык макета документов, навык "Понимание содержимого Azure" не предоставляет 20 бесплатных документов на индексатор в день. Выполнение этого навыка взимается по цене Azure Content Understanding.
Подсказка
Вы можете использовать навык распознавания содержимого Azure в наборе навыков, который также выполняет словесность изображения и векторизацию фрагментов. В следующих руководствах замените навык макета документов навыком распознавания содержимого Azure.
Ограничения
Навык распознавания содержимого Azure имеет следующие ограничения:
Этот навык не подходит для больших документов, требующих более пяти минут обработки в анализаторе документов content Understanding. Время ожидания навыка, но плата по-прежнему применяется к ресурсу Foundry, подключенному к набору навыков. Убедитесь, что документы оптимизированы для поддержания в пределах ограничений обработки, чтобы избежать ненужных затрат.
Этот навык вызывает анализатор документов Службы "Распознавание содержимого Azure", поэтому все задокументированные действия службы для различных типов документов применяются к его выходным данным. Например, файлы Word (DOCX) и PDF могут привести к различным результатам из-за различий в обработке изображений. Если требуется согласованное поведение изображения в DOCX и PDF, рекомендуется преобразовать документы в PDF или просмотреть документацию по многомодальному поиску для альтернативных подходов.
Поддерживаемые регионы
Навык "Понимание содержимого Azure" вызывает REST API 2025-05-01-preview. Ресурс Foundry должен находиться в поддерживаемом регионе, который описан в регионе и поддержке языков Azure Content Understanding.
Служба поиска может находиться в любом поддерживаемом регионе поиска ИИ Azure. Если ресурс Foundry и служба поиска ИИ Azure не находятся в одном регионе, задержка в сети между регионами влияет на производительность индексатора.
Поддерживаемые форматы файлов
Навык распознавания содержимого Azure распознает следующие форматы файлов:
- .JPEG
- .JPG
- .PNG
- .BMP
- . HEIF
- .TIFF
- .DOCX
- .XLSX
- .PPTX
- .HTML
- .TXT
- . MD
- . RTF
- . EML
Поддерживаемые языки
Сведения о печатном тексте см. в разделе о поддержке регионов и языков Azure Content Understanding.
@odata.type
Microsoft.Skills.Util.ContentUnderstandingSkill
Ограничения данных
Даже если размер файла для анализа документов находится в пределах 200 МБ, как описано в квотах и ограничениях службы "Распознавание содержимого Azure", индексирование по-прежнему зависит от ограничений индексатора уровня службы поиска.
Размеры изображения должны составлять от 50 пикселей до 50 пикселей или 10 000 пикселей x 10 000 пикселей.
Если pdf-файлы заблокированы, удалите блокировку перед запуском индексатора.
Параметры навыков
Параметры чувствительны к регистру.
| Имя параметра | Допустимые значения | Description |
|---|---|---|
extractionOptions |
["images"]
["images", "locationMetadata"]
["locationMetadata"]
|
Определите любое дополнительное содержимое, извлеченное из документа. Определите массив перечислений, соответствующих содержимому, который должен быть включен в выходные данные. Например, если extractionOptions это ["images", "locationMetadata"]так, выходные данные включают изображения и метаданные расположения, предоставляющие расположение страницы и визуальные сведения, связанные с местом извлечения содержимого. |
chunkingProperties |
См. следующую таблицу. | Параметры, которые инкапсулируют, как фрагментировать текстовое содержимое. |
chunkingProperties Параметры |
Допустимые значения | Description |
|---|---|---|
unit |
Characters является единственным допустимым значением. Длина блока измеряется в символах, а не в словах или маркерах. |
Управляет кратностью единицы блока. |
maximumLength |
Целое число от 300 до 50000. | Максимальная длина блока в символах, измеряемая по значению String.Length. |
overlapLength |
Целое число. Значение должно быть меньше половины maximumLength. |
Длина перекрытия между двумя фрагментами текста. |
Входные данные навыков
| Входное имя | Description |
|---|---|
file_data |
Файл, из которого следует извлечь содержимое. |
Входные file_data данные должны быть объектом, определенным как:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Кроме того, его можно определить следующим образом:
{
"$type": "file",
"url": "URL to download the file",
"sasToken": "OPTIONAL: SAS token for authentication if the provided URL is for a file in blob storage"
}
Объект ссылки на файл можно создать одним из следующих способов:
allowSkillsetToReadFileDataЗадание параметра для определенияtrueиндексатора. Этот параметр создает/document/file_dataпуть, представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов Azure.Наличие настраиваемого навыка, возвращающего определение объекта JSON, которое предоставляет
$type,dataилиurlsastoken. Параметр$typeдолжен иметь значение , иfileдолжен бытьdataбазовым 64-кодированным массивом байтов содержимого файла. Параметрurlдолжен быть допустимым URL-адресом с доступом для скачивания файла в этом расположении.
Выходные данные навыка
| Название вывода | Description |
|---|---|
text_sections |
Коллекция объектов фрагментов текста. Каждый блок может охватывать несколько страниц (факторинг в любом более настроенном фрагменте). Объект фрагмента текста включает в себя locationMetadata , если применимо. |
normalized_images |
Применяется только при extractionOptions наличии images. Коллекция изображений, извлеченных из документа, включая locationMetadata , если применимо. |
Example
В этом примере показано, как выводить текстовое содержимое в блоках фиксированного размера и извлекать изображения вместе с метаданными расположения из документа.
Пример определения, включающее извлечение изображений и метаданных
{
"skills": [
{
"description": "Analyze a document",
"@odata.type": "#Microsoft.Skills.Util.ContentUnderstandingSkill",
"context": "/document",
"extractionOptions": ["images", "locationMetadata"],
"chunkingProperties": {
"unit": "characters",
"maximumLength": 1325,
"overlapLength": 0
},
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "text_sections",
"targetName": "text_sections"
},
{
"name": "normalized_images",
"targetName": "normalized_images"
}
]
}
]
}
Пример полученных результатов
{
"text_sections": [
{
"id": "1_d4545398-8df1-409f-acbb-f605d851ae85",
"content": "What is Azure Content Understanding (preview)?09/16/2025Important· Azure Al Content Understanding is available in preview. Public preview releases provide early access to features that are in active development.· Features, approaches, and processes can change or have limited capabilities, before General Availability (GA).. For more information, see Supplemental Terms of Use for Microsoft Azure PreviewsAzure Content Understanding is a Foundry Tool that uses generative AI to process/ingest content of many types (documents, images, videos, and audio) into a user-defined output format.Content Understanding offers a streamlined process to reason over large amounts of unstructured data, accelerating time-to-value by generating an output that can be integrated into automation and analytical workflows.<figure>\n\nInputs\n\nAnalyzers\n\nOutput\n\n0\nSearch\n\nContent Extraction\n\nField Extraction\n\nDocuments\n\nNew\n\nAgents\n\nPreprocessing\n\nEnrichments\n\nReasoning\n\nImage\n\nNormalization\n(resolution,\nformats)\n\nSpeaker\nrecognition\n\nGen Al\nContext\nwindows\n\nPostprocessing\nConfidence\nscores\nGrounding\nNormalization\n\nMulti-file input\nReference data\n\nDatabases\n\nVideo\n\nOrientation /\nde-skew\n\nLayout and\nstructure\n\nPrompt tuning\n\nStructured\noutput\n\nAudio\n\nFace grouping\n\nMarkdown or JSON schema\n\nCopilots\n\nApps\n\n\\+\n\nFaurIC\n\n</figure>",
"locationMetadata": {
"pageNumberFrom": 1,
"pageNumberTo": 1,
"ordinalPosition": 0,
"source": "D(1,0.6348,0.3598,7.2258,0.3805,7.223,1.2662,0.632,1.2455);D(1,0.6334,1.3758,1.3896,1.3738,1.39,1.5401,0.6338,1.542);D(1,0.8104,2.0716,1.8137,2.0692,1.8142,2.2669,0.8109,2.2693);D(1,1.0228,2.5023,7.6222,2.5029,7.6221,3.0075,1.0228,3.0069);D(1,1.0216,3.1121,7.3414,3.1057,7.342,3.6101,1.0221,3.6165);D(1,1.0219,3.7145,7.436,3.7048,7.4362,3.9006,1.0222,3.9103);D(1,0.6303,4.3295,7.7875,4.3236,7.7879,4.812,0.6307,4.8179);D(1,0.6304,5.0295,7.8065,5.0303,7.8064,5.7858,0.6303,5.7849);D(1,0.635,5.9572,7.8544,5.9573,7.8562,8.6971,0.6363,8.6968);D(1,0.6381,9.1451,5.2731,9.1476,5.2729,9.4829,0.6379,9.4803)"
}
},
...
{
"id": "2_e0e57fd4-e835-4879-8532-73a415e47b0b",
"content": "<table>\n<tr>\n<th>Application</th>\n<th>Description</th>\n</tr>\n<tr>\n<td>Post-call analytics</td>\n<td>Businesses and call centers can generate insights from call recordings to track key KPIs, improve product experience, generate business insights, create differentiated customer experiences, and answer queries faster and more accurately.</td>\n</tr>\n<tr>\n<th>Application</th>\n<th>Description</th>\n</tr>\n<tr>\n<td>Media asset management</td>\n<td>Software and media vendors can use Content Understanding to extract richer, targeted information from videos for media asset management solutions.</td>\n</tr>\n<tr>\n<td>Tax automation</td>\n<td>Tax preparation companies can use Content Understanding to generate a unified view of information from various documents and create comprehensive tax returns.</td>\n</tr>\n<tr>\n<td>Chart understanding</td>\n<td>Businesses can enhance chart understanding by automating the analysis and interpretation of various types of charts and diagrams using Content Understanding.</td>\n</tr>\n<tr>\n<td>Mortgage application processing</td>\n<td>Analyze supplementary supporting documentation and mortgage applications to determine whether a prospective home buyer provided all the necessary documentation to secure a mortgage.</td>\n</tr>\n<tr>\n<td>Invoice contract verification</td>\n<td>Review invoices and contr",
"locationMetadata": {
"pageNumberFrom": 2,
"pageNumberTo": 3,
"ordinalPosition": 3,
"source": "D(2,0.6438,9.2645,7.8576,9.2649,7.8565,10.5199,0.6434,10.5194);D(3,0.6494,0.3919,7.8649,0.3929,7.8639,4.3254,0.6485,4.3232)"
}
...
}
],
"normalized_images": [
{
"id": "1_335140f1-9d31-4507-8916-2cde758639cb",
"data": "aW1hZ2UgMSBkYXRh",
"imagePath": "aHR0cHM6Ly9henNyb2xsaW5nLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsaXR5L0NVLnBkZg2/normalized_images_0.jpg",
"locationMetadata": {
"pageNumberFrom": 1,
"pageNumberTo": 1,
"ordinalPosition": 0,
"source": "D(1,0.635,5.9572,7.8544,5.9573,7.8562,8.6971,0.6363,8.6968)"
}
},
{
"id": "3_699d33ac-1a1b-4015-9cbd-eb8bfff2e6b4",
"data": "aW1hZ2UgMiBkYXRh",
"imagePath": "aHR0cHM6Ly9henNyb2xsaW5nLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsaXR5L0NVLnBkZg2/normalized_images_1.jpg",
"locationMetadata": {
"pageNumberFrom": 3,
"pageNumberTo": 3,
"ordinalPosition": 1,
"source": "D(3,0.6353,5.2142,7.8428,5.218,7.8443,8.4631,0.6363,8.4594)"
}
}
]
}
locationMetadata основан на свойстве, предоставленном source Azure Content Understanding. Сведения о том, как визуальная позиция элемента в файле закодирована, см. в разделе "Анализ документов: извлечение структурированного содержимого".
imagePath представляет относительный путь к сохраненном изображению. Если проекция файла хранилища знаний настроена в наборе навыков, этот путь соответствует относительному пути изображения, хранящегося в хранилище знаний.