Content Analyzers - Analyze
Извлекать содержимое и поля из входных данных.
POST {endpoint}/contentunderstanding/analyzers/{analyzerId}:analyze?api-version=2025-11-01
POST {endpoint}/contentunderstanding/analyzers/{analyzerId}:analyze?api-version=2025-11-01&stringEncoding={stringEncoding}&processingLocation={processingLocation}
Параметры URI
| Имя | В | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
analyzer
|
path | True |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Уникальный идентификатор анализатора. |
|
endpoint
|
path | True |
string (uri) |
Понимание контента: конечная точка сервиса. |
|
api-version
|
query | True |
string minLength: 1 |
Версия API, используемая для данной операции. |
|
processing
|
query |
Место, где могут обрабатываться данные. По умолчанию — глобальный. |
||
|
string
|
query |
string |
Формат строкового кодирования содержимого охватывает ответ.
Возможные значения — 'codePoint', 'utf16' и |
Заголовок запроса
| Имя | Обязательно | Тип | Описание |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Непрозрачный, глобально уникальный, созданный клиентом идентификатор строки для запроса. |
Текст запроса
| Имя | Обязательно | Тип | Описание |
|---|---|---|---|
| inputs | True |
Входные данные для анализа. В настоящее время только Pro Mode поддерживает несколько входов. |
|
| modelDeployments |
object |
Укажите по умолчанию сопоставление имён моделей с развертываниями LLM/embedding в Microsoft Foundry. Для подробностей и актуальной семантики см. https://aka.ms/cudoc-quickstart-rest. |
Ответы
| Имя | Тип | Описание |
|---|---|---|
| 202 Accepted |
Запрос был принят для обработки, но обработка еще не завершена. Заголовки
|
|
| Other Status Codes |
Непредвиденное сообщение об ошибке. Заголовки x-ms-error-code: string |
Безопасность
Ocp-Apim-Subscription-Key
Аутентификация по ключу с использованием ключа доступа ресурса Azure.
Тип:
apiKey
В:
header
EntraIdToken
Аутентификация Microsoft Entra ID OAuth2 с использованием токена доступа.
Тип:
oauth2
Flow:
accessCode
URL-адрес авторизации:
https://login.microsoftonline.com/common/oauth2/authorize
URL-адрес токена:
https://login.microsoftonline.com/common/oauth2/token
Области
| Имя | Описание |
|---|---|
| https://cognitiveservices.azure.com/.default |
Примеры
Analyze URL
Образец запроса
POST {endpoint}/contentunderstanding/analyzers/myAnalyzer:analyze?api-version=2025-11-01
{
"inputs": [
{
"url": "https://host.com/doc.pdf"
}
]
}
Пример ответа
Operation-Location: https://myendpoint.cognitiveservices.azure.com/contentunderstanding/analyzerResults/3b31320d-8bab-4f88-b19c-2322a7f11034?api-version=2025-11-01
{
"id": "3b31320d-8bab-4f88-b19c-2322a7f11034",
"status": "NotStarted"
}
Определения
| Имя | Описание |
|---|---|
|
Analysis |
Что-то вроде медиаконтента. |
|
Analysis |
Дополнительные данные для анализа. |
|
Analysis |
Анализ результата операции. |
|
Analyze |
Проанализировать запрос на операцию. |
|
Array |
Поле массива извлечено из содержимого. |
|
Audio |
Аудиовизуальный контент. Например, аудио/wav, видео/mp4. |
|
Audio |
Обнаруженный сегмент аудио/видео контента. |
|
Azure. |
Объект ошибки. |
|
Azure. |
Ответ, содержащий сведения об ошибке. |
|
Azure. |
Объект, содержащий более конкретные сведения об ошибке. В соответствии с рекомендациями по Azure REST API — https://aka.ms/AzureRestApiGuidelines#handling-errors. |
|
Boolean |
Булево поле извлечено из содержимого. |
|
Content |
Предоставляет данные о состоянии операций анализа. |
|
Content |
Семантический тип данных значения поля. |
|
Content |
Положение элемента в markdown, заданное как смещение символа и длина. |
|
Date |
Поле даты извлечено из содержимого. |
|
Document |
Аннотация в документе, например, зачёркивание или комментарий. |
|
Document |
Комментарий, связанный с аннотацией к документу. |
|
Document |
Тип аннотации документов. |
|
Document |
Штрихкод в документе. |
|
Document |
Вид штрихкода. |
|
Document |
Подпись к столу или фигуре. |
|
Document |
Рисунк, содержащий диаграмму, например, столбчатую диаграмму, линейную или круговую диаграмму. |
|
Document |
Содержимое документа. Например, текст/простой, приложение/pdf, изображение/jpeg. |
|
Document |
Обнаруженный сегмент содержимого документа. |
|
Document |
Сноска к таблице или фигуре. |
|
Document |
Математическая формула в документе. |
|
Document |
Тип формулы. |
|
Document |
Гиперссылка в документе, например, ссылка на веб-страницу или адрес электронной почты. |
|
Document |
Строка в документе, состоящая из непрерывной последовательности слов. |
|
Document |
Рисунок, содержащий диаграмму, такую как блок-схема или сетевая диаграмма. |
|
Document |
Контент со страницы документа. |
|
Document |
Абзац в документе, обычно состоящий из непрерывной последовательности строк с общим выравниванием и интервалом. |
|
Document |
Раздел в документе. |
|
Document |
Таблица в документе, состоящая из ячеек таблицы, расположенных в прямоугольном формате. |
|
Document |
Ячейка таблицы в таблице документа. |
|
Document |
Тип ячейки таблицы. |
|
Document |
Слово в документе, состоящем из непрерывной последовательности символов. Для языков, не разделенных пробелами, таких как китайский, японский и корейский, каждый символ представлен как собственное слово. |
|
Integer |
Целочисленное поле, извлеченное из содержимого. |
|
Json |
Поле JSON извлечено из содержимого. |
|
Length |
Единица длины, используемая для свойств ширины, высоты и источника. |
|
Number |
Поле числа извлечено из содержимого. |
|
Object |
Объектное поле извлечено из содержимого. |
|
Operation |
Статус операции |
|
Processing |
Место, где могут обрабатываться данные. По умолчанию — глобальный. |
|
Semantic |
Семантическая роль абзаца. |
|
String |
Строковое поле, извлеченное из содержимого. |
|
Time |
Временное поле извлечено из содержимого. |
|
Transcript |
Фраза из стенограммы. |
|
Transcript |
Слово из расшифровки. |
|
Usage |
Детали использования. |
AnalysisContentKind
Что-то вроде медиаконтента.
| Значение | Описание |
|---|---|
| document |
Содержимое документов, такое как PDF, изображения, тексты и т.д. |
| audioVisual |
Аудиовизуальный контент, такой как mp3, mp4 и т.д. |
AnalysisInput
Дополнительные данные для анализа.
| Имя | Тип | Описание |
|---|---|---|
| data |
string (byte) |
Бинарное содержимое входа, закодированное в Base64, для анализа. Должен быть указан только один из URL или данных. |
| mimeType |
string |
Тип MIME входного контента. Например, application/pdf, image/jpeg и т.д. |
| name |
string |
Название ввода. |
| range |
string |
Диапазон входа для анализа (например |
| url |
string (uri) |
URL входа для анализа. Должен быть указан только один из URL или данных. |
AnalysisResult
Анализ результата операции.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| analyzerId |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Уникальный идентификатор анализатора. |
|
| apiVersion |
string |
Версия API, используемая для анализа документа. |
|
| contents | AnalysisContent[]: |
Извлечённое содержимое. |
|
| createdAt |
string (date-time) |
Дата и время создания результата. |
|
| stringEncoding |
string |
codePoint |
Формат строкового кодирования содержимого охватывает ответ.
Возможные значения — 'codePoint', 'utf16' и |
| warnings |
Предупреждения, обнаруженные при анализе документа. |
AnalyzeRequest
Проанализировать запрос на операцию.
| Имя | Тип | Описание |
|---|---|---|
| inputs |
Входные данные для анализа. В настоящее время только Pro Mode поддерживает несколько входов. |
|
| modelDeployments |
object |
Укажите по умолчанию сопоставление имён моделей с развертываниями LLM/embedding в Microsoft Foundry. Для подробностей и актуальной семантики см. https://aka.ms/cudoc-quickstart-rest. |
ArrayField
Поле массива извлечено из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
array |
Семантический тип данных значения поля. |
| valueArray |
ContentField[]:
|
Значение поля массива. |
AudioVisualContent
Аудиовизуальный контент. Например, аудио/wav, видео/mp4.
| Имя | Тип | Описание |
|---|---|---|
| analyzerId |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Анализатор, который создал этот контент. |
| cameraShotTimesMs |
integer[] (int64) |
Список изменений съёмок камеры в видео, представленный временной меткой в миллисекундах. Только если returnDetails верен. |
| category |
string |
Категория классифицированного контента. |
| endTimeMs |
integer (int64) |
Время завершения контента составляет миллисекунды. |
| fields |
object |
Извлекли поля из содержимого. |
| height |
integer (int32) |
Высота каждого видеокадра в пикселях, если применимо. |
| keyFrameTimesMs |
integer[] (int64) |
Список ключевых кадров в видео, представленных временной меткой в миллисекундах. Только если returnDetails верен. |
| kind |
string:
audio |
Контент. |
| markdown |
string |
Изображение контента с понижением. |
| mimeType |
string |
Обнаружен тип MIME-контента. Например, application/pdf, image/jpeg и т.д. |
| path |
string |
Путь содержания в входных данных. |
| segments |
Список обнаруженных сегментов контента. Только если enableSegment верна. |
|
| startTimeMs |
integer (int64) |
Время начала контента — миллисекунды. |
| transcriptPhrases |
Список фраз из расшифровки. Только если returnDetails верен. |
|
| width |
integer (int32) |
Ширина каждого видеокадра в пикселях, если применимо. |
AudioVisualContentSegment
Обнаруженный сегмент аудио/видео контента.
| Имя | Тип | Описание |
|---|---|---|
| category |
string |
Категория классифицированного контента. |
| endTimeMs |
integer (int64) |
Время завершения сегмента в миллисекундах. |
| segmentId |
string |
Идентификатор сегмента. |
| span |
Размах сегмента в содержании цены. |
|
| startTimeMs |
integer (int64) |
Время начала сегмента составляет миллисекунды. |
Azure.Core.Foundations.Error
Объект ошибки.
| Имя | Тип | Описание |
|---|---|---|
| code |
string |
Один из определяемых сервером кодов ошибок. |
| details |
Массив сведений об определенных ошибках, которые привели к этой сообщаемой ошибке. |
|
| innererror |
Объект, содержащий более конкретные сведения, чем текущий объект об ошибке. |
|
| message |
string |
Читаемое пользователем представление ошибки. |
| target |
string |
Целевой объект ошибки. |
Azure.Core.Foundations.ErrorResponse
Ответ, содержащий сведения об ошибке.
| Имя | Тип | Описание |
|---|---|---|
| error |
Объект ошибки. |
Azure.Core.Foundations.InnerError
Объект, содержащий более конкретные сведения об ошибке. В соответствии с рекомендациями по Azure REST API — https://aka.ms/AzureRestApiGuidelines#handling-errors.
| Имя | Тип | Описание |
|---|---|---|
| code |
string |
Один из определяемых сервером кодов ошибок. |
| innererror |
Внутренняя ошибка. |
BooleanField
Булево поле извлечено из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
boolean |
Семантический тип данных значения поля. |
| valueBoolean |
boolean |
Булевое значение поля. |
ContentAnalyzerAnalyzeOperationStatus
Предоставляет данные о состоянии операций анализа.
| Имя | Тип | Описание |
|---|---|---|
| error |
Объект error, описывающий ошибку при состоянии "Failed". |
|
| id |
string |
Уникальный идентификатор операции. |
| result |
Результат операции. |
|
| status |
Статус операции |
|
| usage |
Детали использования операции анализа. |
ContentFieldType
Семантический тип данных значения поля.
| Значение | Описание |
|---|---|
| string |
Обычный текст. |
| date |
Дата, нормализована до формата ISO 8601 (ГГГГ-MM-DD). |
| time |
Время, нормализованное до формата ISO 8601 (hh:mm:ss). |
| number |
Число с двойной точностью с плавающей точкой. |
| integer |
Целое число как 64-битное знаковатое целое число. |
| boolean |
Логическое значение. |
| array |
Список подполей одного типа. |
| object |
Названный список подполей. |
| json |
JSON. |
ContentSpan
Положение элемента в markdown, заданное как смещение символа и длина.
| Имя | Тип | Описание |
|---|---|---|
| length |
integer (int32) |
Длина элемента в markdown, указанная в символах. |
| offset |
integer (int32) |
Начальная позиция (с индексом 0) элемента в markdown, указанная символами. |
DateField
Поле даты извлечено из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
date |
Семантический тип данных значения поля. |
| valueDate |
string (date) |
Значение поля даты в формате ISO 8601 (ГГГГ-MM-DD). |
DocumentAnnotation
Аннотация в документе, например, зачёркивание или комментарий.
| Имя | Тип | Описание |
|---|---|---|
| author |
string |
Автор аннотаций. |
| comments |
Комментарии, связанные с аннотацией. |
|
| createdAt |
string (date-time) |
Дата и время создания аннотации. |
| id |
string |
Идентификатор аннотации. |
| kind |
С аннотациями. |
|
| lastModifiedAt |
string (date-time) |
Дата и время последнего изменения аннотации. |
| source |
string |
Положение аннотации. |
| spans |
Промежутки содержания, связанного с аннотацией. |
|
| tags |
string[] |
Теги, связанные с аннотацией. |
DocumentAnnotationComment
Комментарий, связанный с аннотацией к документу.
| Имя | Тип | Описание |
|---|---|---|
| author |
string |
Автор комментария. |
| createdAt |
string (date-time) |
Дата и время создания комментария. |
| lastModifiedAt |
string (date-time) |
Дата и время, когда комментарий последний раз изменялся. |
| message |
string |
Комментарий в Markdown. |
| tags |
string[] |
Теги, связанные с комментарием. |
DocumentAnnotationKind
Тип аннотации документов.
| Значение | Описание |
|---|---|
| highlight |
Выделяйте аннотации. |
| strikethrough |
Зачёркнутая аннотация. |
| underline |
Подчёркните аннотации. |
| italic |
Курсивная аннотация. |
| bold |
Жирная пометка. |
| circle |
Аннотация по кругу. |
| note |
Обратите внимание на аннотации. |
DocumentBarcode
Штрихкод в документе.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании штрихкода. |
| kind |
Вид штрихкода. |
|
| source |
string |
Кодированный источник, который определяет положение штрих-кода в содержимом. |
| span |
Диапазон штрих-кода в содержимом ценного снижения. |
|
| value |
string |
Значение штрихкода. |
DocumentBarcodeKind
Вид штрихкода.
| Значение | Описание |
|---|---|
| QRCode |
QR-код, как определено в ISO/IEC 18004:2015. |
| PDF417 |
PDF417, как определено в ISO 15438. |
| UPCA |
GS1 12-значный универсальный код продукта. |
| UPCE |
GS1 — 6-значный универсальный код продукта. |
| Code39 |
Штрихкод код 39, как определено в ISO/IEC 16388:2007. |
| Code128 |
Код 128 штрих-кода, как определено в ISO/IEC 15417:2007. |
| EAN8 |
GS1 8-значный международный номер статьи (европейский номер артикула). |
| EAN13 |
GS1 13-значный международный номер статьи (европейский номер товара). |
| DataBar |
Штрихкод GS1 DataBar. |
| Code93 |
Штрих-код код 93, как определено в ANSI/AIM BC5-1995. |
| Codabar |
Штрих-код Codabar, как определено в ANSI/AIM BC3-1995. |
| DataBarExpanded |
Расширенный штрихкод GS1 DataBar. |
| ITF |
Интерливированный штрихкод 2 из 5, как определено в ANSI/AIM BC2-1995. |
| MicroQRCode |
Микро-QR-код, как определено в ISO/IEC 23941:2022. |
| Aztec |
Код ацтеков, как определено в ISO/IEC 24778:2008. |
| DataMatrix |
Код матрицы данных, как определено в ISO/IEC 16022:2006. |
| MaxiCode |
MaxiCode, как определено в ISO/IEC 16023:2000. |
DocumentCaption
Подпись к столу или фигуре.
| Имя | Тип | Описание |
|---|---|---|
| content |
string |
Содержание подписи. |
| elements |
string[] |
Детские элементы в подписи. |
| source |
string |
Кодированный источник, который определяет положение подписи в содержимом. |
| span |
Обхват подписи в содержании ценного снижения. |
DocumentChartFigure
Рисунк, содержащий диаграмму, например, столбчатую диаграмму, линейную или круговую диаграмму.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| caption |
Подпись к рисунку. |
||
| content |
Содержимое диаграммы представлено с помощьюChart.js конфигурации. |
||
| description |
string |
Описание фигуры. |
|
| elements |
string[] |
Дочерние элементы фигуры, за исключением подписей или сносок. |
|
| footnotes |
Список сносок к рисункам. |
||
| id |
string |
Идентификатор фигуры. |
|
| kind |
string:
chart |
unknown |
Фигура. |
| role |
Семантическая роль фигуры. |
||
| source |
string |
Кодированный источник, который определяет положение фигуры в содержимом. |
|
| span |
Размах фигуры в содержимом снижения цены. |
DocumentContent
Содержимое документа. Например, текст/простой, приложение/pdf, изображение/jpeg.
| Имя | Тип | Описание |
|---|---|---|
| analyzerId |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Анализатор, который создал этот контент. |
| annotations |
Список аннотаций в документе. Только если enableAnnotations и returnDetails верны. |
|
| category |
string |
Категория классифицированного контента. |
| endPageNumber |
integer (int32) |
Номер конечной страницы (1-индексированный) содержания. |
| fields |
object |
Извлекли поля из содержимого. |
| figures | DocumentFigure[]: |
Список фигур в документе. Только если enableLayout и returnDetails верны. |
| hyperlinks |
Список ссылок в документе. Только если returnDetails верны. |
|
| kind |
string:
document |
Контент. |
| markdown |
string |
Изображение контента с понижением. |
| mimeType |
string |
Обнаружен тип MIME-контента. Например, application/pdf, image/jpeg и т.д. |
| pages |
Список страниц документа. |
|
| paragraphs |
Список абзацев документа. Только если enableOcr и returnDetails верны. |
|
| path |
string |
Путь содержания в входных данных. |
| sections |
Список разделов документа. Только если enableLayout и returnDetails верны. |
|
| segments |
Список обнаруженных сегментов контента. Только если enableSegment верна. |
|
| startPageNumber |
integer (int32) |
Номер стартовой страницы (1-индексированный) контента. |
| tables |
Список таблиц в документе. Только если enableLayout и returnDetails верны. |
|
| unit |
Единица длины, используемая для свойств ширины, высоты и источника. Для изображений/tiff стандартный блок — пиксель. Для PDF стандартным единицей является дюйм. |
DocumentContentSegment
Обнаруженный сегмент содержимого документа.
| Имя | Тип | Описание |
|---|---|---|
| category |
string |
Категория классифицированного контента. |
| endPageNumber |
integer (int32) |
Номер конечной страницы (1-индексированный) сегмента. |
| segmentId |
string |
Идентификатор сегмента. |
| span |
Размах сегмента в содержании цены. |
|
| startPageNumber |
integer (int32) |
Номер стартовой страницы (1-индексированный) сегмента. |
DocumentFootnote
Сноска к таблице или фигуре.
| Имя | Тип | Описание |
|---|---|---|
| content |
string |
Содержание сноски. |
| elements |
string[] |
Детские элементы сноски. |
| source |
string |
Кодированный исходник, который определяет позицию сноски в содержимом. |
| span |
Размах сноски в содержании разметки. |
DocumentFormula
Математическая формула в документе.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании формулы. |
| kind |
Тип формулы. |
|
| source |
string |
Кодированный источник, который определяет позицию формулы в содержимом. |
| span |
Диапазон формулы в содержимом ценного снижения. |
|
| value |
string |
Выражение LaTex, описывающее формулу. |
DocumentFormulaKind
Тип формулы.
| Значение | Описание |
|---|---|
| inline |
Формула, встроенная в содержание абзаца. |
| display |
Формула в режиме отображения, занимающая целую строку. |
DocumentHyperlink
Гиперссылка в документе, например, ссылка на веб-страницу или адрес электронной почты.
| Имя | Тип | Описание |
|---|---|---|
| content |
string |
Гиперссылки на контент. |
| source |
string |
Положение гиперссылки. |
| span |
Размах ссылки в содержании разметки. |
|
| url |
string |
URL гиперссылки. |
DocumentLine
Строка в документе, состоящая из непрерывной последовательности слов.
| Имя | Тип | Описание |
|---|---|---|
| content |
string |
Текст в строке. |
| source |
string |
Кодированный источник, определяющий положение строки в содержимом. |
| span |
Размах линии в содержании цены. |
DocumentMermaidFigure
Рисунок, содержащий диаграмму, такую как блок-схема или сетевая диаграмма.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| caption |
Подпись к рисунку. |
||
| content |
string |
Содержимое диаграммы представлено с помощью синтаксиса Mermaid. |
|
| description |
string |
Описание фигуры. |
|
| elements |
string[] |
Дочерние элементы фигуры, за исключением подписей или сносок. |
|
| footnotes |
Список сносок к рисункам. |
||
| id |
string |
Идентификатор фигуры. |
|
| kind |
string:
mermaid |
unknown |
Фигура. |
| role |
Семантическая роль фигуры. |
||
| source |
string |
Кодированный источник, который определяет положение фигуры в содержимом. |
|
| span |
Размах фигуры в содержимом снижения цены. |
DocumentPage
Контент со страницы документа.
| Имя | Тип | Описание |
|---|---|---|
| angle |
number (float) maximum: 180 |
Общая ориентация содержимого в часовом направлении, измеряемая в градусах между (-180, 180]. Только если enableOcr верен. |
| barcodes |
Список штрихкодов на странице. Только если enableBarcode и returnDetails верны. |
|
| formulas |
Список математических формул на странице. Только если enableFormula и returnDetails верны. |
|
| height |
number (float) |
Высота страницы. |
| lines |
Список строк на странице. Только если enableOcr и returnDetails верны. |
|
| pageNumber |
integer (int32) minimum: 1 |
Номер страницы (на основе 1). |
| spans |
Диапазон(ы), связанные со страницей, в содержимом markdown. |
|
| width |
number (float) |
Ширина страницы. |
| words |
Список слов на странице. Только если enableOcr и returnDetails верны. |
DocumentParagraph
Абзац в документе, обычно состоящий из непрерывной последовательности строк с общим выравниванием и интервалом.
| Имя | Тип | Описание |
|---|---|---|
| content |
string |
Текст абзаца. |
| role |
Семантическая роль абзаца. |
|
| source |
string |
Кодированный источник, который определяет положение абзаца в содержании. |
| span |
Длина абзаца в содержании разметки. |
DocumentSection
Раздел в документе.
| Имя | Тип | Описание |
|---|---|---|
| elements |
string[] |
Дочерние элементы раздела. |
| span |
Размах раздела в содержании разметки. |
DocumentTable
Таблица в документе, состоящая из ячеек таблицы, расположенных в прямоугольном формате.
| Имя | Тип | Описание |
|---|---|---|
| caption |
Подпись к столу. |
|
| cells |
Ячейки, содержащиеся в таблице. |
|
| columnCount |
integer (int32) minimum: 1 |
Число столбцов в таблице. |
| footnotes |
Список сносок к таблице. |
|
| role |
Семантическая роль стола. |
|
| rowCount |
integer (int32) minimum: 1 |
Количество строк в таблице. |
| source |
string |
Кодированный источник, который определяет положение таблицы в содержимом. |
| span |
Размах таблицы в содержимом разметки. |
DocumentTableCell
Ячейка таблицы в таблице документа.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| columnIndex |
integer (int32) |
Индекс столбца ячейки. |
|
| columnSpan |
integer (int32) minimum: 1 |
1 |
Число столбцов, охватываемых этой ячейкой. |
| content |
string |
Содержание ячейки стола. |
|
| elements |
string[] |
Дочерние элементы стольной ячейки. |
|
| kind | content |
Тип ячейки таблицы. |
|
| rowIndex |
integer (int32) |
Индекс строки ячейки. |
|
| rowSpan |
integer (int32) minimum: 1 |
1 |
Количество строк, охватываемых этой ячейкой. |
| source |
string |
Кодированный источник, который определяет положение ячейки таблицы в содержимом. |
|
| span |
Размах ячейки таблицы в содержимом разметки. |
DocumentTableCellKind
Тип ячейки таблицы.
| Значение | Описание |
|---|---|
| content |
Основной контент/данные. |
| rowHeader |
Описание содержания рядов. |
| columnHeader |
Опишите содержание колонки. |
| stubHead |
Описание заголовков строк, обычно расположенных в левом верхнем углу таблицы. |
| description |
Описание содержания в (частях) таблицы. |
DocumentWord
Слово в документе, состоящем из непрерывной последовательности символов. Для языков, не разделенных пробелами, таких как китайский, японский и корейский, каждый символ представлен как собственное слово.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании слова. |
| content |
string |
Текст в Word. |
| source |
string |
Кодированный источник, который определяет положение слова в содержании. |
| span |
Объём слова в содержимом размечания. |
IntegerField
Целочисленное поле, извлеченное из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
integer |
Семантический тип данных значения поля. |
| valueInteger |
integer (int64) |
Целочисленное значение поля. |
JsonField
Поле JSON извлечено из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
json |
Семантический тип данных значения поля. |
| valueJson |
Значение поля JSON. |
LengthUnit
Единица длины, используемая для свойств ширины, высоты и источника.
| Значение | Описание |
|---|---|
| pixel |
Пиксельный блок. |
| inch |
Дюймовый блок. |
NumberField
Поле числа извлечено из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
number |
Семантический тип данных значения поля. |
| valueNumber |
number (double) |
Значение числового поля. |
ObjectField
Объектное поле извлечено из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
object |
Семантический тип данных значения поля. |
| valueObject |
object |
Значение объектного поля. |
OperationState
Статус операции
| Значение | Описание |
|---|---|
| NotStarted |
Операция не запущена. |
| Running |
Операция выполняется. |
| Succeeded |
Операция завершена успешно. |
| Failed |
Операция не удалась. |
| Canceled |
Операция была отменена пользователем. |
ProcessingLocation
Место, где могут обрабатываться данные. По умолчанию — глобальный.
| Значение | Описание |
|---|---|
| geography |
Данные могут обрабатываться в той же географии, что и ресурс. |
| dataZone |
Данные могут обрабатываться в той же зоне данных, что и ресурс. |
| global |
Данные могут обрабатываться в любом дата-центре Azure по всему миру. |
SemanticRole
Семантическая роль абзаца.
| Значение | Описание |
|---|---|
| pageHeader |
Текст у верхнего края страницы. |
| pageFooter |
Текст у нижнего края страницы. |
| pageNumber |
Номер страницы. |
| title |
Главный заголовок, описывающий весь документ. |
| sectionHeading |
Подзаголовок, описывающий раздел документа. |
| footnote |
Заметка обычно размещается после основного содержания на странице. |
| formulaBlock |
Блок формул, часто с общим выравниванием. |
StringField
Строковое поле, извлеченное из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
string |
Семантический тип данных значения поля. |
| valueString |
string |
Значение строкового поля. |
TimeField
Временное поле извлечено из содержимого.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании значения поля. |
| source |
string |
Кодированный источник, который определяет положение значения поля в содержимом. |
| spans |
Span(ы), связанные со значением поля в содержимом markdown. |
|
| type |
string:
time |
Семантический тип данных значения поля. |
| valueTime |
string (time) |
Значение временного поля, в формате ISO 8601 (hh:mm:ss). |
TranscriptPhrase
Фраза из стенограммы.
| Имя | Тип | Описание |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Уверенность в предсказании фразы. |
| endTimeMs |
integer (int64) |
Время окончания фразы в миллисекундах. |
| locale |
string |
Обнаружено местоположение фразы. Например, en-US. |
| span |
Объём фразы в содержании markdown. |
|
| speaker |
string |
Индекс или имя оратора. |
| startTimeMs |
integer (int64) |
Время начала фразы в миллисекундах. |
| text |
string |
Текст расшифровки. |
| words |
Список слов в фразе. |
TranscriptWord
Слово из расшифровки.
| Имя | Тип | Описание |
|---|---|---|
| endTimeMs |
integer (int64) |
Время окончания слова в миллисекундах. |
| span |
Объём слова в содержимом размечания. |
|
| startTimeMs |
integer (int64) |
Начало слова в миллисекундах. |
| text |
string |
Текст расшифровки. |
UsageDetails
Детали использования.
| Имя | Тип | Описание |
|---|---|---|
| audioHours |
number (float) |
Часы обработки аудиозаписи. |
| contextualizationTokens |
integer (int32) |
Количество токенов контекстуализации, используемых для подготовки контекста, генерации оценок доверия, заземления источника и форматирования вывода. |
| documentPagesBasic |
integer (int32) |
Количество страниц документов, обработанных на базовом уровне. Для документов без явных страниц (ex. txt, html) каждые 3000 символов UTF-16 считаются одной страницей. |
| documentPagesMinimal |
integer (int32) |
Количество страниц документов, обработанных на минимальном уровне. Для документов без явных страниц (ex. txt, html) каждые 3000 символов UTF-16 считаются одной страницей. |
| documentPagesStandard |
integer (int32) |
Количество страниц документов, обработанных на стандартном уровне. Для документов без явных страниц (ex. txt, html) каждые 3000 символов UTF-16 считаются одной страницей. |
| tokens |
object |
Количество потребленных LLM и встраиваемых токенов, сгруппированных по модели (например, GTP 4.1) и типу (например, вход, кэшированный вход, выход). |
| videoHours |
number (float) |
Часы обработки видео. |