Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Интеллектуальная система обработки документов Azure в API макета Foundry может преобразовать ваши документы в формат Markdown, сохраняя их исходную структуру и форматирование. Просто укажите outputContentFormat=markdown в запросе на получение семантически структурированного содержимого, которое поддерживает абзацы, заголовки, таблицы и другие элементы документа в соответствующей иерархии.
Этот вывод Markdown элегантно фиксирует исходную организацию документа, предоставляя стандартизированное, легко потребляемое содержимое для последующих приложений. Сохраненная семантическая структура позволяет более сложным рабочим процессам обработки документов без потери контекста и связей между элементами документа.
Элементы Markdown, поддерживаемые в анализе макетов
Следующие элементы Markdown включены в ответы макетного API:
- Абзац
- Заголовок
- Таблица
- Цифра
- Знак выделения
- Формула
- Штрих-код
- Номер страницы/Колонтитул страницы/Футер страницы
- PageBreak
- ПарыКлючЗначение/Язык/Стиль
- Диапазоны и содержимое
Абзац
Абзацы представляют собой связные блоки текста, объединённые семантически. API макета поддерживает целостность абзаца по следующим пунктам:
- Сохранение границ абзаца с пустыми строками между отдельными абзацами
- Использование разрывов строк в абзацах для поддержания визуальной структуры исходного документа
- Поддержание правильного текстового потока, который учитывает порядок чтения исходного документа
Ниже приведен пример:
This is paragraph 1.
This is still paragraph 1, even if in another Markdown line.
This is paragraph 2. There is a blank line between paragraph 1 and paragraph 2.
Заголовок
Заголовки упорядочивают содержимое документа в иерархическую структуру, чтобы упростить навигацию и понимание. API макета имеет следующие возможности:
- Использует стандартный синтаксис заголовка Markdown с 1–6 хэш-символами (#), соответствующим уровням заголовков.
- Сохраняет правильный интервал с двумя пустыми строками перед каждым заголовком для улучшения удобочитаемости.
Ниже приведен пример:
# This is a title
## This is heading 1
### This is heading 2
#### This is heading 3
Таблица
Таблицы сохраняют сложные структурированные данные в визуально упорядоченном формате. API макета использует синтаксис таблицы HTML для максимальной точности и совместимости:
- Реализует полную разметку таблицы HTML (
<table>,<tr>, ,<th><td>) вместо стандартных таблиц Markdown - Сохраняет объединённую ячейку с HTML-атрибутами rowspan и colspan.
- Сохраняет заголовки таблиц с тегом
<caption>для поддержания контекста документа. - Обрабатывает сложные структуры таблиц, включая заголовки, ячейки и нижние колонтитулы
- Поддерживает правильный интервал с двумя пустыми строками перед каждой таблицей для улучшения удобочитаемости.
- Сохраняет сноски таблицы в виде отдельного абзаца после таблицы
Ниже приведен пример:
<table>
<caption>Table 1. This is a demo table</caption>
<tr><th>Header</th><th>Header</th></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Footer</td><td>Footer</td></tr>
</table>
This is the footnote of the table.
Цифра
API макета сохраняет элементы фигуры:
- Инкапсулирует содержимое рисунка в
<figure>тегах для поддержания семантического различия между окружающим текстом - Сохраняет
<figcaption>подписи фигур, чтобы обеспечить важный контекст. - Сохраняет сноски к рисунку в виде отдельных абзацев после контейнера фигуры.
Это важно
В случаях, когда мы обнаруживаем компоненты документа, такие как заголовки разделов, как часть изображений или диаграмм, вывод в формате markdown не будет представлять эти изображения и будет использовать информацию для анализа структуры документа. В этих случаях перечислите поле цифр в ФОРМАТЕ JSON, чтобы получить все цифры.
Ниже приведен пример:
<figure>
<figcaption>Figure 2 This is a figure</figcaption>
Values
300
200
100
0
Jan Feb Mar Apr May Jun Months
</figure>
This is footnote if the figure have.
Знак выделения
Метки выделения представляют такие элементы, как флажки в формах и документах. API макета:
- Использует символы Юникода для визуальной ясности: ☒ (проверено) и ☐ (снято)
- Фильтрует обнаружения флажков с низкой достоверностью (ниже 0,1 достоверности) для повышения надежности
- Поддерживает семантические связи между метками выделения и связанным текстом.
Формула
Математические формулы сохраняются с синтаксисом, совместимым с LaTeX, который позволяет выполнять отрисовку сложных математических выражений:
- Встроенные формулы заключены в одиночные знаки доллара (
$...$) для поддержания текстового потока - Блоковые формулы используют двойные знаки доллара (
$$...$$) для отдельного отображения - Многострочные формулы представлены как последовательные блоки формул, сохраняя математические связи.
- Исходные интервалы и форматирование сохраняются, чтобы обеспечить точное представление
Ниже приведен пример встроенной формулы, блока однострочных формул и блока формул с несколькими строками:
The mass-energy equivalence formula $E = m c ^ { 2 }$ is an example of an inline formula
$$\frac { n ! } { k ! \left( n - k \right) ! } = \binom { n } { k }$$
$$\frac { p _ { j } } { p _ { 1 } } = \prod _ { k = 1 } ^ { j - 1 } e ^ { - \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } }$$
$$= \exp \left[ - \sum _ { k = 1 } ^ { j - 1 } \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } \right] .$$
Штрих-код
Штрихкоды и QR-коды представлены с помощью синтаксиса изображения Markdown с добавленной семантической информацией:
- Используется стандартный синтаксис Markdown для изображений с описательными атрибутами
- Записывает как тип штрихкода (QR-код, штрихкод и т. д.), так и его закодированное значение
- Сохранение семантической связи между штрихкодами и окружающим содержимым
Ниже приведен пример:



Номер страницы/Колонтитул страницы/Футер страницы
Элементы метаданных страницы предоставляют контекст о разбиении на страницы документов, но не должны отображаться в строке с основным содержимым:
- Заключено в HTML комментарии, чтобы сохранить информацию, удерживая ее скрытой от стандартного рендеринга Markdown
- Поддерживает исходные сведения о структуре страницы, которые могут быть ценными для восстановления документов
- Позволяет приложениям понимать разбивку на страницы документов без нарушения потока содержимого
Ниже приведен пример:
<!-- PageHeader="This is page header" -->
<!-- PageFooter="This is page footer" -->
<!-- PageNumber="1" -->
PageBreak
Чтобы легко выяснить, какие части принадлежат к какой странице на основе чистого содержимого Markdown, мы представили PageBreak в качестве разделителя страниц
Ниже приведен пример:
<!-- PageBreak -->
ПарыКлючЗначение/Язык/Стиль
Для KeyValuePairs/Language/Style мы сопоставляем их с текстом JSON аналитики, а не в содержимом Markdown.
Замечание
Дополнительные сведения о Markdown, который в настоящее время поддерживается для содержимого пользователя в GitHub.com, см. в разделеGitHub Flavored Markdown Spec.
Заключение
Элементы Markdown аналитики документов предоставляют эффективный способ представления структуры и содержимого проанализированных документов. Понимая и правильно используя эти элементы Markdown, вы можете улучшить рабочие процессы обработки документов и создать более сложные приложения для извлечения контента.
Дальнейшие шаги
Попробуйте обработать документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.