Терминология "Распознавание содержимого Azure" в инструментах Foundry Tools

Срок	Описание
Надстройки	Добавлены функции, которые повышают результаты извлечения содержимого, такие как элементы макета, штрихкоды и цифры в документах.
Анализатор	Компонент, который обрабатывает и извлекает содержимое и структурированные поля из файлов. Content Understanding предлагает предварительно созданные анализаторы для распространенных сценариев и поддерживает создание пользовательских анализаторов.
Результат анализатора	Выходные данные, созданные анализатором после обработки входных данных. Обычно он включает извлеченное содержимое в Markdown, извлеченные поля и дополнительные сведения о модальности.
Базовый анализатор	Базовый анализатор, характерный для типа контента (документ, изображение, аудио, видео, центр вызовов), который служит родительским при создании пользовательских анализаторов. Используйте свойство `baseAnalyzerId` для того, чтобы наследовать от базового анализатора.
Категоризация	Функция, которая классифицирует содержимое в предопределенные категории и при необходимости направляет его в специализированные анализаторы для дальнейшей обработки. Поддерживает до 200 категорий в одном анализаторе. Дополнительные сведения о классификации.
Степень достоверности	Понимание содержимого предоставляет оценки достоверности от 0 до 1, чтобы оценить надежность результатов. Высокие оценки указывают на точное извлечение данных, обеспечивая прямую обработку в рабочих процессах автоматизации. Узнайте больше о оценках достоверности и извлечении полей.
Извлечение содержимого	Базовый этап обработки, который преобразует неструктурированные входные данные в стандартизованный формат. Включает оптическое распознавание символов (OCR) для документов, преобразования речи в текст для аудио-видео, обнаружения макета и идентификации структурных элементов.
Контекстуализация	Уровень обработки «Content Understanding», который подготавливает контекст для генеративных моделей и постобрабатывает их выходные данные в структурированные результаты. Включает нормализацию выходных данных, вычисление исходного основания, вычисление оценки достоверности и проектирование контекста. Дополнительные сведения см. в описании ценообразования.
Анализатор для конкретного домена	Предварительно настроенный анализатор для общих категорий документов в популярных отраслях, таких как счета, налоговые формы, ипотечные документы и документы удостоверения. Просмотрите полный список специализированных анализаторов.
Схема поля	Официальное описание полей для извлечения из входных данных. Он задает имя, описание, тип значения, метод создания и многое другое для каждого поля. Дополнительные сведения об ограничениях схемы полей.
Поля	Список структурированных пар "ключ-значение", производных от содержимого, как определено схемой поля. Дополнительные сведения о поддерживаемых типах значений полей.
Файл	Любой тип данных, включая текст, документы, изображения, видео и звук.
Тип файла	Тип MIME файла, например `text/plain`, , `application/pdfimage/jpeg`, `audio/wav`и `video/mp4`. Универсальные категории, такие как документ , ссылаются на все соответствующие типы MIME, поддерживаемые службой. См. поддерживаемые форматы файлов.
Метод создания	Процесс определения значения поля. Content Understanding поддерживает извлечение (извлечение значений из входных данных), Классификация (классификация содержимого в категории) и Создание (создание значений на основе входных данных). Узнайте больше о методах и лучших практиках генерации.
Источник заземления	Конкретные регионы содержимого, в которых было извлечено или создано значение. Это доступно как для извлечения, так и для создания методов при включении. Узнайте больше о оценках достоверности и обосновании источника.
База знаний	Коллекция обучающих примеров с метками, используемых для улучшения точности настраиваемого анализатора для доменно-специфических сценариев. Примеры обучения внедрены и извлекаются во время анализа, чтобы управлять моделью. Дополнительные сведения о создании пользовательских анализаторов с помощью примеров обучения.
Предварительно созданный анализатор	Готовые к использованию анализаторы, предоставляемые Content Understanding для распространенных сценариев, включая извлечение содержимого (чтение, макет), рабочие процессы RAG (documentAnalyzer, videoAnalyzer) и задачи для конкретного домена (счета, налоговые формы, документы идентификации). Полный список предустановленных анализаторов.
Расположение обработки	Параметр запроса API, определяющий географический регион, в котором средства Foundry анализируют данные. Выберите из `geography`, `dataZone` и `global`, чтобы указать, где происходит обработка. Этот параметр может помочь удовлетворить требования к месту расположения данных и оптимизировать производительность или масштабируемость. Дополнительные сведения о поддержке регионов.
Анализатор RAG	Предварительно настроенный анализатор, оптимизированный для сценариев генерации, дополненных извлечением данных, который извлекает содержимое в формате markdown и выполняет семантический анализ для повышения качества извлечения. Ознакомьтесь с анализаторами RAG и руководством по решению RAG.
Сегментация	Процесс деления документов или видео на логические разделы для целевой обработки. Настроено с использованием свойства `segmentationMode` в схеме анализатора. Дополнительные сведения о классификации документов и классификации видео.
Интервал	Ссылка, указывающая расположение элемента (например, поле, слово) в извлеченном содержимом Markdown. Смещение символов и длина представляют диапазон. Различные языки программирования используют различные кодировки символов, которые могут повлиять на точные значения смещения и длины текста Юникода. Чтобы избежать путаницы, диапазоны возвращаются только в том случае, если в запросе явно указана требуемая кодировка. Некоторые элементы могут сопоставляться с несколькими диапазонами, если они не являются смежными в markdown (например, страница). Узнайте больше о элементах и диапазонах документов.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-31

Терминология "Распознавание содержимого Azure" в инструментах Foundry Tools

Обратная связь

Дополнительные ресурсы