Терминология "Распознавание содержимого Azure" в инструментах Foundry Tools

Срок Описание
Надстройки Добавлены функции, которые повышают результаты извлечения содержимого, такие как элементы макета, штрихкоды и цифры в документах.
Анализатор Компонент, который обрабатывает и извлекает содержимое и структурированные поля из файлов. Content Understanding предлагает предварительно созданные анализаторы для распространенных сценариев и поддерживает создание пользовательских анализаторов.
Результат анализатора Выходные данные, созданные анализатором после обработки входных данных. Обычно он включает извлеченное содержимое в Markdown, извлеченные поля и дополнительные сведения о модальности.
Базовый анализатор Базовый анализатор, характерный для типа контента (документ, изображение, аудио, видео, центр вызовов), который служит родительским при создании пользовательских анализаторов. Используйте свойство baseAnalyzerId для того, чтобы наследовать от базового анализатора.
Категоризация Функция, которая классифицирует содержимое в предопределенные категории и при необходимости направляет его в специализированные анализаторы для дальнейшей обработки. Поддерживает до 200 категорий в одном анализаторе. Дополнительные сведения о классификации.
Степень достоверности Понимание содержимого предоставляет оценки достоверности от 0 до 1, чтобы оценить надежность результатов. Высокие оценки указывают на точное извлечение данных, обеспечивая прямую обработку в рабочих процессах автоматизации. Узнайте больше о оценках достоверности и извлечении полей.
Извлечение содержимого Базовый этап обработки, который преобразует неструктурированные входные данные в стандартизованный формат. Включает оптическое распознавание символов (OCR) для документов, преобразования речи в текст для аудио-видео, обнаружения макета и идентификации структурных элементов.
Контекстуализация Уровень обработки «Content Understanding», который подготавливает контекст для генеративных моделей и постобрабатывает их выходные данные в структурированные результаты. Включает нормализацию выходных данных, вычисление исходного основания, вычисление оценки достоверности и проектирование контекста. Дополнительные сведения см. в описании ценообразования.
Анализатор для конкретного домена Предварительно настроенный анализатор для общих категорий документов в популярных отраслях, таких как счета, налоговые формы, ипотечные документы и документы удостоверения. Просмотрите полный список специализированных анализаторов.
Схема поля Официальное описание полей для извлечения из входных данных. Он задает имя, описание, тип значения, метод создания и многое другое для каждого поля. Дополнительные сведения об ограничениях схемы полей.
Поля Список структурированных пар "ключ-значение", производных от содержимого, как определено схемой поля. Дополнительные сведения о поддерживаемых типах значений полей.
Файл Любой тип данных, включая текст, документы, изображения, видео и звук.
Тип файла Тип MIME файла, например text/plain, , application/pdfimage/jpeg, audio/wavи video/mp4. Универсальные категории, такие как документ , ссылаются на все соответствующие типы MIME, поддерживаемые службой. См. поддерживаемые форматы файлов.
Метод создания Процесс определения значения поля. Content Understanding поддерживает извлечение (извлечение значений из входных данных), Классификация (классификация содержимого в категории) и Создание (создание значений на основе входных данных). Узнайте больше о методах и лучших практиках генерации.
Источник заземления Конкретные регионы содержимого, в которых было извлечено или создано значение. Это доступно как для извлечения, так и для создания методов при включении. Узнайте больше о оценках достоверности и обосновании источника.
База знаний Коллекция обучающих примеров с метками, используемых для улучшения точности настраиваемого анализатора для доменно-специфических сценариев. Примеры обучения внедрены и извлекаются во время анализа, чтобы управлять моделью. Дополнительные сведения о создании пользовательских анализаторов с помощью примеров обучения.
Предварительно созданный анализатор Готовые к использованию анализаторы, предоставляемые Content Understanding для распространенных сценариев, включая извлечение содержимого (чтение, макет), рабочие процессы RAG (documentAnalyzer, videoAnalyzer) и задачи для конкретного домена (счета, налоговые формы, документы идентификации). Полный список предустановленных анализаторов.
Расположение обработки Параметр запроса API, определяющий географический регион, в котором средства Foundry анализируют данные. Выберите из geography, dataZone и global, чтобы указать, где происходит обработка. Этот параметр может помочь удовлетворить требования к месту расположения данных и оптимизировать производительность или масштабируемость. Дополнительные сведения о поддержке регионов.
Анализатор RAG Предварительно настроенный анализатор, оптимизированный для сценариев генерации, дополненных извлечением данных, который извлекает содержимое в формате markdown и выполняет семантический анализ для повышения качества извлечения. Ознакомьтесь с анализаторами RAG и руководством по решению RAG.
Сегментация Процесс деления документов или видео на логические разделы для целевой обработки. Настроено с использованием свойства segmentationMode в схеме анализатора. Дополнительные сведения о классификации документов и классификации видео.
Интервал Ссылка, указывающая расположение элемента (например, поле, слово) в извлеченном содержимом Markdown. Смещение символов и длина представляют диапазон. Различные языки программирования используют различные кодировки символов, которые могут повлиять на точные значения смещения и длины текста Юникода. Чтобы избежать путаницы, диапазоны возвращаются только в том случае, если в запросе явно указана требуемая кодировка. Некоторые элементы могут сопоставляться с несколькими диапазонами, если они не являются смежными в markdown (например, страница). Узнайте больше о элементах и диапазонах документов.