Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
| Срок | Описание |
|---|---|
| Надстройки | Добавлены функции, которые повышают результаты извлечения содержимого, такие как элементы макета, штрихкоды и цифры в документах. |
| Анализатор | Компонент, который обрабатывает и извлекает содержимое и структурированные поля из файлов. Content Understanding предлагает предварительно созданные анализаторы для распространенных сценариев и поддерживает создание пользовательских анализаторов. |
| Результат анализатора | Выходные данные, созданные анализатором после обработки входных данных. Обычно он включает извлеченное содержимое в Markdown, извлеченные поля и дополнительные сведения о модальности. |
| Базовый анализатор | Базовый анализатор, характерный для типа контента (документ, изображение, аудио, видео, центр вызовов), который служит родительским при создании пользовательских анализаторов. Используйте свойство baseAnalyzerId для того, чтобы наследовать от базового анализатора. |
| Категоризация | Функция, которая классифицирует содержимое в предопределенные категории и при необходимости направляет его в специализированные анализаторы для дальнейшей обработки. Поддерживает до 200 категорий в одном анализаторе. Дополнительные сведения о классификации. |
| Степень достоверности | Понимание содержимого предоставляет оценки достоверности от 0 до 1, чтобы оценить надежность результатов. Высокие оценки указывают на точное извлечение данных, обеспечивая прямую обработку в рабочих процессах автоматизации. Узнайте больше о оценках достоверности и извлечении полей. |
| Извлечение содержимого | Базовый этап обработки, который преобразует неструктурированные входные данные в стандартизованный формат. Включает оптическое распознавание символов (OCR) для документов, преобразования речи в текст для аудио-видео, обнаружения макета и идентификации структурных элементов. |
| Контекстуализация | Уровень обработки «Content Understanding», который подготавливает контекст для генеративных моделей и постобрабатывает их выходные данные в структурированные результаты. Включает нормализацию выходных данных, вычисление исходного основания, вычисление оценки достоверности и проектирование контекста. Дополнительные сведения см. в описании ценообразования. |
| Анализатор для конкретного домена | Предварительно настроенный анализатор для общих категорий документов в популярных отраслях, таких как счета, налоговые формы, ипотечные документы и документы удостоверения. Просмотрите полный список специализированных анализаторов. |
| Схема поля | Официальное описание полей для извлечения из входных данных. Он задает имя, описание, тип значения, метод создания и многое другое для каждого поля. Дополнительные сведения об ограничениях схемы полей. |
| Поля | Список структурированных пар "ключ-значение", производных от содержимого, как определено схемой поля. Дополнительные сведения о поддерживаемых типах значений полей. |
| Файл | Любой тип данных, включая текст, документы, изображения, видео и звук. |
| Тип файла | Тип MIME файла, например text/plain, , application/pdfimage/jpeg, audio/wavи video/mp4. Универсальные категории, такие как документ , ссылаются на все соответствующие типы MIME, поддерживаемые службой. См. поддерживаемые форматы файлов. |
| Метод создания | Процесс определения значения поля. Content Understanding поддерживает извлечение (извлечение значений из входных данных), Классификация (классификация содержимого в категории) и Создание (создание значений на основе входных данных). Узнайте больше о методах и лучших практиках генерации. |
| Источник заземления | Конкретные регионы содержимого, в которых было извлечено или создано значение. Это доступно как для извлечения, так и для создания методов при включении. Узнайте больше о оценках достоверности и обосновании источника. |
| База знаний | Коллекция обучающих примеров с метками, используемых для улучшения точности настраиваемого анализатора для доменно-специфических сценариев. Примеры обучения внедрены и извлекаются во время анализа, чтобы управлять моделью. Дополнительные сведения о создании пользовательских анализаторов с помощью примеров обучения. |
| Предварительно созданный анализатор | Готовые к использованию анализаторы, предоставляемые Content Understanding для распространенных сценариев, включая извлечение содержимого (чтение, макет), рабочие процессы RAG (documentAnalyzer, videoAnalyzer) и задачи для конкретного домена (счета, налоговые формы, документы идентификации). Полный список предустановленных анализаторов. |
| Расположение обработки | Параметр запроса API, определяющий географический регион, в котором средства Foundry анализируют данные. Выберите из geography, dataZone и global, чтобы указать, где происходит обработка. Этот параметр может помочь удовлетворить требования к месту расположения данных и оптимизировать производительность или масштабируемость. Дополнительные сведения о поддержке регионов. |
| Анализатор RAG | Предварительно настроенный анализатор, оптимизированный для сценариев генерации, дополненных извлечением данных, который извлекает содержимое в формате markdown и выполняет семантический анализ для повышения качества извлечения. Ознакомьтесь с анализаторами RAG и руководством по решению RAG. |
| Сегментация | Процесс деления документов или видео на логические разделы для целевой обработки. Настроено с использованием свойства segmentationMode в схеме анализатора. Дополнительные сведения о классификации документов и классификации видео. |
| Интервал | Ссылка, указывающая расположение элемента (например, поле, слово) в извлеченном содержимом Markdown. Смещение символов и длина представляют диапазон. Различные языки программирования используют различные кодировки символов, которые могут повлиять на точные значения смещения и длины текста Юникода. Чтобы избежать путаницы, диапазоны возвращаются только в том случае, если в запросе явно указана требуемая кодировка. Некоторые элементы могут сопоставляться с несколькими диапазонами, если они не являются смежными в markdown (например, страница). Узнайте больше о элементах и диапазонах документов. |