Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описывается модель ценообразования azure Content Understanding in Foundry Tools с четкими примерами и разбивкой затрат. Узнайте, за что взимается плата и как оценить затраты на рабочую нагрузку.
Чтобы узнать конкретные расценки, см. раздел Цены на понимание содержимого Azure.
Общие сведения о двух типах расходов
Цены на Azure Content Understanding основаны на двух основных категориях использования:
1. Плата за извлечение содержимого
Извлечение содержимого преобразует неструктурированные входные данные (документы, аудио, видео) в структурированный, доступный для поиска текст и содержимое. Эти выходные данные включают оптическое распознавание символов (OCR) для документов, преобразование речи в текст для аудио/видео и определение макета. Вы платите за единицу ввода, обработанную:
- Документы: за 1000 страниц
- Аудио и видео: в минуту
2. Плата за создание функций
При использовании функций ИИ, которые вызывают большие языковые модели (LLM), вам предъявляются два типа расходов:
- Операции контекстуализации: подготовка контекста, генерация оценок достоверности, обеспечение обоснования источника и форматирование результатов. Дополнительные сведения см. в разделе "Маркеры контекстуализации".
- Затраты на генеративные модели: расходы на основе токенов от развертываний моделей Microsoft Foundry (LLMs для генерации, векторы для примеров обучения). Content Understanding использует развертывание модели Foundry для всех вызовов, связанных с генеративным искусственным интеллектом. Вы не видите счета за использование токенов LLM или эмбеддингов в Content Understanding. Данное применение отображается в развертывании модели Foundry. Дополнительные сведения см. в разделе "Плата за создание модели".
Генеративные функции: извлечение полей, анализ изображений, сегментация, классификация, обучение.
Уравнение затрат
Общая стоимость использования анализатора "Понимания содержимого" подсчитывается по следующей формуле:
Total Cost = Content Extraction + Contextualization Tokens + LLM Input Tokens + LLM Output Tokens + Embeddings Tokens
Если вы используете только извлечение контента без генеративных возможностей, плата взимается только за извлечение контента. При использовании генеративных функций применяются все соответствующие расходы.
Как оценить затраты
1. Тестирование с помощью репрезентативных файлов
Выполните небольшой анализ тестов с фактическими файлами и схемой. Чтобы увидеть фактическое потребление токенов, проверьте объект usage в ответе API анализаторов:
"usage": {
"documentPagesMinimal": 0, // Pages processed at the minimal level (i.e. txt, xlsx, html, and other digital file types)
"documentPagesBasic": 0, // Pages processed at the basic level (i.e. read)
"documentPagesStandard": 2, // Pages processed at the standard level (i.e. layout)
"contextualizationToken": 2000,
"tokens": {
"gpt-4.1-input": 10400,
"gpt-4.1-output": 360
}
}
2. Использование калькулятора цен Azure
Найдите сведения о содержимом в калькуляторе цен Azure и настройте параметры:
- Добавьте "Понимание содержимого" в калькулятор
- Используйте результаты теста на шаге 1, чтобы вычислить среднее значение маркера на страницу или в минуту
- Введите количество токенов в сочетании с вашим регионом, типом файла, ожидаемым объемом и развертыванием модели.
Калькулятор предоставляет точные прогнозы затрат для рабочей нагрузки.
Пример ценообразования: извлечение поля счета
Следуя подходу оценки, давайте рассмотрим конкретный пример вручную, чтобы продемонстрировать, как вычисляются затраты. Вы обрабатываете счета для извлечения структурированных данных, таких как имя поставщика, номер счета, общий объем и элементы строки.
Сценарий: Вы хотите обработать 1000 страниц счетов с помощью GPT-4o-mini, с отключёнными исходным основанием и оценками доверия.
Шаг 1. Тестирование с помощью репрезентативных файлов После тестирования репрезентативных файлов вы нашли следующее среднее использование маркеров на страницу:
- Входные токены: 1 100 на страницу
- Выходные токены: 60 на страницу
- Контекстуализация: 1000 токенов на страницу (фиксированная ставка)
Для 1000 страниц общее количество страниц равно:
- Общее количество входных токенов: 1 000 страниц × 1 100 = 1 100 000 токенов
- Общий объем выходных маркеров: 1000 страниц × 60 = 60 000 маркеров
- Всего маркеров контекстуализации: 1000 страниц × 1000 = 1000 000 маркеров
Шаг 2. Вычисление затрат вручную (вместо использования калькулятора цен) Использование глобального развертывания GPT-4o-mini со следующими предположениями о ценах:
Предположения о ценах :
- Извлечение содержимого: $5,00 за 1000 страниц
- Контекстуализация: $1,00 за 1 млн токенов
- Маркеры ввода GPT-4o-mini: $0,40 за 1 млн токенов
- Токены вывода GPT-4o-mini: 1,60 $ за 1 млн токенов
- Внедрение: $0,02 за 1000 токенов. Вы не используете базу знаний с примерами обучения, поэтому плата за внедрение не применяется. Если вы добавляете помеченные примеры для повышения точности, система добавляет использование токенов векторизации для встраивания текста из входных документов и токены ввода завершения для обработки примеров данных, добавленных в контекстное окно.
Вычисление затрат:
- Извлечение содержимого: 1000 страниц × $5,00 за 1000 страниц = $5,00
- Контекстуализация: 1 000 000 токенов × $1,00 за 1 млн токенов = $1,00
- Входные маркеры: 1 100 000 токенов × 0,40 $ за 1 млн токенов = 0,44 $
- Выходные токены: 60 000 токенов × $1.60 за 1 млн токенов = $0.10
- Внедрение: не используется = $0,00
Total Cost = $5.00 + $1.00 + $0.44 + $0.10 + $0.00 = $6.54 per 1000 pages
Замечание
Эти цены предназначены только для иллюстрации и не предназначены для представления фактической стоимости. Проверьте цены на Azure Content Understanding и цены на Azure OpenAI для текущих ставок.
Подробные компоненты затрат
Извлечение содержимого
Извлечение содержимого является важным шагом для преобразования неструктурированных входных данных ( будь то документ, звук или видео) в стандартизированный, многократно используемый формат. Эта базовая обработка необходима для всех создаваемых функций и может использоваться автономно.
Цены на извлечение контента по модальности:
- Документы: три уровня счётчиков (минимальный, базовый или стандартный) на основе сложности обработки
- Звук: транскрибирование речи в текст (один стандартный счетчик, цена за минуту)
- Видео: извлечение кадров, обнаружение снимков и транскрибирование речи в текст (один стандартный счетчик, цена за минуту)
- Изображения: не доступно извлечение содержимого
Счетчики извлечения содержимого документа
За документы взимается плата за тип обработки, выполняемой функцией понимания содержимого. Оплата за понимание содержимого основывается на фактической работе, выполняемой на каждой странице, а не на выбранном анализаторе.
Минимальный метр: применяется к цифровым документам (DOCX, XLSX, PPTX, HTML, TXT, MSG, EML), где не требуется обработка OCR или макета. Этот счетчик является самым бюджетным вариантом для цифровых нативных документов. Вы взимаете минимальную ставку независимо от используемого анализатора, даже если вы вызываете анализатор макета в цифровом документе, плата взимается только за минимальную обработку.
Базовый счетчик. Применяется, когда служба распознавания содержимого выполняет обработку OCR для извлечения текста из документов на основе изображений (отсканированные PDF-файлы, изображения, TIFFs) без анализа макета.
Стандартный счетчик: применяется при выполнении анализа макета, включая распознавание таблиц и обнаружение структурных элементов из документов на основе изображений (сканированные PDF-файлы, изображения, TIFFs).
В следующей таблице показано, какой счетчик применяется на основе типа файла и уровня анализа:
| Тип файла | Чтение (базовый уровень) | Макет (стандартный) |
|---|---|---|
| На основе изображений (PDF, PNG, TIFF, JPG и т. д.) | Базовый счетчик | Стандартный счетчик |
| Цифровые форматы (DOCX, XLSX, HTML, TXT и т. д.) | Минимальный метр | Минимальный метр |
Подсказка
Плата за метрики зависит от фактически выполняемой обработки распознавания контента, а не от выбранного анализатора. Цифровые документы всегда используют минимальную меру, так как для них не требуется распознавание текста (OCR) или обработка форматирования.
Генеративные возможности
Создаваемые возможности службы "Распознавание содержимого" используют модели сгенерированного искусственного интеллекта для повышения качества выходных данных. В последней версии API [2025-11-01]вы можете выбрать созданную модель на основе варианта использования (например, GPT-4o или GPT-4o-mini).
При использовании любых генеративных возможностей служба Content Understanding использует развертывание моделей Foundry, предоставленное вами. Использование токена для моделей завершения или встраивания происходит в этом развертывании.
Маркеры контекстуализации
Контекстуализация — это уровень обработки Content Understanding, который подготавливает контекст для создания моделей и после обработки их выходных данных в окончательные структурированные результаты.
Какие контекстуализации предоставляют:
- Нормализация выходных данных и форматирование в структурированные схемы
- Исходное основание, чтобы показать, откуда поступила информация
- Вычисление оценки достоверности для надежности извлечения
- Проектирование контекста для оптимизации использования и точности LLM
Когда взимается плата: всякий раз, когда вы используете генеративные возможности (извлечение полей, анализ изображений, сегментация, категоризация, обучение).
Цены: фиксированная ставка на единицу содержимого
Маркеры контекстуализации вычисляются на единицу содержимого:
| Единицы | Маркеры контекстуализации | Эффективная ценовая цена за единицу |
|---|---|---|
| На страницу | 1000 маркеров контекстуализации | $1 за 1000 страниц |
| За изображение | 1000 маркеров контекстуализации | $1 за 1000 изображений |
| За час аудио | 100 000 маркеров контекстуализации | $0,10 в час |
| За каждый час видео | 1 000 000 маркеров контекстуализации | $1 в час |
Предположим, что $1,00 за 1 млн токенов контекстуализации.
Плата за создание модели (LLM)
Плата за использование токенов моделей Foundry, обеспечивающих фактическое извлечение полей, анализ и другие генерирующие возможности.
К входным маркерам относятся:
- Извлеченный текст и расшифровки
- Маркеры изображений (для визуального анализа)
- Определения вашей схемы
- Системные запросы
- Примеры обучения (при использовании базы знаний)
Выходные токены включают:
- Значения полей и структурированные данные
- Оценки уверенности и основывание на источнике
- Результаты анализа и описания
Оптимизация затрат: выбор небольших моделей (GPT-4o-mini) или глобальных развертываний для значительной экономии.
Плата за внедрение
Плата за внедрение моделей на основе токенов, используемых при обучении пользовательских анализаторов с помеченными примерами для повышения точности.
- При оплате: только при использовании функции обучения с помеченными данными
- Модели: text-embedding-3-large, text-embedding-3-small или text-embedding-ada-002
- Типичное использование: весь документ встроен. Использование может отличаться в зависимости от плотности текста, но около 1500 маркеров на страницу являются хорошей начальной оценкой.
Детали генеративных функций
Существует несколько генеривных функций, каждая из которых имеет немного разные последствия для затрат.
Извлечение полей
Создает структурированные пары "ключ-значение" на основе определения схемы. Примерами являются отправитель/получатель счета, строки или элементы видеообъявления, такие как слоган и оформление продукта.
Влияние на затраты: расходы масштабируются вместе со сложностью схемы и размером содержимого.
Анализ рисунков
Создает описательный текст для изображений, диаграмм и схем для поиска визуального содержимого в рабочих процессах RAG.
Влияние на затраты: количество токенов LLM на изображение — как входных для интерпретации изображения, так и выходных для описания. Использование масштабируется в зависимости от размера и количества изображений, содержащихся в документе.
Сегментация
Делит документы или видео на логические разделы для целевой обработки и повышения эффективности.
Влияние на затраты: затраты на токены вывода для каждого созданного сегмента. При необходимости можно использовать анализаторы цепочки для дальнейшего анализа для каждого сегмента. При последовательном соединении требуется больше извлечения содержимого и генерирования, что эквивалентно запуску связанных анализаторов независимо.
Категоризация
Назначает метки документам или сегментам для классификации и интеллектуальной маршрутизации в специализированные анализаторы.
Влияние на затраты: затраты на LLM и контекстуализацию для классификации. Маршрутизация к другим анализаторным устройствам прибавляет соответствующие расходы.
Обучение
Создает специализированные анализаторы, используя помеченные примеры для повышения точности в конкретном домене.
Влияние на затраты: использование токенов при добавлении помеченных данных, а также увеличение числа токенов LLM во время анализа при получении и предоставлении модели обучающих образцов.
База знаний
Улучшает специализированные анализаторы с помощью помеченных примеров обучения для повышения точности в определённой предметной области.
Влияние на затраты: модель внедрения используется для индексирования и извлечения примеров. Кроме того, токены LLM используются во время анализа при извлечении примеров обучения и предоставлении модели данных.
Часто задаваемые вопросы
Когда взимается плата за использование LLM?
Плата за токены LLM взимается только при предоставлении анализатору развернутого Foundry и использовании генеративной функции в Content Understanding. Анализаторы, выполняющие только извлечение контента (например, prebuilt-read, prebuilt-layout или пользовательские анализаторы без генеративных возможностей), не подлежат оплате LLM.
Как узнать, какой счетчик извлечения содержимого применяется к моим документам?
Фактическое выполнение обработки определяет счетчик, а не анализатор, который вы выбираете:
- Минимальный: цифровые документы (DOCX, XLSX, HTML, TXT и т. д.) всегда используют минимальное значение независимо от анализатора.
- Базовый: документы на основе изображений с обработкой только OCR (анализатор чтения)
- Стандартный: документы на основе изображений с анализом макета (анализатор макета)
Дополнительные сведения о счетчиках см. в разделе "Счетчики извлечения содержимого документа".
С меня взимают плату дважды за использование модели Foundry?
Нет. Content Understanding использует LLM-развертывания, связанные со всеми вызовами LLM и операциями по встраиванию. Вам выставляется счет за эти развертывания. Вы платите Content Understanding за извлечение и контекстуализацию содержимого, а Foundry – за токены генерирующей модели (токены ввода и вывода, и встраивания).
Сколько можно сэкономить с меньшими моделями?
Выбор GPT-4o-mini вместо GPT-4o может снизить затраты LLM до 80%. Глобальные развертывания обеспечивают дополнительную экономию. Затраты на извлечение содержимого и контекстуализацию остаются одинаковыми независимо от выбора модели.
Что увеличивает использование маркеров?
Несколько функций умножают потребление маркеров:
- Исходное обоснование и оценки надежности: ~2x использование токенов
- Режим извлечения: ~1.5x использование токенов
- Примеры обучения: использование токенов ~2x
- Сегментация и категоризация: использование токена ~2x
Взимается ли плата, если запрос не удался?
Система понимания содержимого не взимает плату за извлечение содержимого или контекстуализацию при возникновении ошибки запроса (например, ошибки 400). Если вызов модели завершения Foundry был успешно выполнен до сбоя, плата взимается за использование этой модели в соответствии с политиками выставления счетов Foundry.
Советы по оптимизации затрат
- Начните с мини-моделей . GPT-4o-mini обеспечивает значительную экономию для большинства задач извлечения
- Используйте глобальные развертывания, если это допускает расположение данных и соответствие требованиям
- Включайте расширенные функции выборочно – используйте исходное обоснование и оценки достоверности только при необходимости.
- Тестируйте репрезентативные файлы перед масштабированием, чтобы понять фактическое использование токенов.
- Регулярно отслеживайте использование с помощью портала Azure для выявления возможностей оптимизации
Дополнительные примеры ценообразования
Ниже приведены подробные примеры того, как работает цена в разных сценариях:
Пример 1. Обработка документов для рабочих процессов RAG
Сценарий: Необходимо извлечь содержимое из документов для решения Retrieval-Augmented Generation (RAG). Вы используете prebuilt-documentSearch для извлечения текста, макета и описания рисунков.
Входные данные:
- 1000 страниц
- Модель: глобальное развертывание GPT-4.1
- Регион: восточная часть США
Разбивка цен:
Извлечение содержимого: 1000 страниц
- Стоимость: (1000 / 1000) × $ 5,00 = $ 5,00
Анализ рисунков:
Предположим, что по два рисунка на каждую страницу. Это стоит около 1000 входных и 200 выходных токенов на рисунок.
- Входные маркеры: 2000 цифр × 1000 токенов/изображения = 2 000 000 маркеров
- Стоимость: (2000 000 / 1000 000) × $ 2,00 = $ 4,00
- Выходные токены: 2000 страниц × 200 токенов/страница = 400 000 токенов
- Стоимость: (400 000 / 1000 000) × $ 8,00 = $ 3,2
Контекстуализация: 1000 страниц × 1000 токенов/page = 1000 000 токенов
- Стоимость: (1 000 000 / 1 000 000) × $1,00 = $1,00
Общая оценка стоимости: $5,00 + $4 + $3,2 + $ 1,00 = $13,20
Замечание
Эти цены предназначены только для иллюстрации и не предназначены для представления фактической стоимости. Просмотрите цены на распознавание контента Azure и цены на Azure OpenAI для актуальных тарифов
Пример 2: Обработка счетов с извлечением данных из полей
Сценарий: вы автоматизаете обработку счетов, используя prebuilt-invoice для извлечения структурированных данных (номер счета, дата, поставщик, итог, элементы строки).
Входные данные:
- 1000 страниц
- Модель: глобальное внедрение GPT-4.1-mini (оптимизированное по стоимости)
- Функции: экстрактивный режим + оценка источников + оценки достоверности
- Регион: восточная часть США
Разбивка цен:
Извлечение содержимого: 1000 страниц
- Стоимость: (1000 / 1000) × $ 5,00 = $ 5,00
Извлечение полей: с включенной оценкой источника и уверенностью, использование токена увеличивается примерно в 2 раза на страницу.
- Базовые маркеры ввода: 1000 страниц × 5200 токенов/страница = 5 200 000 токенов
- Стоимость: (5200 000 / 1000 000) × $ 0,40 = $ 2,08
- Базовые выходные токены: 1000 страниц × 180 токенов/страница = 180000 токенов
- Стоимость: (180 000 / 1000 000) × $ 1,60 = $ 0,29
Контекстуализация: 1000 страниц × 1000 токенов/page = 1000 000 токенов
- Стоимость: (1 000 000 / 1 000 000) × $1,00 = $1,00
Общая оценка стоимости: $5,00 + $2,08 + $0,29 + $ 1,00 = $8,37
Замечание
Использование стандартного глобального развертывания GPT-4.1 вместо мини увеличит затраты на извлечение полей примерно в 5 раз, что составит общую сумму около $33.
Замечание
Эти цены предназначены только для иллюстрации и не предназначены для представления фактической стоимости. Просмотрите цены на распознавание контента Azure и цены на Azure OpenAI для актуальных тарифов
Пример 3. Анализ содержимого видео с помощью извлечения полей на уровне сегмента
Сценарий. Вы извлекаете структурированное представление видеосодержимого для приложения RAG. Для извлечения структурированных данных на сегмент видео можно использовать prebuilt-videoSearch. Сегменты — это короткие клипы в среднем 15–30 секунд, что приводит к множеству сегментов вывода с одним полем сводки на сегмент.
Входные данные:
- 60 минут (1 час) видео
- Модель: глобальное развертывание GPT-4.1
- Регион: восточная часть США
Предположения:
- Входные токены: 7500 токенов в минуту (на основе примеров кадров, транскрибирования, подсказок схем и метапромптов)
- Выходные токены: 900 токенов в минуту (при условии 10–20 коротких структурированных полей на сегмент с автоматической сегментацией)
- Контекстуализация: 1000 000 токенов в час видео
Разбивка цен:
Извлечение содержимого: 60 минут
- Стоимость: 60 минут × $ 1/час = $1,00
Извлечение полей:
- Входные токены: 60 минут × 7500 токенов в минуту = 450 000 токенов
- Стоимость: (450 000 / 1000 000) × $ 2,00 = $ 0,90
- Исходные токены: 60 минут × 900 токенов/минуту = 54 000 токенов
- Стоимость: (54 000 / 1000 000) × $ 8,00 = $ 0,43
Контекстуализация: 1 000 000 токенов в час
- Стоимость: (1 000 000 / 1 000 000) × $1,00 = $1,00
Общая оценка стоимости: $1,00 + $0,90 + $0,43 + $ 1,00 = $3,33
Замечание
Фактические затраты зависят от особенностей входных и выходных данных. Эта прозрачная модель выставления счетов на основе использования гарантирует, что вы оплачиваете только то, что вы используете.
Замечание
Эти цены предназначены только для иллюстрации и не предназначены для представления фактической стоимости. Просмотрите цены на распознавание контента Azure и цены на Azure OpenAI для актуальных тарифов
Пример 4. Обработка записей аудиоцентра вызовов
Сценарий: Вы анализируете записи центра обработки вызовов, используя prebuilt-callCenter для создания транскрипций, выделения речи отдельных участников, анализа тональности и сводок.
Входные данные:
- 60 минут звука
- Модель: глобальное развертывание GPT-4.1-mini
- Регион: восточная часть США
Разбивка цен:
Извлечение содержимого: 60 минут
- Стоимость: 60 минут × $ 0,36/минуты = $0,36
Извлечение полей:
- Входные токены: 60 минут × 604 токенов/минут = 36 240 токенов
- Стоимость: (36,240 / 1000 000) × $ 0,40 = $0,01
- Выходные токены: 60 минут × 19 токенов/минуту = 1140 токенов
- Стоимость: (1,140 / 1000 000) × $ 1,60 = $ 0,00
Контекстуализация: 60 минут × 1667 токенов/минут = 100 020 токенов
- Стоимость: (100 020 / 1000 000) × $ 1,00 = $ 0,10
Общая оценка стоимости: $0,36 + $0,01 + $0,00 + $0,10 = $0,47
Замечание
Эти цены предназначены только для иллюстрации и не предназначены для представления фактической стоимости. Просмотрите цены на распознавание контента Azure и цены на Azure OpenAI для актуальных тарифов
Пример 5. Обработка изображений с подписями
Сценарий. Вы создаете описательные подписи для образов продуктов с помощью prebuilt-imageSearch.
Входные данные:
- 1000 изображений
- Модель: глобальное развертывание GPT-4.1
- Регион: восточная часть США
Разбивка цен:
Извлечение содержимого: плата за изображения не взимается
- Стоимость: $0,00
Извлечение полей:
- Входные маркеры: 1 000 изображений × 1 043 токенов/изображение = 1 043 000 токенов
- Стоимость: (1043 000 / 1000 000) × $ 2,00 = $ 2,09
- Выходные токены: 1 000 изображений × 170 токенов/изображение = 170 000 токенов
- Стоимость: (170 000 / 1000 000) × $ 8,00 = $ 1,36
Контекстуализация: 1000 изображений × 1000 токенов/изображение = 1 000 000 токенов
- Стоимость: (1 000 000 / 1 000 000) × $1,00 = $1,00
Общая оценка стоимости: $0,00 + $2,09 + $1,36 + $ 1,00 = $4,45
Замечание
Эти цены предназначены только для иллюстрации и не предназначены для представления фактической стоимости. Просмотрите цены на распознавание контента Azure и цены на Azure OpenAI для актуальных тарифов