Поделиться через


Новые возможности Azure OpenAI в моделях Azure AI Foundry

В этой статье приводится сводка последних выпусков и основных обновлений документации для Azure OpenAI.

Декабрь 2025 г.

Модель GPT-image-1.5 теперь доступна

GPT-image-1.5 — это последняя модель создания образов OpenAI. Он включает улучшенную производительность, качество, элементы управления редактированием и сохранение лиц. В режиме редактирования модель поддерживает высокую input_fidelity и добавление и удаление одного из аспектов входного изображения при сохранении других.

Запрос доступа: приложение модели ограниченного доступа

Основные возможности модели:

  • Включает все возможности GPT-image-1:
    • Генерация изображений из текста
    • Генерация изображений из изображений (редактирование)
  • Inpainting
  • Поколения изображений высокого качества, до 1024x1536 и 1536x1024 пикселей
  • Сохранение изображения лиц

Следуйте инструкциям по генерации изображений, чтобы приступить к работе с этой моделью.

Автоматическое обновление модели распознавания речи (ASR)

gpt-4o-mini-transcribe-2025-12-15

  • Улучшена точность транскрибирования и надежность для сценариев реального времени. ~50% ниже коэффициента ошибок слов (WER), чем у предыдущей версии gpt-4o-transcribe-mini на английских контрольных показателях.
  • Улучшает многоязычную поддержку для японского, индийских и других языков.
  • Сокращение галлюцинаций в тишине до 4 раз, что делает систему более надежным выбором для шумных окружений и реальных аудиопотоков.
  • Вход остаётся аудиоформатом, текст — как выходной, а развертывание — только API.

Обновление модели Realtime-mini (речь — речь)

gpt-realtime-mini-2025-12-15

  • Сопоставимость с полной моделью gpt-realtime в части следования инструкциям и вызова функций.
  • Входные и выходные данные — это звук, и сервис работает исключительно на основе API.

Обновление модели преобразования текста в речь

gpt-4o-mini-tts-2025-12-15

  • Новый эталон для синтеза многоязычной речи,
  • Более естественной, человеческой речи с меньшим количеством артефактов и улучшенным сходством говорящего.
  • Входные данные — это текст, выходные данные — звук, а развертывание — только API.

Октябрь 2025 г.

Поддержка API реального времени для SIP

API Реального времени теперь поддерживает SIP, позволяя телефонии подключаться к realtimeapi. Дополнительные сведения см. в документации по SIP в режиме реального времени.

Выпущена аудиомодель GPT-4o

  • Модель преобразования речи в текст gpt-4o-transcribe-diarize выпущена. Это модель автоматического распознавания речи (ASR), которая преобразует речевой язык в текст в режиме реального времени. Это позволяет организациям мгновенно получать аналитические сведения из бесед с ультранизкой задержкой и высокой точностью на более чем 100 языках. Эта возможность необходима для рабочих процессов, в которых голосовые данные определяют принятие решений, таких как поддержка клиентов, виртуальные собрания и живые мероприятия.

Диаризация — это процесс идентификации тех, кто говорил во время аудиопотока. Он преобразует беседы в расшифровки с атрибутами говорящего, что позволяет предприятиям извлекать полезные сведения из собраний, звонков клиентов и трансляций. С помощью расширенных моделей, таких как gpt-4o-transcribe-diarize, организации получают ясность в режиме реального времени и контекст, превращая голос в структурированные данные, которые используют более интеллектуальные решения и повышают производительность, поддерживая автоматическое распознавание речи.

Используйте эту модель через API /audio и /realtime.

GPT-image-1-mini

Модель gpt-image-1-mini теперь доступна для глобальных развертываний. Это меньшая версия gpt-image-1 модели, которая обеспечивает хороший баланс между производительностью и затратами. В настоящее время поддерживаются все варианты использования, за исключением редактирования изображений и точности ввода.

Запрос доступа: приложение модели ограниченного доступа

Следуйте инструкциям по генерации изображений, чтобы приступить к работе с этой моделью.

Фильтр для обнаружения персональной информации (PII)

Обнаружение персональных данных (PII) теперь доступно как встроенный фильтр содержимого. Эта функция позволяет выявлять и блокировать конфиденциальную информацию в выходных данных LLM, повышая конфиденциальность данных. Смотрите документацию по обнаружению PII для получения дополнительной информации.

Сентябрь 2025 г.

GPT-5-codex теперь доступен

Поддержка видео-видео Sora

Модель Sora из OpenAI теперь поддерживает видео-видео генерацию. Вы можете предоставить короткое видео в качестве входных данных для создания нового, более длинного видео, включающего входное видео. Ознакомьтесь с кратким руководством, чтобы начать.

Август 2025 г.

Поддержка изображений в видео sora

Модель Sora из OpenAI теперь поддерживает создание изображений в видео. Вы можете предоставить изображение в качестве входных данных модели для создания видео, включающего содержимое изображения. Вы также можете указать кадр видео, в котором должен отображаться изображение: это не нужно быть началом. Ознакомьтесь с кратким руководством, чтобы начать.

Эта модель Sora теперь доступна в центральном регионе Швеции и восточной части США 2.

Общедоступная общедоступная версия модели API API в режиме реального времени

Модели GPT RealTime и Audio OpenAI теперь доступны в моделях Azure AI Foundry Direct.

Улучшения модели:

  • Улучшенная инструкция: расширенные возможности для выполнения тонов, интервалов и инструкций по эскалации более точно и надежно. Также можно переключать языки.
  • Новые стандартные голоса, Марин и Седар, которые приносят улучшенную естественность и ясность синтеза речи.
  • Улучшено качество звука: выходные данные без сбоя, улучшенные буквенно-цифровые воспроизведение и управление модальности.

Улучшения службы API в режиме реального времени:

  • Ввод изображения: добавление и обсуждение изображений с помощью голосовой связи без требований к видео.
  • Улучшенные вызовы функций: улучшенная возможность вызова пользовательского кода, определенного разработчиками. Поддерживаются асинхронные вызовы функций, позволяя сеансам продолжаться во время ожидания вызова функции.
  • Режим беседы: поведение в реальном мире для естественных взаимодействий. В режиме общения используется VAD, чтобы запрашивать пользователей, если не обнаружено ответа, что повышает удобство использования в реальном мире для взаимодействия, подобного телефону.

Мы настоятельно рекомендуем всем клиентам перейти на недавно запущенные модели общедоступной версии, чтобы воспользоваться всеми преимуществами новейших функций. Ознакомьтесь с документацией по Azure OpenAI и платформой Azure AI Foundry Для изучения возможностей и интеграции с приложениями.

Подготовленная общедоступная версия разлива (GA)

Функция Spillover теперь общедоступна. Spillover управляет изменениями трафика на подготовленных развертываниях, направляя превышения на назначенное стандартное развертывание. Дополнительные сведения о том, как максимизировать использование подготовленных развертываний с помощью разлива, см. в статье "Управление трафиком с помощью разлива для подготовленных развертываний".

Доступные модели GPT-5

Новая версия маршрутизатора модели

  • Маршрутизатор Model теперь поддерживает модели серии GPT-5.

  • Маршрутизатор модели для Azure AI Foundry — это разворачиваемая модель чата ИИ, которая автоматически выбирает наилучшую базовую модель чата для ответа на данный запрос. Дополнительные сведения о работе маршрутизатора модели и его преимуществах и ограничениях см. в руководстве по основным понятиям маршрутизатора модели. Чтобы использовать роутер модели с API Completions, следуйте руководству.

Июль 2025 г.

Обновление GPT-image-1 (предварительная версия)

  • Параметр точности ввода: input_fidelity параметр в API редактирования изображений позволяет управлять тем, насколько тесно модель передает стиль и функции субъектов в исходном (входном) изображении. Это полезно для:

    • Редактирование фотографий при сохранении черт лица; создание аватаров, которые выглядят как оригинальный человек в разных стилях; объединение лиц из нескольких людей в одно изображение.
    • Поддержание идентичности бренда в созданных изображениях для маркетинговых ресурсов, макетов, фотосъемки продуктов.
    • Электронная коммерция и мода, где вам нужно редактировать изображения нарядов или деталей продукта без компрометации реалистичности.
  • Потоковая передача частичных изображений: API создания изображений и редактирования изображений поддерживают частичную потоковую передачу изображений, где они возвращают изображения с частично отрисованным содержимым во время процесса создания изображений. Отображение этих изображений пользователю для предоставления более ранних визуальных отзывов и отображения хода выполнения операции создания изображений.

Июнь 2025 г.

Выпущены новые модели codex-mini и o3-pro

Май 2025 г.

Выпущено поколение видео Sora (предварительная версия)

Модель Sora (2025-05-02) — это модель создания видео из OpenAI, которая может создавать реалистичные и образные видео сцены из текстовых инструкций.

Чтобы приступить к работе, следуйте краткому руководству по созданию видео . Дополнительные сведения см. в руководстве по концепциям создания видео .

Включение внимания для экранов запросов (предварительная версия)

Подсветка — это подфункционал экранов запросов, который усиливает защиту от непрямых атак (при помощи внедренных документов), добавляя специальное форматирование в входящие документы для указания на более низкий уровень доверия к модели. Дополнительные сведения см. в документации по фильтру защиты запроса.

Референcный маршрутизатор (тестовая версия)

Маршрутизатор модели для Azure AI Foundry — это разворачиваемая модель чата ИИ, которая автоматически выбирает наилучшую базовую модель чата для ответа на данный запрос. Дополнительные сведения о работе маршрутизатора модели и его преимуществах и ограничениях см. в руководстве по основным понятиям маршрутизатора модели. Чтобы использовать роутер модели с API Completions, следуйте руководству.

Апрель 2025 г.

Поддержка API реального времени (предварительная версия) для WebRTC

API Реального времени (предварительная версия) теперь поддерживает WebRTC, обеспечивая потоковую передачу звука в режиме реального времени и взаимодействие с низкой задержкой. Эта функция идеально подходит для приложений, требующих немедленного отзыва, таких как динамическая поддержка клиентов или интерактивные голосовые помощники. Дополнительные сведения см. в документации по API Реального времени (предварительная версия).

GPT-image-1 выпущен (предварительная версия, ограниченный доступ)

GPT-image-1 (2025-04-15) — это последняя модель создания изображений из Azure OpenAI. Она имеет значительные улучшения по сравнению с DALL-E, включая:

  • Лучше реагировать на точные указания.
  • Надежно отображает текст.
  • Принимает изображения в качестве входных данных, что позволяет создавать новые возможности редактирования и вставки изображений.

Запрос доступа: приложение модели ограниченного доступа

Следуйте инструкциям по генерации изображений, чтобы приступить к работе с новой моделью.

Выпущенные модели o4-mini и o3

модели o4-mini и o3 теперь доступны. Это последние модели причин из Azure OpenAI, предлагающие улучшенную причину, качество и производительность. Дополнительные сведения см. на странице "Начало работы с моделями причин".

Выпущено GPT-4.1

Теперь доступны GPT 4.1 и GPT 4.1-nano. Это последние модели из Azure OpenAI. GPT 4.1 имеет ограничение контекста в 1 миллион токенов. Дополнительные сведения см. на странице моделей.

Выпущены аудиомодели gpt-4o

Теперь доступны новые звуковые модели на базе технологии GPT-4o.

  • Выпущены модели перевода речи в текст gpt-4o-transcribe и gpt-4o-mini-transcribe. Используйте эти модели через API /audio и /realtime.

  • Выпущена модель gpt-4o-mini-tts преобразования текста в речь. Используйте модель gpt-4o-mini-tts для создания текстовой речи через API /audio.

Дополнительные сведения о доступных моделях см. в документации по моделям и версиям.

Март 2025 г.

API ответов и модель предварительного просмотра использования компьютера

Responses API — это новый API с сохранением состояния из Azure OpenAI. Он объединяет лучшие возможности из API завершения чата и помощников в одном едином опыте. API ответов также добавляет поддержку новой computer-use-preview модели, которая обеспечивает возможность использования компьютера .

Для доступа к computer-use-preview требуется регистрация, и доступ будет предоставлен на основе критериев приемлемости корпорации Майкрософт. Клиенты, имеющие доступ к другим моделям ограниченного доступа, по-прежнему должны запрашивать доступ к этой модели.

Запрос доступа: computer-use-preview приложение модели ограниченного доступа

Дополнительные сведения о возможностях модели и доступности регионов см. в документации по моделям.

Анимированный gif-файл модели предпросмотра использования компьютера, интегрированной с Playwright.

Демонстрационный код интеграции Playwright.

Выделенный резерв (предварительный просмотр)

Spillover управляет изменениями трафика на подготовленных развертываниях, направляя превышения на назначенное стандартное развертывание. Дополнительные сведения о том, как максимизировать использование подготовленных развертываний с помощью перелива трафика, см. Управление трафиком с помощью перелива для подготовленных развертываний (предварительная версия).

Указание конфигураций фильтрации содержимого

Помимо конфигурации фильтрации содержимого на уровне развертывания, теперь мы также предоставляем заголовок запроса, который позволяет указать настраиваемую конфигурацию во время запроса для каждого вызова API. Дополнительные сведения см. в разделе "Использование фильтров содержимого (предварительная версия)".

Февраль 2025 г.

Предварительная версия GPT-4.5

Последняя модель GPT, которая работает с различными задачами текста и изображения, теперь доступна в Azure OpenAI.

Дополнительные сведения о возможностях модели и доступности регионов см. в документации по моделям.

API завершений, хранимых в памяти

Сохраненные завершения позволяют вести историю разговоров из сеансов завершения чата для использования в качестве наборов данных для оценки и дальнейшей настройки.

Стандартные развертывания зоны данных o3-mini

o3-mini теперь доступен для развертываний по глобальному стандарту и стандартных развертываний зон данных для зарегистрированных клиентов с ограниченным доступом.

Для получения дополнительной информации, ознакомьтесь с нашим руководством по модели рассуждения.

Выпущено аудио gpt-4o mini

Модель gpt-4o-mini-audio-preview (2024-12-17) — это последняя модель завершения звука. Дополнительные сведения см. в кратком руководстве по созданию звука.

Модель gpt-4o-mini-realtime-preview (2024-12-17) — это последняя звуковая модель в режиме реального времени. Модели реального времени используют ту же базовую звуковую модель GPT-4o, что и API завершения, но оптимизированы для низкой задержки, для взаимодействий со звуком в режиме реального времени. Дополнительные сведения см. в кратком руководстве по звуку в режиме реального времени.

Дополнительные сведения о доступных моделях см. в документации по моделям и версиям.

Январь 2025 г.

o3-mini выпущено

o3-mini (2025-01-31) — это последняя модель дедуктивных рассуждений, предлагающая расширенные умственные возможности. Для получения дополнительной информации, ознакомьтесь с нашим руководством по модели рассуждения.

Завершение звука GPT-4o

Модель gpt-4o-audio-preview теперь доступна для глобальных развертываний в регионах "Восточная часть США 2" и "Центральная Швеция". Используйте модель gpt-4o-audio-preview для создания аудио.

Модель gpt-4o-audio-preview вводит модальность звука в существующий /chat/completions API. Звуковая модель расширяет потенциал для приложений ИИ в взаимодействии с текстом и голосовой связи и анализе звука. Модальности, поддерживаемые в gpt-4o-audio-preview модели, включают: текст, звук и текст + звук. Дополнительные сведения см. в кратком руководстве по созданию звука.

Note

API Реального времени использует ту же базовую модель звука GPT-4o, что и API завершения, но оптимизирован для низкой задержки и аудиовзаимодействия в режиме реального времени.

API реального времени GPT 2024-12-17

Модель gpt-4o-realtime-preview версии 2024-12-17 доступна для глобальных развертываний в регионах "Восточная часть США 2" и "Центральная Швеция". gpt-4o-realtime-preview Используйте модель версии 2024-12-17 вместо gpt-4o-realtime-preview модели 2024-10-01-preview для взаимодействия со звуком в режиме реального времени.

  • Добавлена поддержка кэширования подсказок с помощью модели gpt-4o-realtime-preview.
  • Добавлена поддержка новых голосов. Теперь gpt-4o-realtime-preview модели поддерживают следующие голоса: alloy, ash, balladcoral, , echo, sage, . shimmerverse
  • Ограничения скорости больше не зависят от подключений в минуту. Ограничение скорости теперь зависит от RPM (запросов в минуту) и TPM (маркеров в минуту) модели gpt-4o-realtime-preview. Ограничения скорости для каждого gpt-4o-realtime-preview развертывания модели — 100 K TPM и 1 K RPM. Во время предварительной версии портал Azure AI Foundry и API могут отображать неточные ограничения скорости. Даже если вы пытаетесь установить другой предел скорости, фактический предел скорости составляет 100 K TPM и 1 K RPM.

Дополнительные сведения см. в кратком руководстве по звуку gPT в режиме реального времени и руководстве.

Декабрь 2024 г.

Модель причин o1, выпущенная для ограниченного доступа

Последняя o1 модель теперь доступна для доступа к API и развертывания модели. Регистрация требуется, и доступ будет предоставлен на основе критериев соответствия корпорации Майкрософт. Клиенты, которые ранее подали заявку и получили доступ к o1-preview, не нужно подавать заявку повторно, так как они автоматически включены в список ожидания на последнюю модель.

Запрос доступа: приложение модели ограниченного доступа

Чтобы узнать больше о расширенных моделях серии o1, см. статью о работе с моделями рассуждений серии o1.

Доступность по регионам

Model Region
o1
(Версия: 2024-12-17)
Восток США2 (Глобальный стандарт)
Центральная Швеция (глобальный стандарт)

Настройка предпочтения (предварительная версия)

Прямая оптимизация предпочтений (DPO) — это новый метод выравнивания для больших языковых моделей, предназначенный для корректировки весов моделей на основе предпочтений человека. В отличие от обучения с подкреплением от человеческой обратной связи (RLHF), DPO не требует настройки модели вознаграждения и использует более простые данные (двоичные предпочтения) для обучения. Этот метод вычисляется легче и быстрее, что делает его одинаково эффективным при выравнивании, а также более эффективным. DPO особенно полезно в сценариях, когда важны субъективные элементы, такие как тон, стиль или определенные предпочтения содержимого. Мы рады объявить о публичном предварительном просмотре DPO в Azure OpenAI, начиная с модели gpt-4o-2024-08-06.

Сведения о доступности региона для точной настройки модели см. на странице моделей.

Сохраненные завершения и дистилляция

Сохраненные завершения позволяют вам фиксировать историю бесед из сеансов завершения чата, чтобы использовать ее как наборы данных для оценок и тонкой настройки.

GPT-4o 2024-11-20

gpt-4o-2024-11-20 теперь доступен для глобального стандартного развертывания в:

  • East US
  • Восток США 2
  • северо-центральная часть США
  • Южно-Центральная часть США
  • West US
  • Западная часть США 3
  • Sweden Central

Новый тип развертывания выделенной зоны данных

Подготовленные зоны данных доступны в том же ресурсе Azure OpenAI, что и все остальные типы развертывания Azure OpenAI, но позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в определенной корпорацией Майкрософт зоне данных с оптимальной доступностью для каждого запроса. Развертывания, использующие зоны данных, обеспеченные ресурсами, предоставляют зарезервированную вычислительную мощность для обработки моделей с высокой и прогнозируемой пропускной способностью с использованием инфраструктуры Azure в указанных компанией Microsoft зонах данных. Развертывания с подготовленными зонами данных поддерживаются в моделях gpt-4o-2024-08-06, gpt-4o-2024-05-13 и gpt-4o-mini-2024-07-18.

Дополнительные сведения см. в руководстве по типам развертывания.

Дальнейшие шаги

Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.