Новые возможности в Azure OpenAI в классических моделях Microsoft Foundry

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Примечание

Ссылки в этой статье могут вести к содержимому новой документации Microsoft Foundry, вместо той, что вы сейчас просматриваете — документации по Foundry (классической версии).

В этой статье приводится сводка последних выпусков и основных обновлений документации для Azure OpenAI.

Май 2026 г.

Концептуальные статьи GPT Realtime 2.0

Новые основные статьи описывают возможности и ключевые понятия для последней модели реального времени:

Обзор GPT Realtime 2.0 (предварительная версия) — охватывает поддержку рассуждений, этапы ответа (преамбула и окончательный ответ) и более строгое следование инструкциям.

Сервисы GPT Realtime Translate и GPT Realtime Whisper

Новые основные статьи описывают возможности и варианты использования для последних моделей перевода и транскрибирования в реальном времени:

GPT Realtime Translate — охватывает непрерывный потоковой перевод звука для трансляций многоязычных событий, поддержки клиентов и голосовых помощников.
GPT Realtime Whisper — охватывает транскрибирование потоковой передачи с низкой задержкой для динамических субтитров, мониторинга и архивных рабочих процессов.

Февраль 2026 г.

Выпущенные модели GPT-Realtime-1.5 и GPT-Audio-1.5

Теперь доступны модели gpt-realtime-1.5 и gpt-audio-1.5.

Эти модели основываются на прошлогодних GPT-Realtime и GPT-Audio с улучшениями в следовании инструкциям, многоязычной поддержке и вызовах инструментов, сохраняя низкую задержку, необходимую разработчикам для взаимодействий в режиме реального времени в голосовых приложениях.
Попробуйте использовать существующие API завершения чата в Microsoft Foundry.

Декабрь 2025 г.

Модель GPT-image-1.5 теперь доступна

GPT-image-1.5 — это последняя модель создания образов OpenAI. Он включает улучшенную производительность, качество, элементы управления редактированием и сохранение лиц. В режиме редактирования модель поддерживает высокий input_fidelity и добавление или удаление одного из аспектов входного изображения при сохранении других.

Запрос доступа: приложение модели ограниченного доступа

Основные возможности модели:

Включает все возможности GPT-image-1:
- Создание изображений на основе текста
- Генерация изображений из изображений (редактирование)
Инпейтинг
Поколения изображений высокого качества, до 1024x1536 и 1536x1024 пикселей
Сохранение лиц

Следуйте инструкциям по генерации изображений, чтобы приступить к работе с этой моделью.

Автоматическое обновление модели распознавания речи (ASR)

gpt-4o-mini-transcribe-2025-12-15

Улучшена точность транскрибирования и надежность для сценариев реального времени с примерно на 50% более низким уровнем ошибок в словах (WER), чем у предыдущей модели gpt-4o-transcribe-mini на английских тестах.
Улучшает многоязычную производительность на японском, индийских и других языках.
Уменьшает галлюцинации в условиях тишины в 4 раза, что делает его более надежным выбором для шумных сред и работы с реальными аудиопотоками.
Вход остаётся звуковым, выход - текстовым, а развертывание доступно только через API.

Обновление модели Realtime-mini (система преобразования речи)

gpt-realtime-mini-2025-12-15

Совместимость с полной моделью gpt-realtime в следовании инструкциям и вызовах функций.
Вход и выход — это аудио, а развертывание осуществляется только через API.

Обновление модели преобразования текста в речь

gpt-4o-mini-tts-2025-12-15

Задает новый эталон для синтеза многоязычной речи.
Создает более естественную, человеческую речь с меньшим количеством артефактов и улучшенным сходством говорящего.
Входные данные — это текст, выходные данные — звук, а развертывание — только API.

Октябрь 2025 г.

Поддержка API реального времени для SIP

API Реального времени теперь поддерживает SIP, позволяя телефонии подключаться к realtimeapi. Дополнительные сведения см. в документации по SIP в режиме реального времени.

Выпущена аудио-модель GPT-4o

Выпущена модель преобразования речи в текст gpt-4o-transcribe-diarize. Эта модель — это модель автоматического распознавания речи (ASR), которая преобразует язык в текст в режиме реального времени. Это позволяет организациям мгновенно получать аналитические сведения из бесед с ультранизкой задержкой и высокой точностью более чем на 100 языках. Эта возможность необходима для рабочих процессов, в которых голосовые данные влияют на принятие решений, таких как поддержка клиентов, виртуальные собрания и живые мероприятия.

Диаризация — это процесс определения, кто говорил в аудиопотоке. Он преобразует беседы в расшифровки с атрибутами говорящего, что позволяет предприятиям извлекать полезные сведения из собраний, звонков клиентов и трансляций. С помощью расширенных моделей, таких как gpt-4o-transcribe-diarize, организации получают ясность в режиме реального времени и контекст, превращая голос в структурированные данные, которые используют более интеллектуальные решения и повышают производительность, поддерживая автоматическое распознавание речи.

Используйте эту модель через /audio и /realtime API.

GPT-image-1-mini

Модель gpt-image-1-mini теперь доступна для глобальных развертываний. Это меньшая версия gpt-image-1 модели, которая обеспечивает хороший баланс между производительностью и затратами. В настоящее время поддерживаются все варианты использования, за исключением редактирования изображений и точности ввода.

Запрос доступа: приложение модели ограниченного доступа

Следуйте инструкциям по генерации изображений, чтобы приступить к работе с этой моделью.

Фильтр содержимого обнаружения PII

Обнаружение персональных данных (PII) теперь доступно как встроенный фильтр содержимого. Эта функция позволяет выявлять и блокировать конфиденциальную информацию в выходных данных LLM, повышая конфиденциальность данных. Дополнительные сведения см. в документации по обнаружению PII.

Сентябрь 2025 г.

GPT-5-codex теперь доступен

См. gpt-5-codex на странице "Начало работы с моделями рассуждений".
gpt-5-codex предназначен для использования с интерфейсом командной строки Codex и расширением Codex Visual Studio Code.
Регистрация необходима для доступа к модели gpt-5-codex. Если вы ранее зарегистрировались и получили доступ к другим моделям ограниченного доступа, например gpt-5, вам не нужно подавать повторное заявление, доступ будет предоставлен автоматически.

Поддержка видео-обработки Sora

Модель Sora из OpenAI теперь поддерживает создание видео из видео. Вы можете предоставить короткое видео в качестве входных данных для создания нового, более длинного видео, включающего входное видео. Ознакомьтесь с кратким руководством, чтобы начать.

Август 2025 г.

Поддержка Sora конвертации изображений в видео

Модель Sora из OpenAI теперь поддерживает создание изображений в видео. Вы можете предоставить изображение в качестве входных данных модели для создания видео, включающего содержимое изображения. Вы также можете указать кадр видео, в котором должен отображаться изображение: это не нужно быть началом. Ознакомьтесь с кратким руководством, чтобы начать.

Эта модель Sora теперь доступна в центральном регионе Швеции и восточной части США 2.

Публичная версия аудиомодели API для обработки в реальном времени

Модели GPT RealTime и Audio от OpenAI теперь широко доступны в моделях Foundry от Microsoft.

Улучшения модели:

Улучшенное следование инструкциям: расширенные возможности более точно и надежно выполнять требования, касающиеся стиля общения, ритма и эскалации. Также можно переключать языки.
Новые стандартные голоса, Марин и Седар, обеспечивающие повышенную естественность и ясность синтеза речи.
Улучшенное качество звука: выходные данные без искажений, улучшенное буквенно-цифровое воспроизведение и управление модальностью.

Улучшения службы API в режиме реального времени:

Ввод изображения: добавление и обсуждение изображений с помощью голосовой связи без требований к видео.
Улучшенные вызовы функций: улучшенная возможность вызова пользовательского кода, определенного разработчиками. Поддерживаются асинхронные вызовы функций, позволяя сеансам продолжаться во время ожидания вызова функции.
Режим беседы: поведение в реальном мире для естественных взаимодействий. В режиме общения используется VAD, который запрашивает пользователей при отсутствии ответа, улучшая удобство использования для взаимодействий, подобных телефонным.

Мы настоятельно рекомендуем всем клиентам перейти на недавно запущенные модели общедоступной версии, чтобы воспользоваться всеми преимуществами новейших функций. Ознакомьтесь с документацией Azure OpenAI и порталом Microsoft Foundry, чтобы изучить возможности и интегрировать их в свои приложения.

Подготовленный избыточный ресурс в стадии общей доступности (GA)

Теперь Spillover доступен для всех. Перераспределение управляет колебаниями трафика для предоставленных развертываний направлением избыточного трафика в назначенному стандартному развертыванию. Дополнительные сведения о том, как максимизировать использование подготовленных развертываний с помощью разлива, см. в статье "Управление трафиком с помощью разлива для подготовленных развертываний".

Доступные модели GPT-5

gpt-5, gpt-5-mini, gpt-5-nano чтобы узнать больше, ознакомьтесь со страницей "Начало работы с моделями рассуждений" .
gpt-5-chat теперь доступен. Дополнительные сведения см. на странице моделей
gpt-5теперь доступен для выделенных единиц пропускной способности (PTU).
Регистрация требуется для доступа к модели gpt-5.
gpt-5-mini, gpt-5-nanoи gpt-5-chat не требуют регистрации.

Новая версия модельного роутера

Маршрутизатор модели теперь поддерживает модели серии GPT-5.
Маршрутизатор модели для Microsoft Foundry — это модель развернутого чата ИИ, которая автоматически выбирает лучшую базовую модель чата для ответа на заданный запрос. Дополнительные сведения о работе маршрутизатора модели и его преимуществах и ограничениях см. в руководстве по основным понятиям маршрутизатора модели. Чтобы использовать маршрутизатор модели с Completions API, следуйте руководству.

Июль 2025 г.

Обновление GPT-image-1 (предварительная версия)

Параметр точности ввода: input_fidelity параметр в API редактирования изображений позволяет управлять тем, насколько тесно модель передает стиль и функции субъектов в исходном (входном) изображении. Это полезно для:
- Редактирование фотографий при сохранении черт лица, создание аватаров, которые выглядят как оригинальный человек в разных стилях, объединение лиц нескольких людей в одно изображение.
- Поддержание идентичности бренда в сгенерированных изображениях для маркетинговых материалов, макетов и фотографий продуктов.
- Электронная коммерция и мода, где вам нужно редактировать изображения нарядов или деталей продукта без компрометации реалистичности.
Потоковая передача частичных изображений: API создания и редактирования изображений поддерживают потоковую передачу частичных изображений, возвращая изображения с частично отрисованным содержимым в процессе их создания. Отображение этих изображений пользователю для предоставления более ранних визуальных отзывов и отображения хода выполнения операции создания изображений.

Июнь 2025 г.

Выпущены новые модели codex-mini и o3-pro

codex-mini и o3-pro теперь доступны. Дополнительные сведения см. на странице "Начало работы с моделями причин"

Май 2025 г.

Выпущено поколение видео Sora (предварительная версия)

Модель Sora (2025-05-02) — это модель создания видео из OpenAI, которая может создавать реалистичные и образные видео сцены из текстовых инструкций.

Чтобы приступить к работе, следуйте краткому руководству по созданию видео . Дополнительные сведения см. в руководстве по концепциям создания видео .

Подсветка для щитов запросов (предварительная версия)

Акцентирование — это подфункция экранирования запросов, что усиливает защиту от непрямых атак (внедренных документов) путем добавления тегов входным документам с особым форматированием для указания на более низкий уровень доверия модели. Для получения дополнительной информации см. документацию по фильтру экранов запросов.

Модельный маршрутизатор (предпросмотр)

Маршрутизатор модели для Microsoft Foundry — это модель развернутого чата ИИ, которая автоматически выбирает лучшую базовую модель чата для ответа на заданный запрос. Дополнительные сведения о работе маршрутизатора модели и его преимуществах и ограничениях см. в руководстве по основным понятиям маршрутизатора модели. Чтобы использовать маршрутизатор модели с Completions API, следуйте руководству.

Апрель 2025 г.

Поддержка API реального времени (предварительная версия) для WebRTC

API Реального времени (предварительная версия) теперь поддерживает WebRTC, обеспечивая потоковую передачу звука в режиме реального времени и взаимодействие с низкой задержкой. Эта функция идеально подходит для приложений, требующих немедленного отзыва, таких как динамическая поддержка клиентов или интерактивные голосовые помощники. Дополнительные сведения см. в документации по API Реального времени (предварительная версия).

GPT-image-1 выпущен (предварительная версия, ограниченный доступ)

GPT-image-1 (2025-04-15) — это последняя модель создания изображений из Azure OpenAI. Она имеет значительные улучшения по сравнению с DALL-E, включая:

Лучше отвечать на точные инструкции.
Надежно обрабатывает текст.
Принимает изображения в качестве входных данных, что позволяет создавать новые возможности редактирования и вставки изображений.

Запрос доступа: приложение модели ограниченного доступа

Следуйте инструкциям по генерации изображений, чтобы приступить к работе с новой моделью.

Выпущенные модели o4-mini и o3

Модели o4-mini и o3 теперь доступны. Эти модели являются последними моделями для умозаключений от Azure OpenAI, предлагая улучшенное умозаключение, качество и производительность. Дополнительные сведения см. на странице "Начало работы с моделями причин".

Выпущено GPT-4.1

Теперь доступны GPT 4.1 и GPT 4.1-nano. Эти модели являются последними моделями из Azure OpenAI. GPT 4.1 имеет контекстный предел в 1 миллион токенов. Дополнительные сведения см. на странице моделей.

Выпущены аудиомодели gpt-4o

Теперь доступны новые звуковые модели, работающие на основе GPT-4o.

Выпускаются модели преобразования речи в текст gpt-4o-transcribe и gpt-4o-mini-transcribe. Используйте эти модели через /audio и /realtime API.
Выпущена gpt-4o-mini-tts модель преобразования текста в речь. Используйте модель gpt-4o-mini-tts для синтеза речи с помощью API /audio.

Дополнительные сведения о доступных моделях см. в документации по моделям и версиям.

Март 2025 г.

API ответов и модель предварительного просмотра использования компьютера

API Responses — это новый API с отслеживанием состояния из Azure OpenAI. Он объединяет лучшие возможности из api завершения чата и помощников в одном едином интерфейсе. API ответов также добавляет поддержку новой computer-use-preview модели, которая обеспечивает возможность использования компьютера .

Для получения доступа computer-use-preview требуется регистрация, и доступ будет предоставлен на основе критериев соответствия Microsoft. Клиенты, имеющие доступ к другим моделям ограниченного доступа, по-прежнему должны запрашивать доступ к этой модели.

Запрос доступа: computer-use-preview приложение модели ограниченного доступа

Дополнительные сведения о возможностях модели и доступности регионов см. в документации по моделям.

Демонстрационный код интеграции Playwright.

Provisioned spillover (preview) ru-RU: Подготовленное перераспределение (предварительный просмотр)

Перераспределение управляет колебаниями трафика для предоставленных развертываний направлением избыточного трафика в назначенному стандартному развертыванию. Дополнительные сведения о том, как максимизировать использование подготовленных развертываний с помощью перелива, см. статью "Управление трафиком с помощью перелива для подготовленных развертываний (предварительная версия)".

Указание конфигураций фильтрации содержимого

Помимо конфигурации фильтрации содержимого на уровне развертывания, теперь мы также предоставляем заголовок запроса, который позволяет указать настраиваемую конфигурацию во время запроса для каждого вызова API. Дополнительные сведения см. в разделе "Использование фильтров содержимого (предварительная версия)".

Февраль 2025 г.

Предварительная версия GPT-4.5

Последняя модель GPT, которая работает с различными задачами текста и изображения, теперь доступна в Azure OpenAI.

Дополнительные сведения о возможностях модели и доступности регионов см. в документации по моделям.

API хранимых завершений

Сохраненные результаты позволяют фиксировать историю общения из сеансов завершения чатов для использования в качестве наборов данных для оценки и уточнения.

Стандартные развертывания зоны данных o3-mini

o3-mini теперь доступен для стандартных глобальных развертываний и развертываний в стандартной зоне данных для клиентов с зарегистрированным ограниченным доступом.

Дополнительные сведения см. в руководстве по модели рассуждений.

Выпущен mini audio Gpt-4o

Модель gpt-4o-mini-audio-preview (2024-12-17) — это последняя модель завершения звука. Дополнительные сведения см. в кратком руководстве по созданию звука.

Модель gpt-4o-mini-realtime-preview (2024-12-17) — это последняя звуковая модель в режиме реального времени. Модели для работы в реальном времени используют ту же базовую аудиомодель GPT-4o, что и API автозавершения, но они оптимизированы для низкой задержки и взаимодействия с аудио в режиме реального времени. Дополнительные сведения см. в кратком руководстве по звуку в режиме реального времени.

Дополнительные сведения о доступных моделях см. в документации по моделям и версиям.

Январь 2025 г.

Выпущено o3-mini

o3-mini (2025-01-31) — это последняя модель рассуждений, предлагающая расширенные возможности рассуждений. Дополнительные сведения см. в руководстве по модели рассуждений.

Завершение звука GPT-4o

Модель gpt-4o-audio-preview теперь доступна для глобальных развертываний в регионах "Восточная часть США 2" и "Центральная Швеция". Используйте модель gpt-4o-audio-preview для создания звука.

Модель gpt-4o-audio-preview вводит модальность звука в существующий /chat/completions API. Звуковая модель расширяет потенциал для приложений ИИ в взаимодействии с текстом и голосовой связи и анализе звука. Модальности, поддерживаемые в gpt-4o-audio-preview модели, включают: текст, звук и текст + звук. Дополнительные сведения см. в кратком руководстве по созданию звука.

Примечание

API реального времени использует ту же базовую модель звука GPT-4o, что и API завершения, но оптимизирована для низкой задержки взаимодействий со звуком в режиме реального времени.

API реального времени GPT 2024-12-17

Модель gpt-4o-realtime-preview версии 2024-12-17 доступна для глобальных развертываний в регионах "Восточная часть США 2" и "Центральная Швеция". gpt-4o-realtime-preview Используйте модель версии 2024-12-17 вместо gpt-4o-realtime-preview модели 2024-10-01-preview для взаимодействия со звуком в режиме реального времени.

Добавлена поддержка кэширования запросов с моделью gpt-4o-realtime-preview.
Добавлена поддержка новых голосов. Теперь gpt-4o-realtime-preview модели поддерживают следующие голоса: alloy, ash, balladcoral, , echo, sage, . shimmerverse
Ограничения скорости больше не зависят от подключений в минуту. Ограничение скорости теперь зависит от RPM (запросов в минуту) и TPM (токенов в минуту) для gpt-4o-realtime-preview модели. Ограничения скорости для каждого gpt-4o-realtime-preview развертывания модели — 100 K TPM и 1 K RPM. Во время предварительной версии портал Azure AI Foundry и API могут отображать неточные ограничения скорости. Даже если вы пытаетесь установить другой предел скорости, фактический предел скорости составляет 100 K TPM и 1 K RPM.

Дополнительные сведения см. в быстром старте по GPT в режиме реального времени и руководстве.

Декабрь 2024 г.

Модель причин o1, выпущенная для ограниченного доступа

Последняя o1 модель теперь доступна для работы с API и развертывания модели. Требуется регистрация, и доступ будет предоставлен на основе критериев отбора Microsoft. Клиенты, которые ранее подали заявление и получили доступ к o1-preview, не нужно повторно подавать заявление, так как они автоматически включены в лист ожидания на последнюю модель.

Запрос доступа: приложение модели ограниченного доступа

Дополнительные сведения о расширенных o1 моделях серии см. в статье о начале работы с моделями причин серии o1.

Доступность региона

Модель	Регион
`o1` (Версия: 2024-12-17)	Восточная часть США2 (глобальный стандарт) Центральная Швеция (глобальный стандарт)

Настройка предпочтения (предварительная версия)

Прямая оптимизация предпочтений (DPO) — это новый метод выравнивания для больших языковых моделей, предназначенный для корректировки весов моделей на основе предпочтений человека. В отличие от обучения с подкреплением от человеческой обратной связи (RLHF), DPO не требует настройки модели вознаграждения и использует более простые данные (двоичные предпочтения) для обучения. Этот метод вычисляется легче и быстрее, что делает его одинаково эффективным при выравнивании, а также более эффективным. DPO особенно полезно в сценариях, когда важны субъективные элементы, такие как тон, стиль или определенные предпочтения содержимого. Мы рады объявить общедоступную предварительную версию DPO в Azure OpenAI, начиная с модели gpt-4o-2024-08-06.

Сведения о доступности региона точной настройки модели см. на странице моделей.

Хранимые завершения и дистилляция

Сохраненные завершения позволяют записывать журнал бесед из сеансов завершения чата для использования в качестве наборов данных для оценки и точной настройки.

GPT-4o 2024-11-20

gpt-4o-2024-11-20 теперь доступен для глобального стандартного развертывания в:

Восточная часть США
Восточная часть США 2
Северная часть США
Южная часть США
Западная часть США
Западная часть США 3
Центральная Швеция

Новый тип развертывания подготовленной зоны данных

Развертывания, предусматривающие зону данных, доступны в том же ресурсе Azure OpenAI, что и все другие типы развертываний Azure OpenAI. Однако они позволяют использовать глобальную инфраструктуру Azure для динамической маршрутизации трафика в центр обработки данных в определенной Microsoft зоне данных с наилучшей доступностью для каждого запроса. Выделенные развертывания в зонах данных предоставляют зарезервированную вычислительную емкость для обработки моделей, обеспечивая высокую и прогнозируемую пропускную способность с помощью инфраструктуры Azure в указанных Microsoft зонах данных. Подготовленные зоны данных поддерживаются в моделях gpt-4o-2024-08-06, gpt-4o-2024-05-13, и gpt-4o-mini-2024-07-18.

Дополнительные сведения см. в руководстве по типам развертывания.

Дальнейшие действия

Узнайте больше о основных моделях, которые обеспечивают работу Azure OpenAI.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-28

Новые возможности в Azure OpenAI в классических моделях Microsoft Foundry

Май 2026 г.

Концептуальные статьи GPT Realtime 2.0

Сервисы GPT Realtime Translate и GPT Realtime Whisper

Февраль 2026 г.

Выпущенные модели GPT-Realtime-1.5 и GPT-Audio-1.5

Декабрь 2025 г.

Модель GPT-image-1.5 теперь доступна

Автоматическое обновление модели распознавания речи (ASR)

Обновление модели Realtime-mini (система преобразования речи)

Обновление модели преобразования текста в речь

Октябрь 2025 г.

Поддержка API реального времени для SIP

Выпущена аудио-модель GPT-4o

GPT-image-1-mini

Фильтр содержимого обнаружения PII

Сентябрь 2025 г.

GPT-5-codex теперь доступен

Поддержка видео-обработки Sora

Август 2025 г.

Поддержка Sora конвертации изображений в видео

Публичная версия аудиомодели API для обработки в реальном времени

Подготовленный избыточный ресурс в стадии общей доступности (GA)

Доступные модели GPT-5

Новая версия модельного роутера

Июль 2025 г.

Обновление GPT-image-1 (предварительная версия)

Июнь 2025 г.

Выпущены новые модели codex-mini и o3-pro

Май 2025 г.

Выпущено поколение видео Sora (предварительная версия)

Подсветка для щитов запросов (предварительная версия)

Модельный маршрутизатор (предпросмотр)

Апрель 2025 г.

Поддержка API реального времени (предварительная версия) для WebRTC

GPT-image-1 выпущен (предварительная версия, ограниченный доступ)

Выпущенные модели o4-mini и o3

Выпущено GPT-4.1

Выпущены аудиомодели gpt-4o

Март 2025 г.

API ответов и модель предварительного просмотра использования компьютера

Provisioned spillover (preview) ru-RU: Подготовленное перераспределение (предварительный просмотр)

Указание конфигураций фильтрации содержимого

Февраль 2025 г.

Предварительная версия GPT-4.5

API хранимых завершений

Стандартные развертывания зоны данных o3-mini

Выпущен mini audio Gpt-4o

Январь 2025 г.

Выпущено o3-mini

Завершение звука GPT-4o

API реального времени GPT 2024-12-17

Декабрь 2024 г.

Модель причин o1, выпущенная для ограниченного доступа

Доступность региона

Настройка предпочтения (предварительная версия)

Хранимые завершения и дистилляция

GPT-4o 2024-11-20

Новый тип развертывания подготовленной зоны данных

Дальнейшие действия

Обратная связь

Дополнительные ресурсы