Azure модели рассуждений OpenAI

Модели Azure OpenAI для рассуждений предназначены для решения проблем и задач с повышенной концентрацией и возможностями. Эти модели тратят больше времени на обработку и понимание запроса пользователя, что делает их исключительно сильными в таких областях, как наука, программирование и математика по сравнению с предыдущими итерациями.

Ключевые возможности моделей рассуждений:

Сложное создание кода: способен создавать алгоритмы и обрабатывать сложные задачи программирования для поддержки разработчиков.
Расширенное решение проблем: идеально подходит для комплексных сеансов мозгового штурма и решения сложных задач.
Комплексное сравнение документов: идеально подходит для анализа контрактов, файлов дела или юридических документов для выявления тонких различий.
Инструкции и управление рабочими процессами: особенно эффективно для управления рабочими процессами, требующими более коротких контекстов.

Необходимые условия

Модель логического вывода OpenAI на основе Azure развернута.
Если вы используете примеры REST:
- Установите Azure CLI. Дополнительные сведения см. в разделе Install Azure CLI.
- Войдите с помощью az login, затем создайте токен предъявителя и сохраните его в переменной среды AZURE_OPENAI_AUTH_TOKEN.
```
az account get-access-token --resource https://cognitiveservices.azure.com --query accessToken -o tsv
```

Использование

В настоящее время эти модели не поддерживают тот же набор параметров , что и другие модели, использующие API завершения чата.

API завершения чата

using Azure.Identity;
using OpenAI;
using OpenAI.Chat;
using System.ClientModel.Primitives;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://ai.azure.com/.default");

ChatClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {

        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

ChatCompletionOptions options = new ChatCompletionOptions
{
    MaxOutputTokenCount = 100000
};

ChatCompletion completion = client.CompleteChat(
         new DeveloperChatMessage("You are a helpful assistant"),
         new UserChatMessage("Tell me about the bitter lesson")
    );

Console.WriteLine($"[ASSISTANT]: {completion.Content[0].Text}");

Microsoft Entra ID:

Если вы не знакомы с Microsoft Entra ID для аутентификации, ознакомьтесь с Как настроить Azure OpenAI в Microsoft Foundry Models для аутентификации с помощью Microsoft Entra ID.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.chat.completions.create(
  model="YOUR-DEPLOYMENT-NAME", # replace with your model deployment name
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

Ключ API:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
)

response = client.chat.completions.create(
  model="YOUR-DEPLOYMENT-NAME", # replace with your model deployment name
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
      "model": "gpt-5",
      "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "What steps should I think about when writing my first Python API?"}
      ],
      "max_completion_tokens": 1000
  }'

Вывод API завершения чата на Python:

{
  "id": "chatcmpl-AEj7pKFoiTqDPHuxOcirA9KIvf3yz",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "Writing your first Python API is an exciting step in developing software that can communicate with other applications. An API (Application Programming Interface) allows different software systems to interact with each other, enabling data exchange and functionality sharing. Here are the steps you should consider when creating your first Python API...truncated for brevity.",
        "refusal": null,
        "role": "assistant",
        "function_call": null,
        "tool_calls": null
      },
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "protected_material_code": {
          "filtered": false,
          "detected": false
        },
        "protected_material_text": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ],
  "created": 1728073417,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_503a95a7d8",
  "usage": {
    "completion_tokens": 1843,
    "prompt_tokens": 20,
    "total_tokens": 1863,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 448
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 0
    }
  },
  "prompt_filter_results": [
    {
      "prompt_index": 0,
      "content_filter_results": {
        "custom_blocklists": {
          "filtered": false
        },
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "jailbreak": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ]
}

Обоснование усилий

Примечание

Модели выводов имеют reasoning_tokens как часть completion_tokens_details в ответе модели. Это скрытые маркеры, которые не возвращаются в составе содержимого ответа сообщения, но используются моделью для создания окончательного ответа на запрос. reasoning_effort может быть задано значение low, mediumили high для всех моделей причин, кроме o1-mini. Чем выше параметр усилий, тем дольше модель будет тратить на обработку запроса, что обычно приводит к большему количеству reasoning_tokens.

Сообщения разработчика

Сообщения разработчика ("role": "developer") функционально совпадают с системным сообщением.

Добавление сообщения разработчика в предыдущий пример кода будет выглядеть следующим образом:


using Azure.Identity;
using OpenAI;
using OpenAI.Chat;
using System.ClientModel.Primitives;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://ai.azure.com/.default");

ChatClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {

        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

ChatCompletionOptions options = new ChatCompletionOptions
{
    ReasoningEffortLevel = ChatReasoningEffortLevel.Low,
    MaxOutputTokenCount = 100000
};

ChatCompletion completion = client.CompleteChat(
         new DeveloperChatMessage("You are a helpful assistant"),
         new UserChatMessage("Tell me about the bitter lesson")
    );

Console.WriteLine($"[ASSISTANT]: {completion.Content[0].Text}");

Microsoft Entra ID:

Если вы не знакомы с Microsoft Entra ID для проверки подлинности, см. Как настроить Azure OpenAI с проверкой подлинности Microsoft Entra ID.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
  DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(
  base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=token_provider,
)

response = client.chat.completions.create(
  model="YOUR-DEPLOYMENT-NAME",  # replace with your model deployment name
  messages=[
    {"role": "developer", "content": "You are a helpful assistant."},
    {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
  ],
  max_completion_tokens=5000,
  reasoning_effort="medium",  # low, medium, or high
)

print(response.model_dump_json(indent=2))

Ключ API:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
)

response = client.chat.completions.create(
    model="gpt-5-mini", # replace with the model deployment name of your o1 deployment.
    messages=[
        {"role": "developer","content": "You are a helpful assistant."}, # optional equivalent to a system message for reasoning models 
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000,
    reasoning_effort = "medium" # low, medium, or high
)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
      "model": "gpt-5",
      "messages": [
        {"role": "developer", "content": "You are a helpful assistant."},
          {"role": "user", "content": "What steps should I think about when writing my first Python API?"}
      ],
      "max_completion_tokens": 1000,
      "reasoning_effort": "medium"
  }'

Вывод API завершения чата Python:

{
  "id": "chatcmpl-CaODNsQOHoRLcb9JVSKYY1e2Iss5s",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "Here’s a practical, beginner‑friendly checklist to guide you through writing your first Python API, from idea to production.\n\n1) Clarify goals and constraints\n- Who will use it (internal team, public), what problems it solves, expected traffic, latency requirements.\n- Resources you’ll expose (users, orders, etc.) and core operations.\n- Non‑functional needs: security, compliance, uptime, scalability.\n\n2) Choose your API style\n- REST (most common for CRUD and simple integrations).\n- GraphQL (flexible queries, more complex to secure/monitor).\n- gRPC (high‑performance, strongly typed, good for service‑to‑service).\n- For a first API, REST + JSON is usually best.\n\n3) Design the contract first\n- Draft an OpenAPI/Swagger spec: endpoints, request/response schemas, status codes, error model.\n- Decide naming conventions, pagination, filtering, sorting.\n- Define consistent time/date format (ISO‑8601, UTC), ID format, and field casing.\n- Plan versioning strategy (e.g., /v1) and deprecation policy.\n\n4) Plan security and auth\n- Pick auth: API keys for simple internal use; OAuth2/JWT for user auth; mTLS for service‑to‑service.\n- CORS policy for browsers; HTTPS everywhere; security headers.\n- Validate all inputs; avoid leaking stack traces; define rate limits and quotas.\n\n5) Pick your Python stack\n- Frameworks: FastAPI (great typing, validation, auto docs), Flask (minimal), Django REST Framework (batteries included).\n- ASGI/WSGI server: Uvicorn or Gunicorn.\n- Data layer: PostgreSQL + SQLAlchemy/Django ORM; migrations with Alembic/Django migrations.\n- Caching: Redis (optional).\n- Background jobs: Celery/RQ (if needed).\n\n6) Set up the project\n- Create a virtual environment; choose dependency management (pip, Poetry).\n- Establish project structure (app, api, models, services, tests).\n- Add linting/formatting/type checks: black, isort, flake8, mypy; pre‑commit hooks.\n- Configuration via environment variables; secrets via a manager (not in code).\n\n7) Implement core functionality\n- Build endpoints that match your spec; keep business logic in a service layer, not in route handlers.\n- Schema validation (Pydantic with FastAPI, Marshmallow for Flask).\n- Consistent responses and errors; use clear status codes (201 create, 204 no content, 400/404/409/422, 500).\n- Pagination and filtering; idempotency for certain POST operations; ETags/conditional requests if useful.\n\n8) Error handling and an error model\n- Define a standard error body (code, message, details, correlation_id).\n- Log errors with context; don’t expose internal details to clients.\n\n9) Testing strategy\n- Unit tests for services/validators.\n- Integration tests for endpoints (pytest + httpx/requests) with a test database.\n- Contract tests to assert the API matches the OpenAPI spec.\n- Mock external services; measure coverage and focus on critical paths.\n\n10) Documentation and developer experience\n- Auto‑generated docs (FastAPI provides Swagger/ReDoc).\n- Write examples for each endpoint; onboarding and usage notes.\n- Keep a changelog and release notes.\n\n11) Observability and reliability\n- Structured logging (JSON), include request IDs/correlation IDs.\n- Metrics (requests, latency, error rates), health/readiness endpoints.\n- Tracing (OpenTelemetry) if you have multiple services.\n- Error reporting (Sentry or similar).\n\n12) Deployment and operations\n- Containerize with Docker; follow 12‑factor app principles.\n- CI/CD pipeline: run tests, build image, deploy, run migrations.\n- Choose hosting (Render, Fly.io, Railway, Heroku, AWS/GCP/Azure).\n- Configure scaling, connection pools, and timeouts; use a reverse proxy if needed.\n\n13) Performance and data concerns\n- Index your database; avoid N+1 queries; use connection pooling.\n- Load test key endpoints; profile hotspots.\n- Caching strategies where appropriate; consider async I/O for high‑concurrency workloads.\n\n14) Versioning and lifecycle management\n- Keep backward compatibility for minor changes; add fields rather than changing semantics.\n- Communicate deprecations; sunset old versions with a timeline.\n\n15) Governance, compliance, and safety\n- Handle PII correctly; data retention and audit logs if required.\n- Least‑privilege DB access; rotate secrets; review third‑party dependencies.\n\nBeginner‑friendly defaults\n- FastAPI + Pydantic + Uvicorn\n- PostgreSQL + SQLAlchemy + Alembic\n- pytest + httpx + coverage\n- black, isort, flake8, mypy, pre‑commit\n- Docker + simple CI (GitHub Actions) + a managed host\n\nCommon pitfalls to avoid\n- Inconsistent status codes or error formats.\n- Weak input validation and missing authentication.\n- Business logic inside route handlers (hard to test/maintain).\n- No migrations or tests; no logging/metrics.\n- Ignoring pagination and timezones; returning unbounded lists.\n\nIf you share whether it’s public vs internal, expected traffic, and preferred framework, I can tailor this to a concrete starter plan and recommended tools.",
        "refusal": null,
        "role": "assistant",
        "annotations": [],
        "audio": null,
        "function_call": null,
        "tool_calls": null
      },
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "protected_material_code": {
          "filtered": false,
          "detected": false
        },
        "protected_material_text": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ],
  "created": 1762788925,
  "model": "gpt-5-2025-08-07",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": null,
  "usage": {
    "completion_tokens": 2919,
    "prompt_tokens": 29,
    "total_tokens": 2948,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 1792,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    }
  },
  "prompt_filter_results": [
    {
      "prompt_index": 0,
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "jailbreak": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ]
}

Сводка по причинам

При использовании новейших моделей рассуждения с API ответов можно использовать параметр сводки рассуждений для получения сводок цепочки рассуждений модели.

Важно

Попытка извлечь сырой вывод с помощью методов, отличных от параметра сводки вывода, не поддерживается, может нарушить Политику допустимого использования и может привести к ограничению или приостановке при обнаружении.

using OpenAI;
using OpenAI.Responses;
using System.ClientModel.Primitives;
using Azure.Identity;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://ai.azure.com/.default");

OpenAIResponseClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {
        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

OpenAIResponse response = await client.CreateResponseAsync(
    userInputText: "What's the optimal strategy to win at poker?",
    new ResponseCreationOptions()
    {
        ReasoningOptions = new ResponseReasoningOptions()
        {
            ReasoningEffortLevel = ResponseReasoningEffortLevel.High,
            ReasoningSummaryVerbosity = ResponseReasoningSummaryVerbosity.Auto,
        },
    });

// Get the reasoning summary from the first OutputItem (ReasoningResponseItem)
Console.WriteLine("=== Reasoning Summary ===");
foreach (var item in response.OutputItems)
{
    if (item is ReasoningResponseItem reasoningItem)
    {
        foreach (var summaryPart in reasoningItem.SummaryParts)
        {
            if (summaryPart is ReasoningSummaryTextPart textPart)
            {
                Console.WriteLine(textPart.Text);
            }
        }
    }
}

Console.WriteLine("\n=== Assistant Response ===");
// Get the assistant's output
Console.WriteLine(response.GetOutputText());

Вам потребуется обновить клиентскую библиотеку OpenAI для доступа к последним параметрам.

pip install openai --upgrade

Microsoft Entra ID:

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.responses.create(
    input="Tell me about the curious case of neural text degeneration",
    model="gpt-5", # replace with model deployment name
    reasoning={
        "effort": "medium",
        "summary": "auto" # auto, concise, or detailed, gpt-5 series do not support concise 
    },
    text={
        "verbosity": "low" # New with GPT-5 models
    }
)

print(response.model_dump_json(indent=2))

Ключ API:

import os
from openai import OpenAI

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=os.getenv("AZURE_OPENAI_API_KEY")  
)

response = client.responses.create(
    input="Tell me about the curious case of neural text degeneration",
    model="gpt-5", # replace with model deployment name
    reasoning={
        "effort": "medium",
        "summary": "auto" # auto, concise, or detailed, gpt-5 series do not support concise 
    },
    text={
        "verbosity": "low" # New with GPT-5 models
    }
)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
 -d '{
     "model": "gpt-5",
     "input": "Tell me about the curious case of neural text degeneration",
     "reasoning": {"summary": "auto"},
     "text": {"verbosity": "low"}
    }'

{
  "id": "resp_689a0a3090808190b418acf12b5cc40e0fc1c31bc69d8719",
  "created_at": 1754925616.0,
  "error": null,
  "incomplete_details": null,
  "instructions": null,
  "metadata": {},
  "model": "gpt-5",
  "object": "response",
  "output": [
    {
      "id": "rs_689a0a329298819095d90c34dc9b80db0fc1c31bc69d8719",
      "summary": [],
      "type": "reasoning",
      "encrypted_content": null,
      "status": null
    },
    {
      "id": "msg_689a0a33009881909fe0fcf57cba30200fc1c31bc69d8719",
      "content": [
        {
          "annotations": [],
          "text": "Neural text degeneration refers to the ways language models produce low-quality, repetitive, or vacuous text, especially when generating long outputs. It’s “curious” because models trained to imitate fluent text can still spiral into unnatural patterns. Key aspects:\n\n- Repetition and loops: The model repeats phrases or sentences (“I’m sorry, but...”), often due to high-confidence tokens reinforcing themselves.\n- Loss of specificity: Vague, generic, agreeable text that avoids concrete details.\n- Drift and contradiction: The output gradually departs from context or contradicts itself over long spans.\n- Exposure bias: During training, models see gold-standard prefixes; at inference, they must condition on their own imperfect outputs, compounding errors.\n- Likelihood vs. quality mismatch: Maximizing token-level likelihood doesn’t align with human preferences for diversity, coherence, or factuality.\n- Token over-optimization: Frequent, safe tokens get overused; certain phrases become attractors.\n- Entropy collapse: With greedy or low-temperature decoding, the distribution narrows too much, causing repetitive, low-entropy text.\n- Length and beam search issues: Larger beams or long generations can favor bland, repetitive sequences (the “likelihood trap”).\n\nCommon mitigations:\n\n- Decoding strategies:\n  - Top-k, nucleus (top-p), or temperature sampling to keep sufficient entropy.\n  - Typical sampling and locally typical sampling to avoid dull but high-probability tokens.\n  - Repetition penalties, presence/frequency penalties, no-repeat n-grams.\n  - Contrastive decoding (and variants like DoLa) to filter generic continuations.\n  - Min/max length, stop sequences, and beam search with diversity/penalties.\n\n- Training and alignment:\n  - RLHF/DPO to better match human preferences for non-repetitive, helpful text.\n  - Supervised fine-tuning on high-quality, diverse data; instruction tuning.\n  - Debiasing objectives (unlikelihood training) to penalize repetition and banned patterns.\n  - Mixture-of-denoisers or latent planning to improve long-range coherence.\n\n- Architectural and planning aids:\n  - Retrieval-augmented generation to ground outputs.\n  - Tool use and structured prompting to constrain drift.\n  - Memory and planning modules, hierarchical decoding, or sentence-level control.\n\n- Prompting tips:\n  - Ask for concise answers, set token limits, and specify structure.\n  - Provide concrete constraints or content to reduce generic filler.\n  - Use “say nothing if uncertain” style instructions to avoid vacuity.\n\nRepresentative papers/terms to search:\n- Holtzman et al., “The Curious Case of Neural Text Degeneration” (2020): nucleus sampling.\n- Welleck et al., “Neural Text Degeneration with Unlikelihood Training.”\n- Li et al., “A Contrastive Framework for Decoding.”\n- Su et al., “DoLa: Decoding by Contrasting Layers.”\n- Meister et al., “Typical Decoding.”\n- Ouyang et al., “Training language models to follow instructions with human feedback.”\n\nIn short, degeneration arises from a mismatch between next-token likelihood and human preferences plus decoding choices; careful decoding, training objectives, and grounding help prevent it.",
          "type": "output_text",
          "logprobs": null
        }
      ],
      "role": "assistant",
      "status": "completed",
      "type": "message"
    }
  ],
  "parallel_tool_calls": true,
  "temperature": 1.0,
  "tool_choice": "auto",
  "tools": [],
  "top_p": 1.0,
  "background": false,
  "max_output_tokens": null,
  "max_tool_calls": null,
  "previous_response_id": null,
  "prompt": null,
  "prompt_cache_key": null,
  "reasoning": {
    "effort": "minimal",
    "generate_summary": null,
    "summary": "detailed"
  },
  "safety_identifier": null,
  "service_tier": "default",
  "status": "completed",
  "text": {
    "format": {
      "type": "text"
    }
  },
  "top_logprobs": null,
  "truncation": "disabled",
  "usage": {
    "input_tokens": 16,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 657,
    "output_tokens_details": {
      "reasoning_tokens": 0
    },
    "total_tokens": 673
  },
  "user": null,
  "content_filters": null,
  "store": true
}

Примечание

Даже если этот параметр включен, сводки по соображениям не гарантируются для каждого шага или запроса. Это ожидаемое поведение.

Python Lark

Модели рассуждений серии GPT-5 способны инициировать новый custom_tool, называемый lark_tool. Это средство основано на Python lark и может использоваться для более гибкого ограничения выходных данных модели.

API для ответов

{
  "model": "gpt-5-2025-08-07",
  "input": "please calculate the area of a circle with radius equal to the number of 'r's in strawberry",
  "tools": [
    {
      "type": "custom",
      "name": "lark_tool",
      "format": {
        "type": "grammar",
        "syntax": "lark",
        "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
      }
    }
  ],
  "tool_choice": "required"
}

Microsoft Entra ID:

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.responses.create(  
    model="gpt-5",  # replace with your model deployment name  
    tools=[  
        {  
            "type": "custom",
            "name": "lark_tool",
            "format": {
                "type": "grammar",
                "syntax": "lark",
                "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
            }
        }  
    ],  
    input=[{"role": "user", "content": "Please calculate the area of a circle with radius equal to the number of 'r's in strawberry"}],  
)  

print(response.model_dump_json(indent=2))

Ключ API:

import os
from openai import OpenAI

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=os.getenv("AZURE_OPENAI_API_KEY")  
)

response = client.responses.create(  
    model="gpt-5",  # replace with your model deployment name  
    tools=[  
        {  
            "type": "custom",
            "name": "lark_tool",
            "format": {
                "type": "grammar",
                "syntax": "lark",
                "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
            }
        }  
    ],  
    input=[{"role": "user", "content": "Please calculate the area of a circle with radius equal to the number of 'r's in strawberry"}],  
)  

print(response.model_dump_json(indent=2))

Выходные данные:

{
  "id": "resp_689a0cf927408190b8875915747667ad01c936c6ffb9d0d3",
  "created_at": 1754926332.0,
  "error": null,
  "incomplete_details": null,
  "instructions": null,
  "metadata": {},
  "model": "gpt-5",
  "object": "response",
  "output": [
    {
      "id": "rs_689a0cfd1c888190a2a67057f471b5cc01c936c6ffb9d0d3",
      "summary": [],
      "type": "reasoning",
      "encrypted_content": null,
      "status": null
    },
    {
      "id": "msg_689a0d00e60c81908964e5e9b2d6eeb501c936c6ffb9d0d3",
      "content": [
        {
          "annotations": [],
          "text": "“strawberry” has 3 r’s, so the radius is 3.\nArea = πr² = π × 3² = 9π ≈ 28.27 square units.",
          "type": "output_text",
          "logprobs": null
        }
      ],
      "role": "assistant",
      "status": "completed",
      "type": "message"
    }
  ],
  "parallel_tool_calls": true,
  "temperature": 1.0,
  "tool_choice": "auto",
  "tools": [
    {
      "name": "lark_tool",
      "parameters": null,
      "strict": null,
      "type": "custom",
      "description": null,
      "format": {
        "type": "grammar",
        "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/",
        "syntax": "lark"
      }
    }
  ],
  "top_p": 1.0,
  "background": false,
  "max_output_tokens": null,
  "max_tool_calls": null,
  "previous_response_id": null,
  "prompt": null,
  "prompt_cache_key": null,
  "reasoning": {
    "effort": "medium",
    "generate_summary": null,
    "summary": null
  },
  "safety_identifier": null,
  "service_tier": "default",
  "status": "completed",
  "text": {
    "format": {
      "type": "text"
    }
  },
  "top_logprobs": null,
  "truncation": "disabled",
  "usage": {
    "input_tokens": 139,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 240,
    "output_tokens_details": {
      "reasoning_tokens": 192
    },
    "total_tokens": 379
  },
  "user": null,
  "content_filters": null,
  "store": true
}

Завершение чата

{
  "messages": [
    {
      "role": "user",
      "content": "Which one is larger, 42 or 0?"
    }
  ],
  "tools": [
    {
      "type": "custom",
      "name": "custom_tool",
      "custom": {
        "name": "lark_tool",
        "format": {
          "type": "grammar",
          "grammar": {
            "syntax": "lark",
            "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
          }
        }
      }
    }
  ],
  "tool_choice": "required",
  "model": "gpt-5-2025-08-07"
}

Доступность

Доступность региона

Модель	Регион	Ограниченный доступ
`gpt-chat-latest`	Глобальный стандарт: Восточная часть США2 Центральная Швеция Южная часть США Центральная Польша	Запрос на доступ не требуется.
`gpt-5.5`	Доступность модели	Запрос на доступ не требуется. Запрос квоты, необходимый в зависимости от уровня квоты. По умолчанию подписки уровня 5 и 6 имеют квоту.
`gpt-5.4-mini`	Доступность модели	Запрос на доступ не требуется.
`gpt-5.4-nano`	Доступность модели	Запрос на доступ не требуется.
`gpt-5.4-pro`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5.4`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5.3-codex`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5.2-codex`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5.2`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5.1-codex-max`	Доступность модели	Доступ больше не ограничен для этой модели.
`gpt-5.1`	Доступность модели	Доступ больше не ограничен для этой модели.
`gpt-5.1-chat`	Доступность модели	Запрос на доступ не требуется.
`gpt-5.1-codex`	Доступность модели	Доступ больше не ограничен для этой модели.
`gpt-5.1-codex-mini`	Доступность модели	Запрос на доступ не требуется.
`gpt-5-pro`	Доступность модели	Доступ больше не ограничен для этой модели.
`gpt-5-codex`	Доступность модели	Доступ больше не ограничен для этой модели.
`gpt-5`	Доступность модели	Доступ больше не ограничен для этой модели.
`gpt-5-mini`	Доступность модели	Запрос на доступ не требуется.
`gpt-5-nano`	Доступность модели	Запрос на доступ не требуется.
`o3-pro`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`codex-mini`	Доступность модели	Запрос на доступ не требуется.
`o4-mini`	Доступность модели	Запрос доступа не требуется для использования основных возможностей этой модели. Запрос доступа: функция сводки рассуждений для o4-mini
`o3`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа
`o3-mini`	Доступность модели.	Доступ больше не ограничен для этой модели.
`o1`	Доступность модели.	Доступ больше не ограничен для этой модели.

Функция	gpt-5.5, 2026-04-24	gpt-5.4-nano, 2026-03-17	gpt-5.4-mini, 2026-03-17	gpt-5.4-pro	gpt-5.4, 2026-03-05	gpt-5.3-codex, 2026-02-24	gpt-5.2-codex, 2026-01-14	gpt-5.2, 2025-12-11	gpt-5.1-codex-max, 2025-12-04	gpt-5.1, 2025-11-13	gpt-5.1-chat, 2025-11-13	gpt-5.1-codex, 2025-11-13	gpt-5.1-codex-mini, 2025-11-13	gpt-5-pro, 2025-10-06	gpt-5-codex, 2025-09-011	gpt-5, 2025-08-07	gpt-5-mini, 2025-08-07	gpt-5-nano, 2025-08-07
Сообщения разработчика	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Структурированные выходные данные	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Окно контекста	1,050,000 Вход: 922,000 Выход: 128,000	400,000 Входные данные: 272 000 Выход: 128 000	400,000 Входные данные: 272 000 Вывод: 128 000	1,050,000 Вход: 922,000 Выход: 128,000	1,050,000 Ввод: 922,000 Выход: 128,000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выход: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	128,000 Входные данные: 111 616 Вывод: 16384	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000
Аргументирование усилий⁷	✅	✅	✅	✅	✅	✅	✅	✅	✅ ⁶	✅ ⁴	✅	✅	✅	✅ ⁵	✅	✅	✅	✅
Ввод изображения	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
API завершения чата	✅	✅	✅	-	✅	-	-	✅	-	✅	✅	-	-	-	-	✅	✅	✅
API для ответов	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Функции и инструменты	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Вызовы параллельных инструментов¹	✅	✅	✅	-	✅	✅	✅	✅	✅	✅	✅	✅	✅	-	✅	✅	✅	✅
`max_completion_tokens` ²	✅	✅	✅	-	✅	-	-	✅	-	✅	✅	-	-	-	-	✅	✅	✅
Системные сообщения ³	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Сводка по причинам	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Стриминг	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	-	✅	✅	✅	✅

1 Вызовы параллельных инструментов не поддерживаются, если reasoning_effort установлено значение minimal

² Модели причин будут работать только с max_completion_tokens параметром при использовании API завершения чата. Используйте max_output_tokens с API ответов.

³ Последние модели рассуждений поддерживают системные сообщения для облегчения миграции. Не следует использовать как сообщение разработчика, так и системное сообщение в одном запросе API.

По умолчанию используется значение ⁴gpt-5.1reasoning_effortnone. При переходе с предыдущих моделей рассуждений на gpt-5.1 помните, что может потребоваться обновить ваш код, чтобы явно указать уровень reasoning_effort, если требуется задействовать reasoning_effort.

⁵gpt-5-pro поддерживает только reasoning_efforthigh, это значение по умолчанию, даже если оно не передается явно в модель.

⁶gpt-5.1-codex-max добавляет поддержку нового reasoning_effort уровня xhigh, на котором можно установить максимальные усилия для рассуждений.

⁷gpt-5.2, gpt-5.1, gpt-5.1-codex, gpt-5.1-codex-max и gpt-5.1-codex-mini поддерживают 'None' как значение для параметра reasoning_effort. Если вы хотите использовать эти модели для создания ответов без аргументов, задайте .reasoning_effort='None' Этот параметр может увеличить скорость.

НОВЫЕ функции рассуждения GPT-5

Функция	Описание
`reasoning_effort`	`xhigh` поддерживается только в `gpt-5.1-codex-max` `minimal` поддерживается только оригинальными моделями рассуждений GPT-5. `minimal` не поддерживается с `gpt-5.1` или более новой версией ^* Параметры: `none`, , `minimallowmedium`, `highxhigh`
`verbosity`	Новый параметр, предоставляющий более детализированный контроль над степенью краткости выходных данных модели. Параметры:`low`, `medium`, `high`.
`preamble`	Модели определения последовательности GPT-5 имеют возможность тратить дополнительное время на "мышление" перед выполнением вызова функции или инструмента. Когда такое планирование происходит, модель может получить представление о шагах планирования в ответе модели с помощью нового объекта, называемого `preamble` объектом. Создание преамбул в ответе модели не гарантируется, хотя вы можете стимулировать модель, используя параметр `instructions` и передавая содержимое, например: "Вы ДОЛЖНЫ тщательно планировать перед каждым вызовом функции." Всегда выводите ваш план пользователю перед вызовом любой функции.
разрешенные средства	Можно указать несколько инструментов `tool_choice` вместо только одного.
настраиваемый тип инструмента	Включает выходные данные необработанного текста (не json)
`lark_tool`	Позволяет использовать некоторые возможности Python lark для более гибкого ограничения ответов модели

^* gpt-5-codex кроме того, не поддерживается reasoning_effortminimal.

Для получения дополнительных сведений мы также рекомендуем прочитать руководство OpenAI по созданию запросов на GPT-5 и их руководство по функциям GPT-5.

Функция	codex-mini, 2025-05-16	o3-pro, 2025-06-10	o4-mini, 2025-04-16	o3, 2025-04-16	o3-mini, 2025-01-31	o1, 2024-12-17
Сообщения разработчика	✅	✅	✅	✅	✅	✅
Структурированные выходные данные	✅	✅	✅	✅	✅	✅
Окно контекста	Входные данные: 200 000 Выход: 100 000	Ввод: 200 000 Выходные данные: 100 000	Входные данные: 200 000 Выход: 100 000	Входные данные: 200 000 Выходные данные: 100 000	Входные данные: 200 000 Выходные данные: 100 000	Входные данные: 200 000 Выходные данные: 100 000
Усилия на размышление	✅	✅	✅	✅	✅	✅
Ввод изображения	✅	✅	✅	✅	-	✅
API завершения чата	-	-	✅	✅	✅	✅
API для ответов	✅	✅	✅	✅	✅	✅
Функции и инструменты	✅	✅	✅	✅	✅	✅
Параллельные вызовы инструментов	-	-	-	-	-	-
`max_completion_tokens` ¹	✅	✅	✅	✅	✅	✅
Системные сообщения ²	✅	✅	✅	✅	✅	✅
Сводка по причинам	✅	-	✅	✅	-	-
Потоковая передача ³	✅	-	✅	✅	✅	-

¹ Модели причин будут работать только с max_completion_tokens параметром при использовании API завершения чата. Используйте max_output_tokens с API ответов.

² Последняя модель серии o^* поддерживает системные сообщения, чтобы упростить миграцию. При использовании системного сообщения с o4-mini, o3o3-miniи o1 оно будет рассматриваться как сообщение разработчика. Не следует использовать как сообщение разработчика, так и системное сообщение в одном запросе API. ³ Потоковая передача для o3 только ограниченного доступа.

Примечание

Чтобы избежать времени ожидания, рекомендуется использовать фоновыйo3-proрежим.
o3-pro в настоящее время не поддерживает генерацию изображений.

Не поддерживается

В настоящее время следующие возможности не поддерживаются в моделях рассуждений:

temperature, top_p, presence_penaltyfrequency_penaltylogprobstop_logprobslogit_biasmax_tokens

Выходные данные Markdown

По умолчанию модели o3-mini и o1 не будут генерировать выходные данные, которые включают форматирование markdown. Распространенный вариант использования, когда это поведение нежелательно, если требуется, чтобы модель выводила код, содержащийся в блоке кода Markdown. При создании выходных данных без форматирования markdown вы теряете такие функции, как выделение синтаксиса и блоки кода для копирования в интерактивных игровых площадках. Чтобы переопределить это новое поведение по умолчанию и поощрять включение markdown в ответы модели, добавьте строку Formatting re-enabled в начало сообщения разработчика.

Добавление Formatting re-enabled в начало сообщения разработчика не гарантирует, что модель будет использовать форматирование в стиле markdown в ответе, а только повышает вероятность этого. Мы обнаружили в результате внутреннего тестирования, что Formatting re-enabled менее эффективно само по себе с моделью o1, чем с o3-mini.

Чтобы повысить производительность Formatting re-enabled , можно дополнительно увеличить начало сообщения разработчика, которое часто приведет к нужным выходным данным. Вместо того чтобы просто добавить Formatting re-enabled в начало сообщения разработчика, можно поэкспериментировать с добавлением более описательных начальных инструкций, таких как один из приведенных ниже примеров:

Formatting re-enabled - please enclose code blocks with appropriate markdown tags.
Formatting re-enabled - code output should be wrapped in markdown.

В зависимости от ожидаемых выходных данных может потребоваться настроить исходное сообщение разработчика для конкретного варианта использования.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-06

Azure модели рассуждений OpenAI

Необходимые условия

Использование

API завершения чата

Обоснование усилий

Сообщения разработчика

Сводка по причинам

Python Lark

API для ответов

Завершение чата

Доступность

Доступность региона

Поддержка API и функций

НОВЫЕ функции рассуждения GPT-5

Не поддерживается

Выходные данные Markdown

Обратная связь

Дополнительные ресурсы