Модели логического вывода Azure OpenAI

Модели причин Azure OpenAI предназначены для решения задач по устранению причин и решению проблем с повышенным фокусом и возможностями. Эти модели тратят больше времени на обработку и понимание запроса пользователя, что делает их исключительно сильными в таких областях, как наука, программирование и математика по сравнению с предыдущими итерациями.

Ключевые возможности моделей рассуждений:

Сложное создание кода: способен создавать алгоритмы и обрабатывать сложные задачи программирования для поддержки разработчиков.
Расширенное решение проблем: идеально подходит для комплексных сеансов мозгового штурма и решения сложных задач.
Комплексное сравнение документов: идеально подходит для анализа контрактов, файлов дела или юридических документов для выявления тонких различий.
Управление инструкциями и рабочими процессами: особенно эффективно для тех рабочих процессов, которые требуют более коротких контекстов.

Использование

В настоящее время эти модели не поддерживают тот же набор параметров, что и другие модели, использующие API завершения чата.

API завершения чата

using Azure.Identity;
using OpenAI;
using OpenAI.Chat;
using System.ClientModel.Primitives;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://cognitiveservices.azure.com/.default");

ChatClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {

        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

ChatCompletionOptions options = new ChatCompletionOptions
{
    MaxOutputTokenCount = 100000
};

ChatCompletion completion = client.CompleteChat(
         new DeveloperChatMessage("You are a helpful assistant"),
         new UserChatMessage("Tell me about the bitter lesson")
    );

Console.WriteLine($"[ASSISTANT]: {completion.Content[0].Text}");

Идентификатор Microsoft Entra:

Если вы не знакомы с использованием идентификатора Microsoft Entra для проверки подлинности, см. инструкции по настройке Azure OpenAI в Microsoft Foundry Models с проверкой подлинности Microsoft Entra ID.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.chat.completions.create(
    model="o1-new", # replace with your model deployment name 
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

Ключ API:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
)

response = client.chat.completions.create(
    model="gpt-5-mini", # replace with the model deployment name of your o1 deployment.
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
      "model": "gpt-5",
      "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "What steps should I think about when writing my first Python API?"}
      ],
      "max_completion_tokens": 1000
  }'

Выходные данные API завершения чата Python:

{
  "id": "chatcmpl-AEj7pKFoiTqDPHuxOcirA9KIvf3yz",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "Writing your first Python API is an exciting step in developing software that can communicate with other applications. An API (Application Programming Interface) allows different software systems to interact with each other, enabling data exchange and functionality sharing. Here are the steps you should consider when creating your first Python API...truncated for brevity.",
        "refusal": null,
        "role": "assistant",
        "function_call": null,
        "tool_calls": null
      },
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "protected_material_code": {
          "filtered": false,
          "detected": false
        },
        "protected_material_text": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ],
  "created": 1728073417,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_503a95a7d8",
  "usage": {
    "completion_tokens": 1843,
    "prompt_tokens": 20,
    "total_tokens": 1863,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 448
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 0
    }
  },
  "prompt_filter_results": [
    {
      "prompt_index": 0,
      "content_filter_results": {
        "custom_blocklists": {
          "filtered": false
        },
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "jailbreak": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ]
}

Усилия в рассуждениях

Замечание

Модели рассуждения имеют reasoning_tokens в качестве части completion_tokens_details в ответе модели. Это скрытые маркеры, которые не возвращаются в составе содержимого ответа сообщения, но используются моделью для создания окончательного ответа на запрос. reasoning_effort может быть задано значение low, mediumили high для всех моделей причин, кроме o1-mini. Модели причин GPT-5 поддерживают новый reasoning_effort параметр minimal. Чем выше параметр усилий, тем дольше модель будет обрабатывать запрос, что обычно приводит к большему количеству reasoning_tokens.

Сообщения разработчика

Функциональные сообщения "role": "developer" разработчика совпадают с системным сообщением.

Добавление сообщения разработчика в предыдущий пример кода будет выглядеть следующим образом:


using Azure.Identity;
using OpenAI;
using OpenAI.Chat;
using System.ClientModel.Primitives;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://cognitiveservices.azure.com/.default");

ChatClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {

        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

ChatCompletionOptions options = new ChatCompletionOptions
{
    ReasoningEffortLevel = ChatReasoningEffortLevel.Low,
    MaxOutputTokenCount = 100000
};

ChatCompletion completion = client.CompleteChat(
         new DeveloperChatMessage("You are a helpful assistant"),
         new UserChatMessage("Tell me about the bitter lesson")
    );

Console.WriteLine($"[ASSISTANT]: {completion.Content[0].Text}");

Идентификатор Microsoft Entra:

Если вы не знакомы с использованием идентификатора Microsoft Entra для проверки подлинности, см. инструкции по настройке Azure OpenAI с проверкой подлинности Microsoft Entra ID.

jupy

Ключ API:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
)

response = client.chat.completions.create(
    model="gpt-5-mini", # replace with the model deployment name of your o1 deployment.
    messages=[
        {"role": "developer","content": "You are a helpful assistant."}, # optional equivalent to a system message for reasoning models 
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000,
    reasoning_effort = "medium" # low, medium, or high
)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
      "model": "gpt-5",
      "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "What steps should I think about when writing my first Python API?"}
      ],
      "max_completion_tokens": 1000,
      "reasoning_effort": "medium"
  }'

Выходные данные API завершения чата Python:

{
  "id": "chatcmpl-CaODNsQOHoRLcb9JVSKYY1e2Iss5s",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "Here’s a practical, beginner‑friendly checklist to guide you through writing your first Python API, from idea to production.\n\n1) Clarify goals and constraints\n- Who will use it (internal team, public), what problems it solves, expected traffic, latency requirements.\n- Resources you’ll expose (users, orders, etc.) and core operations.\n- Non‑functional needs: security, compliance, uptime, scalability.\n\n2) Choose your API style\n- REST (most common for CRUD and simple integrations).\n- GraphQL (flexible queries, more complex to secure/monitor).\n- gRPC (high‑performance, strongly typed, good for service‑to‑service).\n- For a first API, REST + JSON is usually best.\n\n3) Design the contract first\n- Draft an OpenAPI/Swagger spec: endpoints, request/response schemas, status codes, error model.\n- Decide naming conventions, pagination, filtering, sorting.\n- Define consistent time/date format (ISO‑8601, UTC), ID format, and field casing.\n- Plan versioning strategy (e.g., /v1) and deprecation policy.\n\n4) Plan security and auth\n- Pick auth: API keys for simple internal use; OAuth2/JWT for user auth; mTLS for service‑to‑service.\n- CORS policy for browsers; HTTPS everywhere; security headers.\n- Validate all inputs; avoid leaking stack traces; define rate limits and quotas.\n\n5) Pick your Python stack\n- Frameworks: FastAPI (great typing, validation, auto docs), Flask (minimal), Django REST Framework (batteries included).\n- ASGI/WSGI server: Uvicorn or Gunicorn.\n- Data layer: PostgreSQL + SQLAlchemy/Django ORM; migrations with Alembic/Django migrations.\n- Caching: Redis (optional).\n- Background jobs: Celery/RQ (if needed).\n\n6) Set up the project\n- Create a virtual environment; choose dependency management (pip, Poetry).\n- Establish project structure (app, api, models, services, tests).\n- Add linting/formatting/type checks: black, isort, flake8, mypy; pre‑commit hooks.\n- Configuration via environment variables; secrets via a manager (not in code).\n\n7) Implement core functionality\n- Build endpoints that match your spec; keep business logic in a service layer, not in route handlers.\n- Schema validation (Pydantic with FastAPI, Marshmallow for Flask).\n- Consistent responses and errors; use clear status codes (201 create, 204 no content, 400/404/409/422, 500).\n- Pagination and filtering; idempotency for certain POST operations; ETags/conditional requests if useful.\n\n8) Error handling and an error model\n- Define a standard error body (code, message, details, correlation_id).\n- Log errors with context; don’t expose internal details to clients.\n\n9) Testing strategy\n- Unit tests for services/validators.\n- Integration tests for endpoints (pytest + httpx/requests) with a test database.\n- Contract tests to assert the API matches the OpenAPI spec.\n- Mock external services; measure coverage and focus on critical paths.\n\n10) Documentation and developer experience\n- Auto‑generated docs (FastAPI provides Swagger/ReDoc).\n- Write examples for each endpoint; onboarding and usage notes.\n- Keep a changelog and release notes.\n\n11) Observability and reliability\n- Structured logging (JSON), include request IDs/correlation IDs.\n- Metrics (requests, latency, error rates), health/readiness endpoints.\n- Tracing (OpenTelemetry) if you have multiple services.\n- Error reporting (Sentry or similar).\n\n12) Deployment and operations\n- Containerize with Docker; follow 12‑factor app principles.\n- CI/CD pipeline: run tests, build image, deploy, run migrations.\n- Choose hosting (Render, Fly.io, Railway, Heroku, AWS/GCP/Azure).\n- Configure scaling, connection pools, and timeouts; use a reverse proxy if needed.\n\n13) Performance and data concerns\n- Index your database; avoid N+1 queries; use connection pooling.\n- Load test key endpoints; profile hotspots.\n- Caching strategies where appropriate; consider async I/O for high‑concurrency workloads.\n\n14) Versioning and lifecycle management\n- Keep backward compatibility for minor changes; add fields rather than changing semantics.\n- Communicate deprecations; sunset old versions with a timeline.\n\n15) Governance, compliance, and safety\n- Handle PII correctly; data retention and audit logs if required (GDPR/CCPA).\n- Least‑privilege DB access; rotate secrets; review third‑party dependencies.\n\nBeginner‑friendly defaults\n- FastAPI + Pydantic + Uvicorn\n- PostgreSQL + SQLAlchemy + Alembic\n- pytest + httpx + coverage\n- black, isort, flake8, mypy, pre‑commit\n- Docker + simple CI (GitHub Actions) + a managed host\n\nCommon pitfalls to avoid\n- Inconsistent status codes or error formats.\n- Weak input validation and missing authentication.\n- Business logic inside route handlers (hard to test/maintain).\n- No migrations or tests; no logging/metrics.\n- Ignoring pagination and timezones; returning unbounded lists.\n\nIf you share whether it’s public vs internal, expected traffic, and preferred framework, I can tailor this to a concrete starter plan and recommended tools.",
        "refusal": null,
        "role": "assistant",
        "annotations": [],
        "audio": null,
        "function_call": null,
        "tool_calls": null
      },
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "protected_material_code": {
          "filtered": false,
          "detected": false
        },
        "protected_material_text": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ],
  "created": 1762788925,
  "model": "gpt-5-2025-08-07",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": null,
  "usage": {
    "completion_tokens": 2919,
    "prompt_tokens": 29,
    "total_tokens": 2948,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 1792,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    }
  },
  "prompt_filter_results": [
    {
      "prompt_index": 0,
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "jailbreak": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ]
}

Сводка по причинам

При использовании последних моделей рассуждений с API ответов можно использовать параметр сводной сводки по поводу для получения сводок цепочки мысли модели.

Это важно

Попытка извлечь необработанные рассуждения с помощью методов, отличных от параметра сводки рассуждений, не поддерживается, может нарушить политику допустимого использования и привести к ограничению или приостановке при обнаружении.

using OpenAI;
using OpenAI.Responses;
using System.ClientModel.Primitives;
using Azure.Identity;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://cognitiveservices.azure.com/.default");

OpenAIResponseClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {
        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

OpenAIResponse response = await client.CreateResponseAsync(
    userInputText: "What's the optimal strategy to win at poker?",
    new ResponseCreationOptions()
    {
        ReasoningOptions = new ResponseReasoningOptions()
        {
            ReasoningEffortLevel = ResponseReasoningEffortLevel.High,
            ReasoningSummaryVerbosity = ResponseReasoningSummaryVerbosity.Auto,
        },
    });

// Get the reasoning summary from the first OutputItem (ReasoningResponseItem)
Console.WriteLine("=== Reasoning Summary ===");
foreach (var item in response.OutputItems)
{
    if (item is ReasoningResponseItem reasoningItem)
    {
        foreach (var summaryPart in reasoningItem.SummaryParts)
        {
            if (summaryPart is ReasoningSummaryTextPart textPart)
            {
                Console.WriteLine(textPart.Text);
            }
        }
    }
}

Console.WriteLine("\n=== Assistant Response ===");
// Get the assistant's output
Console.WriteLine(response.GetOutputText());

Вам потребуется обновить клиентскую библиотеку OpenAI для доступа к последним параметрам.

pip install openai --upgrade

Идентификатор Microsoft Entra:

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.responses.create(
    input="Tell me about the curious case of neural text degeneration",
    model="gpt-5", # replace with model deployment name
    reasoning={
        "effort": "medium",
        "summary": "auto" # auto, concise, or detailed, gpt-5 series do not support concise 
    },
    text={
        "verbosity": "low" # New with GPT-5 models
    }
)

print(response.model_dump_json(indent=2))

Ключ API:

import os
from openai import OpenAI

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=os.getenv("AZURE_OPENAI_API_KEY")  
)

response = client.responses.create(
    input="Tell me about the curious case of neural text degeneration",
    model="gpt-5", # replace with model deployment name
    reasoning={
        "effort": "medium",
        "summary": "auto" # auto, concise, or detailed, gpt-5 series do not support concise 
    },
    text={
        "verbosity": "low" # New with GPT-5 models
    }
)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
 -d '{
     "model": "gpt-5",
     "input": "Tell me about the curious case of neural text degeneration",
     "reasoning": {"summary": "auto"},
     "text": {"verbosity": "low"}
    }'

{
  "id": "resp_689a0a3090808190b418acf12b5cc40e0fc1c31bc69d8719",
  "created_at": 1754925616.0,
  "error": null,
  "incomplete_details": null,
  "instructions": null,
  "metadata": {},
  "model": "gpt-5",
  "object": "response",
  "output": [
    {
      "id": "rs_689a0a329298819095d90c34dc9b80db0fc1c31bc69d8719",
      "summary": [],
      "type": "reasoning",
      "encrypted_content": null,
      "status": null
    },
    {
      "id": "msg_689a0a33009881909fe0fcf57cba30200fc1c31bc69d8719",
      "content": [
        {
          "annotations": [],
          "text": "Neural text degeneration refers to the ways language models produce low-quality, repetitive, or vacuous text, especially when generating long outputs. It’s “curious” because models trained to imitate fluent text can still spiral into unnatural patterns. Key aspects:\n\n- Repetition and loops: The model repeats phrases or sentences (“I’m sorry, but...”), often due to high-confidence tokens reinforcing themselves.\n- Loss of specificity: Vague, generic, agreeable text that avoids concrete details.\n- Drift and contradiction: The output gradually departs from context or contradicts itself over long spans.\n- Exposure bias: During training, models see gold-standard prefixes; at inference, they must condition on their own imperfect outputs, compounding errors.\n- Likelihood vs. quality mismatch: Maximizing token-level likelihood doesn’t align with human preferences for diversity, coherence, or factuality.\n- Token over-optimization: Frequent, safe tokens get overused; certain phrases become attractors.\n- Entropy collapse: With greedy or low-temperature decoding, the distribution narrows too much, causing repetitive, low-entropy text.\n- Length and beam search issues: Larger beams or long generations can favor bland, repetitive sequences (the “likelihood trap”).\n\nCommon mitigations:\n\n- Decoding strategies:\n  - Top-k, nucleus (top-p), or temperature sampling to keep sufficient entropy.\n  - Typical sampling and locally typical sampling to avoid dull but high-probability tokens.\n  - Repetition penalties, presence/frequency penalties, no-repeat n-grams.\n  - Contrastive decoding (and variants like DoLa) to filter generic continuations.\n  - Min/max length, stop sequences, and beam search with diversity/penalties.\n\n- Training and alignment:\n  - RLHF/DPO to better match human preferences for non-repetitive, helpful text.\n  - Supervised fine-tuning on high-quality, diverse data; instruction tuning.\n  - Debiasing objectives (unlikelihood training) to penalize repetition and banned patterns.\n  - Mixture-of-denoisers or latent planning to improve long-range coherence.\n\n- Architectural and planning aids:\n  - Retrieval-augmented generation to ground outputs.\n  - Tool use and structured prompting to constrain drift.\n  - Memory and planning modules, hierarchical decoding, or sentence-level control.\n\n- Prompting tips:\n  - Ask for concise answers, set token limits, and specify structure.\n  - Provide concrete constraints or content to reduce generic filler.\n  - Use “say nothing if uncertain” style instructions to avoid vacuity.\n\nRepresentative papers/terms to search:\n- Holtzman et al., “The Curious Case of Neural Text Degeneration” (2020): nucleus sampling.\n- Welleck et al., “Neural Text Degeneration with Unlikelihood Training.”\n- Li et al., “A Contrastive Framework for Decoding.”\n- Su et al., “DoLa: Decoding by Contrasting Layers.”\n- Meister et al., “Typical Decoding.”\n- Ouyang et al., “Training language models to follow instructions with human feedback.”\n\nIn short, degeneration arises from a mismatch between next-token likelihood and human preferences plus decoding choices; careful decoding, training objectives, and grounding help prevent it.",
          "type": "output_text",
          "logprobs": null
        }
      ],
      "role": "assistant",
      "status": "completed",
      "type": "message"
    }
  ],
  "parallel_tool_calls": true,
  "temperature": 1.0,
  "tool_choice": "auto",
  "tools": [],
  "top_p": 1.0,
  "background": false,
  "max_output_tokens": null,
  "max_tool_calls": null,
  "previous_response_id": null,
  "prompt": null,
  "prompt_cache_key": null,
  "reasoning": {
    "effort": "minimal",
    "generate_summary": null,
    "summary": "detailed"
  },
  "safety_identifier": null,
  "service_tier": "default",
  "status": "completed",
  "text": {
    "format": {
      "type": "text"
    }
  },
  "top_logprobs": null,
  "truncation": "disabled",
  "usage": {
    "input_tokens": 16,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 657,
    "output_tokens_details": {
      "reasoning_tokens": 0
    },
    "total_tokens": 673
  },
  "user": null,
  "content_filters": null,
  "store": true
}

Замечание

Даже если этот параметр включен, сводки по соображениям не гарантируются для каждого шага или запроса. Это ожидаемое поведение.

Python Lark

Модели причин серии GPT-5 имеют возможность вызывать новый custom_tool вызов lark_tool. Это средство основано на ларке Python и может использоваться для более гибкого ограничения выходных данных модели.

API ответов на запросы

{
  "model": "gpt-5-2025-08-07",
  "input": "please calculate the area of a circle with radius equal to the number of 'r's in strawberry",
  "tools": [
    {
      "type": "custom",
      "name": "lark_tool",
      "format": {
        "type": "grammar",
        "syntax": "lark",
        "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
      }
    }
  ],
  "tool_choice": "required"
}

Идентификатор Microsoft Entra:

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.responses.create(  
    model="gpt-5",  # replace with your model deployment name  
    tools=[  
        {  
            "type": "custom",
            "name": "lark_tool",
            "format": {
                "type": "grammar",
                "syntax": "lark",
                "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
            }
        }  
    ],  
    input=[{"role": "user", "content": "Please calculate the area of a circle with radius equal to the number of 'r's in strawberry"}],  
)  

print(response.model_dump_json(indent=2))

Ключ API:

import os
from openai import OpenAI

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=os.getenv("AZURE_OPENAI_API_KEY")  
)

response = client.responses.create(  
    model="gpt-5",  # replace with your model deployment name  
    tools=[  
        {  
            "type": "custom",
            "name": "lark_tool",
            "format": {
                "type": "grammar",
                "syntax": "lark",
                "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
            }
        }  
    ],  
    input=[{"role": "user", "content": "Please calculate the area of a circle with radius equal to the number of 'r's in strawberry"}],  
)  

print(response.model_dump_json(indent=2))

Выходные данные:

{
  "id": "resp_689a0cf927408190b8875915747667ad01c936c6ffb9d0d3",
  "created_at": 1754926332.0,
  "error": null,
  "incomplete_details": null,
  "instructions": null,
  "metadata": {},
  "model": "gpt-5",
  "object": "response",
  "output": [
    {
      "id": "rs_689a0cfd1c888190a2a67057f471b5cc01c936c6ffb9d0d3",
      "summary": [],
      "type": "reasoning",
      "encrypted_content": null,
      "status": null
    },
    {
      "id": "msg_689a0d00e60c81908964e5e9b2d6eeb501c936c6ffb9d0d3",
      "content": [
        {
          "annotations": [],
          "text": "“strawberry” has 3 r’s, so the radius is 3.\nArea = πr² = π × 3² = 9π ≈ 28.27 square units.",
          "type": "output_text",
          "logprobs": null
        }
      ],
      "role": "assistant",
      "status": "completed",
      "type": "message"
    }
  ],
  "parallel_tool_calls": true,
  "temperature": 1.0,
  "tool_choice": "auto",
  "tools": [
    {
      "name": "lark_tool",
      "parameters": null,
      "strict": null,
      "type": "custom",
      "description": null,
      "format": {
        "type": "grammar",
        "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/",
        "syntax": "lark"
      }
    }
  ],
  "top_p": 1.0,
  "background": false,
  "max_output_tokens": null,
  "max_tool_calls": null,
  "previous_response_id": null,
  "prompt": null,
  "prompt_cache_key": null,
  "reasoning": {
    "effort": "medium",
    "generate_summary": null,
    "summary": null
  },
  "safety_identifier": null,
  "service_tier": "default",
  "status": "completed",
  "text": {
    "format": {
      "type": "text"
    }
  },
  "top_logprobs": null,
  "truncation": "disabled",
  "usage": {
    "input_tokens": 139,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 240,
    "output_tokens_details": {
      "reasoning_tokens": 192
    },
    "total_tokens": 379
  },
  "user": null,
  "content_filters": null,
  "store": true
}

Завершение чата

{
  "messages": [
    {
      "role": "user",
      "content": "Which one is larger, 42 or 0?"
    }
  ],
  "tools": [
    {
      "type": "custom",
      "name": "custom_tool",
      "custom": {
        "name": "lark_tool",
        "format": {
          "type": "grammar",
          "grammar": {
            "syntax": "lark",
            "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
          }
        }
      }
    }
  ],
  "tool_choice": "required",
  "model": "gpt-5-2025-08-07"
}

Доступность

Доступность по регионам

Модель	Регион	Ограниченный доступ
`gpt-5.1`	Восточный регион США 2 и Центральный регион Швеции (Global Standard и DataZone Standard)	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5.1-chat`	Восточная часть США2 и Центральная Швеция (глобальный стандарт)	Запрос на доступ не требуется.
`gpt-5.1-codex`	Восточная часть США2 и Центральная Швеция (глобальный стандарт)	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5.1-codex-mini`	Восточная часть США2 и Центральная Швеция (глобальный стандарт)	Запрос на доступ не требуется.
`gpt-5-pro`	Восточная часть США2 и Центральная Швеция (глобальный стандарт)	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5-codex`	Восточная часть США2 и Центральная Швеция (глобальный стандарт)	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`gpt-5-mini`	Доступность модели	Запрос на доступ не требуется.
`gpt-5-nano`	Доступность модели	Запрос на доступ не требуется.
`o3-pro`	Восточная часть США2 и Центральная Швеция (глобальный стандарт)	Запрос доступа: приложение модели ограниченного доступа. Если у вас уже есть доступ к модели ограниченного доступа, запрос не требуется.
`codex-mini`	Восточная часть США2 и Центральная Швеция (глобальный стандарт)	Запрос на доступ не требуется.
`o4-mini`	Доступность модели	Запрос доступа не требуется для использования основных возможностей этой модели. Запрос доступа: функция сводки рассуждений о4-mini
`o3`	Доступность модели	Запрос доступа: приложение модели ограниченного доступа
`o3-mini`	Доступность модели.	Доступ больше не ограничен для этой модели.
`o1`	Доступность модели.	Доступ больше не ограничен для этой модели.
`o1-mini`	Доступность модели.	Запрос на доступ для развертываний Global Standard не требуется. Развертывания уровня "Стандартный" (региональные) в настоящее время доступны только для определенных клиентов, которым ранее был предоставлен доступ в рамках релиза `o1-preview`.

Функция	gpt-5.1, 2025-11-13	gpt-5.1-chat, 2025-11-13	gpt-5.1-codex, 2025-11-13	gpt-5.1-codex-mini, 2025-11-13	gpt-5-pro, 2025-10-06	gpt-5-codex, 2025-09-011	gpt-5, 2025-08-07	gpt-5-mini, 2025-08-07	gpt-5-nano, 2025-08-07
Версия API	версия 1	версия 1	версия 1	версия 1	версия 1	версия 1	версия 1	версия 1	версия 1
Сообщения разработчика	✅	✅	✅	✅	✅	✅	✅	✅	✅
Структурированные выходные данные	✅	✅	✅	✅	✅	✅	✅	✅	✅
Окно контекста	400,000 Входные данные: 272 000 Выходные данные: 128 000	128,000 Входные данные: 111 616 Выходные данные: 16 384	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000	400,000 Входные данные: 272 000 Выходные данные: 128 000
Усилие на размышление	✅ ⁴	✅	✅	✅	✅ ⁵	✅	✅	✅	✅
Ввод изображения	✅	✅	✅	✅	✅	✅	✅	✅	✅
API завершения чата	✅	✅	-	-	-	-	✅	✅	✅
API ответов на запросы	✅	✅	✅	✅	✅	✅	✅	✅	✅
Функции и инструменты	✅	✅	✅	✅	✅	✅	✅	✅	✅
Вызовы параллельных инструментов¹	✅	✅	✅	✅	-	✅	✅	✅	✅
`max_completion_tokens` ²	✅	✅	-	-	-	-	✅	✅	✅
Системные сообщения ³	✅	✅	✅	✅	✅	✅	✅	✅	✅
Сводка по причинам	✅	✅	✅	✅	✅	✅	✅	✅	✅
Стриминг	✅	✅	✅	✅	-	✅	✅	✅	✅

1 Вызовы параллельных инструментов не поддерживаются, если задано значение <a0/&a0>.

² Модели причин будут работать только с max_completion_tokens параметром при использовании API завершения чата. Используйте max_output_tokens с API ответов.

³ Последние модели причин поддерживают системные сообщения, чтобы упростить миграцию. Не следует использовать как сообщение разработчика, так и системное сообщение в одном запросе API.

По умолчанию устанавливается значение ⁴gpt-5.1reasoning_effortnone. При обновлении предыдущих моделей рассуждений до gpt-5.1, помните, что может потребоваться обновить код, чтобы явно указать уровень усилий для рассуждений, если требуются усилия на рассуждения.

⁵gpt-5-pro поддерживает только reasoning_efforthigh, это значение является значением по умолчанию, даже если оно не передано явно модели.

НОВЫЕ функции причины GPT-5

Функция	Описание
`reasoning_effort`	`minimal` теперь поддерживается с моделями анализа серии GPT-5. ^* `none` поддерживается только для `gpt-5.1` Параметры: `none`, , `minimallowmediumhigh`
`verbosity`	Новый параметр, предоставляющий более детализированный контроль над степенью краткости выходных данных модели. Параметры:`low`, `medium`, `high`.
`preamble`	Модели определения последовательности GPT-5 имеют возможность тратить дополнительное время на "мышление" перед выполнением вызова функции или инструмента. Когда такое планирование происходит, модель может получить представление о шагах планирования в ответе модели с помощью нового объекта, называемого `preamble` объектом. Создание преамблировок в ответе модели не гарантируется, хотя вы можете поощрять модель с помощью `instructions` параметра и передачи содержимого, например "Необходимо тщательно планировать перед каждым вызовом функции. ALWAYS выводит план пользователю перед вызовом любой функции"
разрешенные средства	Можно указать несколько инструментов `tool_choice` вместо одного.
настраиваемый тип инструмента	Включает выходные данные необработанного текста (не json)
`lark_tool`	Позволяет использовать некоторые возможности рывка Python для более гибкого ограничения ответов модели

^* gpt-5-codex не поддерживает reasoning_effort минимальное число.

Для получения дополнительных сведений мы также рекомендуем ознакомиться с руководством по подготовке книги OpenAI в GPT-5 и их руководстве по функциям GPT-5.

Функция	codex-mini, 2025-05-16	o3-pro, 2025-06-10	o4-mini, 2025-04-16	o3, 2025-04-16	o3-mini, 2025-01-31	o1, 2024-12-17	o1-mini, 2024-09-12
Версия API	`2025-04-01-preview` & v1	`2025-04-01-preview` & v1	`2025-04-01-preview` & v1	`2025-04-01-preview` & v1	`2025-04-01-preview` > предварительная версия 1	`2025-04-01-preview` > предварительная версия 1	`2025-04-01-preview` > предварительная версия 1
Сообщения разработчика	✅	✅	✅	✅	✅	✅	-
Структурированные выходные данные	✅	✅	✅	✅	✅	✅	-
Окно контекста	Входные данные: 200 000 Результат: 100 000	Входные данные: 200 000 Результат: 100 000	Входные данные: 200 000 Результат: 100 000	Входные данные: 200 000 Результат: 100 000	Входные данные: 200 000 Результат: 100 000	Входные данные: 200 000 Результат: 100 000	Вход: 128 000 Результат: 65 536
Усилие на размышление	✅	✅	✅	✅	✅	✅	-
Ввод изображения	✅	✅	✅	✅	-	✅	-
API завершения чата	-	-	✅	✅	✅	✅	✅
API ответов на запросы	✅	✅	✅	✅	✅	✅	-
Функции и инструменты	✅	✅	✅	✅	✅	✅	-
Параллельные вызовы инструментов	-	-	-	-	-	-	-
`max_completion_tokens` ¹	✅	✅	✅	✅	✅	✅	✅
Системные сообщения ²	✅	✅	✅	✅	✅	✅	-
Сводка по причинам	✅	-	✅	✅	-	-	-
Потоковая передача ³	✅	-	✅	✅	✅	-	-

¹ Модели причин будут работать только с max_completion_tokens параметром при использовании API завершения чата. Используйте max_output_tokens с API ответов.

² Последняя модель серии o^* поддерживает системные сообщения, чтобы упростить миграцию. При использовании системного сообщения с o4-mini, o3o3-miniи o1 оно будет рассматриваться как сообщение разработчика. Не следует использовать как сообщение разработчика, так и системное сообщение в одном запросе API. ³ Потоковая передача для o3 только ограниченного доступа.

Замечание

Чтобы избежать времени ожидания, рекомендуется использовать фоновыйo3-proрежим.
o3-pro в настоящее время не поддерживает генерацию изображений.

Не поддерживается

В настоящее время не поддерживаются следующие модели рассуждений:

temperature, top_p, presence_penaltyfrequency_penaltylogprobstop_logprobslogit_biasmax_tokens
В настоящее время средства apply_patch и shell не поддерживаются. Поддержка этих инструментов с моделями серии gpt-5.1 скоро ожидается.

Выходные данные Markdown

По умолчанию o3-mini и o1 не будут пытаться создавать результат, включающее форматирование markdown. Распространенный вариант использования, когда это поведение нежелательно, если требуется, чтобы модель выводила код, содержащийся в блоке кода Markdown. При создании выходных данных без форматирования markdown вы теряете такие функции, как подсветка синтаксиса и копируемые блоки кода в интерактивных средах для экспериментов. Чтобы переопределить это новое поведение по умолчанию и поощрять включение markdown в ответы модели, добавьте строку Formatting re-enabled в начало сообщения разработчика.

Добавление Formatting re-enabled в начало сообщения разработчика не гарантирует, что модель будет включать форматирование Markdown в ответе, оно лишь увеличивает вероятность этого. Мы обнаружили из внутреннего тестирования, что Formatting re-enabled менее эффективно само по себе с моделью o1, чем с o3-mini.

Чтобы повысить производительность Formatting re-enabled , можно дополнительно увеличить начало сообщения разработчика, которое часто приведет к нужным выходным данным. Вместо того чтобы просто добавить Formatting re-enabled в начало сообщения разработчика, можно поэкспериментировать с добавлением более описательных начальных инструкций, таких как один из приведенных ниже примеров:

Formatting re-enabled - please enclose code blocks with appropriate markdown tags.
Formatting re-enabled - code output should be wrapped in markdown.

В зависимости от ожидаемых выходных данных может потребоваться настроить исходное сообщение разработчика для конкретного варианта использования.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-18

Поделиться через

Модели логического вывода Azure OpenAI

Использование

API завершения чата

Усилия в рассуждениях

Сообщения разработчика

Сводка по причинам

Python Lark

API ответов на запросы

Завершение чата

Доступность

Доступность по регионам

Поддержка API и функций

НОВЫЕ функции причины GPT-5

Не поддерживается

Выходные данные Markdown

Обратная связь

Дополнительные ресурсы