Вычислители общего назначения

Используйте методы оценки согласованности и свободности для измерения качества написания текста, созданного ИИ, независимо от фактической правильности. Создаваемый искусственным интеллектом текст может не хватает логического потока или грамматического качества за пределы минимальной правильности, — эти вычислители систематически устраняют эти пробелы.

Coherence

Оценка согласованности измеряет логические и упорядоченные представления идей в ответе, что позволяет читателю легко следовать и понимать поезд мысли писателя. Последовательный ответ непосредственно обращается к вопросу с четкими связями между предложениями и абзацами, используя соответствующие переходы и логическую последовательность идей. Более высокие оценки означают лучшую согласованность.

Fluency

Средство оценки беглости измеряет эффективность и ясность письменной связи. Эта мера посвящена грамматической точности, диапазону словаря, сложности предложения, согласованности и общей удобочитаемости. Он оценивает, как плавно передаются идеи и как легко читатель может понять текст.

Настройка и запуск вычислителей

Вычислители общего назначения оценивают качество написания созданного ИИ текста независимо от конкретных вариантов использования. Используйте согласованность, если логический поток и вопрос аргументации— например, в ответе на вопрос или суммирование. Используйте беглость, когда грамматические качества и удобочитаемость не зависят от содержимого. Запустите оба вычислителя вместе для полного изображения качества записи.

Для вычислителей LLM как судьи можно использовать Azure аргументов OpenAI или OpenAI и неразумные модели для судьи LLM. Для оптимального баланса производительности и затрат используйте gpt-5-mini.

Examples:

Evaluator Что он измеряет Required inputs Required parameters
builtin.coherence Логический поток и организация идей query, response deployment_name
builtin.fluency Грамматическая точность и удобочитаемость response deployment_name

Example input

Тестовый набор данных должен содержать поля, на которые ссылаются сопоставления данных:

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

Configuration example

Синтаксис сопоставления данных:

  • {{item.field_name}} ссылается на поля из тестового набора данных (например, {{item.query}}).
  • {{sample.output_text}} ссылается на текст ответа, созданный или полученный во время оценки. Используйте это при оценке с помощью целевого объекта модели или целевого объекта агента.
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

Дополнительные сведения о выполнении вычислений и настройке источников данных см. в статье о выполнении вычислений из пакета SDK .

Example output

Эти оценщики возвращают оценки на шкале 1-5 Likert (1 = очень плохо, 5 = отлично). Пороговое значение по умолчанию равно 3. Оценки с пороговым значением или выше считаются прохождением. Ключевые поля выходных данных:

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

Note

Эти вычислители используют оценку LLM-as-judge и влечет за собой затраты на вывод модели на вызов оценки. Надежность оценки может отличаться для очень коротких ответов (около 20 маркеров). Оба вычислителя в настоящее время поддерживают ответы на английский язык.