Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Используйте методы оценки согласованности и свободности для измерения качества написания текста, созданного ИИ, независимо от фактической правильности. Создаваемый искусственным интеллектом текст может не хватает логического потока или грамматического качества за пределы минимальной правильности, — эти вычислители систематически устраняют эти пробелы.
Coherence
Оценка согласованности измеряет логические и упорядоченные представления идей в ответе, что позволяет читателю легко следовать и понимать поезд мысли писателя. Последовательный ответ непосредственно обращается к вопросу с четкими связями между предложениями и абзацами, используя соответствующие переходы и логическую последовательность идей. Более высокие оценки означают лучшую согласованность.
Fluency
Средство оценки беглости измеряет эффективность и ясность письменной связи. Эта мера посвящена грамматической точности, диапазону словаря, сложности предложения, согласованности и общей удобочитаемости. Он оценивает, как плавно передаются идеи и как легко читатель может понять текст.
Настройка и запуск вычислителей
Вычислители общего назначения оценивают качество написания созданного ИИ текста независимо от конкретных вариантов использования. Используйте согласованность, если логический поток и вопрос аргументации— например, в ответе на вопрос или суммирование. Используйте беглость, когда грамматические качества и удобочитаемость не зависят от содержимого. Запустите оба вычислителя вместе для полного изображения качества записи.
Для вычислителей LLM как судьи можно использовать Azure аргументов OpenAI или OpenAI и неразумные модели для судьи LLM. Для оптимального баланса производительности и затрат используйте gpt-5-mini.
Examples:
| Evaluator | Что он измеряет | Required inputs | Required parameters |
|---|---|---|---|
builtin.coherence |
Логический поток и организация идей |
query, response |
deployment_name |
builtin.fluency |
Грамматическая точность и удобочитаемость | response |
deployment_name |
Example input
Тестовый набор данных должен содержать поля, на которые ссылаются сопоставления данных:
{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}
Configuration example
Синтаксис сопоставления данных:
-
{{item.field_name}}ссылается на поля из тестового набора данных (например,{{item.query}}). -
{{sample.output_text}}ссылается на текст ответа, созданный или полученный во время оценки. Используйте это при оценке с помощью целевого объекта модели или целевого объекта агента.
testing_criteria = [
{
"type": "azure_ai_evaluator",
"name": "coherence",
"evaluator_name": "builtin.coherence",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
},
{
"type": "azure_ai_evaluator",
"name": "fluency",
"evaluator_name": "builtin.fluency",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"response": "{{item.response}}"},
},
]
Дополнительные сведения о выполнении вычислений и настройке источников данных см. в статье о выполнении вычислений из пакета SDK .
Example output
Эти оценщики возвращают оценки на шкале 1-5 Likert (1 = очень плохо, 5 = отлично). Пороговое значение по умолчанию равно 3. Оценки с пороговым значением или выше считаются прохождением. Ключевые поля выходных данных:
{
"type": "azure_ai_evaluator",
"name": "Coherence",
"metric": "coherence",
"score": 4,
"label": "pass",
"reason": "The response directly addresses the question with clear, logical connections between ideas.",
"threshold": 3,
"passed": true
}
Note
Эти вычислители используют оценку LLM-as-judge и влечет за собой затраты на вывод модели на вызов оценки. Надежность оценки может отличаться для очень коротких ответов (около 20 маркеров). Оба вычислителя в настоящее время поддерживают ответы на английский язык.