Выберите методы оценки

При создании тестовых наборов выбирайте из разных методов тестирования для оценки ответов вашего агента. Каждый метод теста имеет свои сильные стороны и подходит для разных типов оценок.

Метод испытаний Меры Тип тестового набора Очки Конфигурации
Общее качество Насколько хорош ответ(ы) тестового случая в зависимости от конкретных качеств Один ответ или разговор Оценка из 100% нет
Сравнение значений Насколько смысл ответа тестового случая соответствует ожидаемому ответу Одиночный отклик Оценка из 100% Сдачный балл, ожидаемый ответ
Использование возможностей Использовал ли тестовый случай все или какие-либо ожидаемые ресурсы Одиночный отклик Передача или сбой Ожидаемые возможности
Совпадение ключевых слов Использовали ли тестовый случай все или какие-либо из ожидаемых ключевых слов или фраз Один ответ или разговор Передача или сбой Ожидаемые ключевые слова или фразы
Сходство текста Насколько хорошо текст ответа тестового случая соответствует ожидаемому ответу Одиночный отклик Оценка из 100% Сдачный балл, ожидаемый ответ
Точное совпадение Точно ли ответ тестового случая соответствует ожидаемому ответу Одиночный отклик Передача или сбой Ожидаемый ответ
Пользовательский Соответствует ли ответ тестового случая вашим установленным критериям или ожиданиям. Один ответ или разговор Сдал/непроход (проходит определённые критерии меток) Имя, инструкции по оценке, ярлыки

Добавьте метод тестирования

  1. При создании или редактировании тестового набора выберите метод добавления теста.

  2. Выберите все методы, с которыми хотите протестировать, затем выберите OK. Можно добавить несколько методов.

    1. Некоторые методы требуют проходного балла. Сдачный балл определяет, какой результат приведёт к прохождению, а какой — к провалу. Установите счёт, затем выберите OK.

    2. Некоторые методы тестирования требуют дополнительных критериев.

  3. Выберите «Сохранить», чтобы сохранить изменения в тестовом наборе.

Выберите существующий тестовый метод для редактирования критериев этого метода или удалите его.

Общее качество

Доступно для тестовых наборов с одним ответом и разговором. Общее качество помогает вам определить, соответствуют ли ваши требования ответов вашего агента. Он использует большую языковую модель (LLM) для оценки эффективности ответов агента на вопросы пользователей.

Общее качество особенно полезно, когда нет точного ответа. Он предлагает гибкий и масштабируемый способ оценки ответов на основе полученных документов и хода разговора.

Он использует следующие ключевые критерии и применяет последовательный запрос для подсчёта оценок:

  • Релевантность: В какой степени ответ агента отвечает на вопрос. Например, остаётся ли ответ агента на теме и отвечает ли напрямую на вопрос?

  • Обоснованность: В какой степени реакция агента основана на предоставленном контексте. Например, ссылается ли ответ агента на информацию, предоставленную в контексте, вместо того чтобы вводить нерелевантную или неподкреплённую информацию?

  • Полнота: В какой степени ответ агента содержит всю необходимую информацию. Например, охватывает ли ответ агента все аспекты вопроса и содержит ли достаточно подробностей?

  • Воздержание: пытался ли агент ответить на вопрос.

Чтобы ответ считался качественным, он должен соответствовать всем этим ключевым критериям. Если один критерий не выполнен, ответ отмечается как улучшение. Такой метод оценивания гарантирует, что высокие оценки получают только те ответы, которые одновременно полны и хорошо подкреплены. В отличие от этого, ответы с неполными или без подтверждающих доказательств получают более низкие баллы.

При добавлении или редактировании методов тестированиявыбирайте общее качество. Все тестовые наборы по умолчанию начинаются с этого метода.

Вам не нужно добавлять ожидаемые ответы в тестовые случаи, чтобы пройти общую оценку качества.

Замечание

Сокращение количества источников знаний для агента не гарантирует улучшения общего качества оценки агента. Это ограничение возникает потому, что полученные знания (знания, которые модель считает релевантными для конкретного тестового случая) могут быть слишком большими.

Сравнение значений

Доступно для тестовых наборов с одиночным ответом. Сравнение значения оценивает, насколько хорошо ответ агента отражает предполагаемый смысл ожидаемого ответа. Вместо того чтобы сосредотачиваться на точной формулировке, она использует сходство намерений, то есть сравнивает идеи и смысл слов, чтобы оценить, насколько ответ соответствует вашим ожиданиям.

Как и в общем качестве, сравнение смысла особенно полезен, когда нет точного ответа. Он предлагает гибкий и масштабируемый способ оценки ответов на основе полученных документов и хода разговора.

Вы можете установить порог проходного балла, чтобы определить, что считается проходным баллом для ответа. Стандартный проходной балл — 50. Метод теста сравнения значений полезен, когда ответ можно сформулировать по-разному, правильно, но общий смысл или намерение всё равно должны проявиться.

  1. При добавлении или редактировании методов тестирования выберите «Сравнить значение».

  2. Установите сдачный балл для этого метода.

  3. Добавьте ожидаемые ответы. Любой тестовый случай без ожидаемых ответов даёт результат Invalid для этого метода.

    1. Выберите тестовый случай.

    2. Добавьте ожидаемый ответ.

    3. Выберите «Применить», чтобы сохранить ожидаемый ответ.

    4. Повторяйте это для всех тестовых случаев, которые хотите протестировать, используя этот метод.

Использование инструмента

Доступно для тестовых наборов с одиночным ответом. Возможности используют тесты, если агент использовал определённые инструменты или темы для генерации ответа. Если да, то проходит. Если нет — не работает.

  1. При добавлении или редактировании методов тестирования выберите Использование инструмента.

  2. Добавьте ожидаемые инструменты или темы. Любой тестовый случай без ожидаемых ответов даёт результат Invalid для этого метода.

    1. Выберите тестовый случай. Чтобы добавить одинаковые инструменты и темы для всех тестовых случаев, выберите значок «Редактировать» в заголовке столбца «Инструмент использовать».

    2. В панели редактирования тестового случая выберите инструменты, которые вы ожидаете, что агент будет использовать для этого тест-кейса.

    3. Нажмите ОК.

    4. Нажмите кнопку "Применить" , чтобы сохранить изменения.

    5. Повторяйте это для всех тестовых случаев, которые хотите проверить на использование инструментов.

Совпадение ключевых слов

Доступно для тестовых наборов с одним ответом и разговором. Соответствие ключевых слов проверяет, содержит ли ответ агента некоторые или все слова или фразы из ожидаемого ответа, которые вы определяете. Если и да, то проходит. Если нет — не работает.

Вы можете выбрать, требуется ли для прохода какое-либо из ключевых слов или все из них. Выбор любого означает, что если хотя бы одно слово или фраза совпадает, тест проходит. Выбор All означает, что все ожидаемые слова или фразы должны совпадать для прохождения тестового случая.

  1. При добавлении или редактировании методов тестирования выберите Keyword match.

  2. Определите, нужно ли тестовому кейсу соответствовать любым или всем ключевым словам.

  3. Добавьте ожидаемые ключевые слова. Любой тестовый случай без ожидаемых ключевых слов даёт результат Invalid для этого тестового метода.

    1. Выберите тестовый случай.

    2. В панели «Редактировать тестовый случай » добавьте ключевое слово или фразу, которую вы ожидаете в ответе этого случая.

    3. Выберите + добавить , чтобы добавить больше ключевых слов или фраз. Чтобы удалить ключевое слово или фразу, выберите значок «Удалить ».

    4. Выберите «Применить», чтобы сохранить ожидаемые ключевые слова.

    5. Повторяйте это для всех тестовых случаев, которые хотите проверить на соответствие ключевых слов.

Сходство текста

Доступно для тестовых наборов с одиночным ответом. Метод теста сходства текста сравнивает сходство ответов агента с ожидаемыми ответами, которые вы определили в тестовом наборе. Это полезно, когда ответ можно сформулировать по-разному, но общий смысл или намерение всё равно должны проявиться.

Он использует метрику косинуса сходства для оценки того, насколько ответ агента похож на формулировку и смысл ожидаемого ответа, и определяет оценку. Счёт варьируется от 0 до 1, где 1 означает, что ответ очень совпадает, а 0 — нет. Вы можете установить порог проходного балла, чтобы определить, что считается проходным баллом для ответа.

  1. При добавлении или редактировании методов тестирования выберите «Сходство текста».

  2. Установите сдачный балл для этого метода.

  3. Добавьте ожидаемые ответы. Любой тестовый случай без ожидаемых ответов даёт результат Invalid для этого метода.

    1. Выберите тестовый случай.

    2. Добавьте ожидаемый ответ.

    3. Выберите «Применить», чтобы сохранить ожидаемый ответ.

    4. Повторяйте это для всех тестовых случаев, которые хотите протестировать, используя этот метод.

Точное совпадение

Доступно для тестовых наборов с одиночным ответом. Точное совпадение проверяет, совпадает ли ответ агента с ожидаемым ответом в тесте: символ за символом, слово в слово. Если всё то же — проходит. Если что-то отличается, то это не работает. Точное совпадение полезно для коротких и точных ответов, таких как числа, коды или фиксированные фразы. Это не подходит для ответов, которые люди могут формулировать несколькими правильными способами.

  1. При добавлении или редактировании методов тестирования выберите «Точное совпадение».

  2. Добавьте ожидаемые ответы. Любой тестовый случай без ожидаемых ответов даёт результат Invalid для этого метода.

    1. Выберите тестовый случай.

    2. Добавьте ожидаемый ответ.

    3. Выберите «Применить», чтобы сохранить ожидаемый ответ.

    4. Повторяйте это для всех тестовых случаев, которые хотите протестировать, используя этот метод.

Произвольный

Custom — это настраиваемый метод тестирования. Он позволяет тестировать и маркировать ответы агентов по собственным критериям. Например, вы можете создать тест на соответствие для HR-агента, чтобы ответы на тесты были либо соответствующими , либо несоответствующими вашему описанию HR-комплаенса.

Индивидуальный тест состоит из двух компонентов, которые вы можете настроить:

Инструкции по оценке: описывает цель, которую вы хотите достичь с помощью этого теста. Что вы хотите, чтобы тест узнал о ответах вашего агента?

Хорошие инструкции по оценке должны:

  • Будьте целеустремлёнными.

  • Используйте только разрешённых символов.

  • Используйте пункты и заголовки для организации.

Рассмотрим пример.

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Метки: Описывает результат, присваиваемый каждому ответу с помощью пользовательского теста. На этикетках также есть задания «сдал/непроход», которые засчитываются в процент сдачи теста для этого метода.

Ярлыки имеют название и описание. Хорошее описание:

  • Это лаконично.

  • Содержит характеристики, которые вы ищете при совпадении ответов.

Одна из стратегий для ярлыков — иметь две: один — это ответы, которые успешно соответствуют вашим критериям, и другие — ответы, которые не соответствуют. Например, индивидуальный тест соответствия HR-политике может иметь метки Compliant и Non-Compliant .

  1. При добавлении или редактировании методов тестирования выберите «Пользовательский».

  2. Введите название этого кастомного теста.

  3. Добавьте инструкции по оценке.

  4. Добавьте две или более этикеток. Каждая этикетка имеет название и описание.

    Чтобы добавить больше ярлыков, выберите « Добавить ярлык».

    Названия ярлыков могут использовать только буквы, цифры, пробел, дефис -, подчеркнуть _, косую черту /, амперсанд &, плюс знак +, и точку ..

  5. Задайте результат Pass или Fail для каждой метки.

  6. Нажмите ОК.