Создайте набор тестов с одним ответом

Оценка одного ответа проверяет вашего агента по одному несвязанному вопросу за раз, а не по полноценному разговору. Например, оценка одного ответа для агента службы поддержки задаёт вопрос: Какие у вас рабочие часы?, записывает ответ агента на этот вопрос, а затем начинается с нового вопроса: Как найти историю заказов?

Оценка с одиночным ответом хороша, когда вы хотите проверить вашего агента на то, как он отвечает на конкретные вопросы, какие возможности вызывает и по тёмной формулировке, которую он использует в своих ответах. Вы также можете провести разговорную оценку, которая позволяет оценить поведение вашего агента на протяжении длительного взаимодействия.

Оценки используют тестовые наборы. Набор тестов для оценки с одиночным ответом состоит из группы до 100 тестовых случаев. Когда вы запускаете оценку агента, вы выбираете тестовый набор, и Copilot Studio запускает все тестовые случаи в этом наборе против вашего агента.

Вы можете создавать тестовые случаи внутри тестового набора вручную, импортировать их с помощью таблицы или использовать ИИ для генерации сообщений на основе дизайна и ресурсов вашего агента. Затем вы можете выбрать, как измерять качество ответов вашего агента для каждого тестового случая внутри тестового набора.

Для получения дополнительной информации о том, как работает оценка агента, см. раздел «О оценке агента».

Чтобы узнать, как редактировать существующий тестовый набор, см. раздел «Изменить детали тестового набора».

Это важно

Результаты теста доступны в Copilot Studio в течение 89 дней. Чтобы сохранить результаты теста на более длительное время, экспортируйте их в CSV-файл.

Создать новый тестовый набор

  1. Перейдите на страницу оценки вашего агента.

    Скриншот, показывающий, как выбрать вкладку Оценка, когда выбор вкладки сжат из-за размера экрана.

  2. Выберите новую оценку, затем выберите Одиночный ответ.

    Скриншот, показывающий кнопку «Создать новый тест» на странице оценки.

  3. Выберите метод, который вы хотите использовать для создания тестового набора. Тестовый набор может содержать до 100 тестовых случаев.

    • Быстрый набор вопросов Copilot Studio автоматически создавать тестовые случаи на основе описания, инструкций и возможностей вашего агента. Эта опция генерирует 10 вопросов для проведения небольших, быстрых оценок или для начала создания более крупного тестового набора.
    • Полный набор вопросов чтобы Copilot Studio генерировать тестовые случаи с помощью источника знаний или тем и выбирать количество вопросов для генерации.
    • Используйте разговор в тестовом чате, чтобы автоматически заполнить тестовый набор вопросами, которые вы задали в чате. Этот метод использует вопросы из последнего тестового чата. Вы также можете начать оценку из тестового чата, используя кнопку «оценить ». Скриншот, показывающий кнопку «Создать новый тест» в тестовом чате.
    • Импортируйте тестовые случаи из файла , перетащив его в назначенную область, выбрав Browse для загрузки файла или выбрав один из других вариантов загрузки.
    • Или напишите вопросы самостоятельно , чтобы самостоятельно создать тестовый набор. Следуйте шагам редактирования тестового набора для добавления и редактирования тестовых случаев.
    • Используйте производственные данные, основанные на темах аналитики вашего агента. Скриншот, показывающий опцию «Оценить» для темы в списке тем для одной темы.
  4. В разделе «Имя» введите название для вашего тестового набора.

  5. Измените или добавьте методы тестирования , которые хотите использовать:

    • Добавьте новый метод:
      1. Выберите "Добавить метод теста".
      2. Выберите все методы, с которыми хотите протестировать, затем выберите OK.
      3. Некоторые методы требуют проходного балла. Сдачный балл определяет, какой результат приведёт к прохождению, а какой — к провалу. Установите счёт, затем выберите OK.
      4. Некоторые методы требуют добавления ожидаемых ответов или ключевых слов для каждого вашего тестового случая. Для получения дополнительной информации см. раздел «Выбрать методы оценки»
    • Выберите существующий метод тестирования для редактирования или удаления.
    Метод испытаний Меры Тип тестового набора Очки Конфигурации
    Общее качество Насколько хорош ответ(ы) тестового случая в зависимости от конкретных качеств Один ответ или разговор Оценка из 100% нет
    Сравнение значений Насколько смысл ответа тестового случая соответствует ожидаемому ответу Одиночный отклик Оценка из 100% Сдачный балл, ожидаемый ответ
    Использование возможностей Использовал ли тестовый случай все или какие-либо ожидаемые ресурсы Одиночный отклик Передача или сбой Ожидаемые возможности
    Совпадение ключевых слов Использовали ли тестовый случай все или какие-либо из ожидаемых ключевых слов или фраз Один ответ или разговор Передача или сбой Ожидаемые ключевые слова или фразы
    Сходство текста Насколько хорошо текст ответа тестового случая соответствует ожидаемому ответу Одиночный отклик Оценка из 100% Сдачный балл, ожидаемый ответ
    Точное совпадение Точно ли ответ тестового случая соответствует ожидаемому ответу Одиночный отклик Передача или сбой Ожидаемый ответ
    Пользовательский Соответствует ли ответ тестового случая вашим установленным критериям или ожиданиям. Один ответ или разговор Сдал/непроход (проходит определённые критерии меток) Имя, инструкции по оценке, ярлыки
  6. Отредактируйте детали тестовых случаев. Все методы тестирования, кроме общего качества, требуют ожидаемых ответов или ключевых слов. Для получения дополнительной информации об редактировании тестовых случаев см . Модификация тестового набора (Modify a test set).

  7. Выберите профиль пользователя, затем выберите или добавьте аккаунт, который хотите использовать для этого тестового набора, или продолжите без аутентификации. Оценка использует этот аккаунт для подключения к источникам знаний и инструментам во время тестирования. Если для оценки выбран другой аккаунт, отличный от аккаунта с аутентификацией коннектора, агенты, использующие коннекторы или инструменты, провалятся. Для получения информации о добавлении и управлении профилями пользователей см. раздел «Управление профилями пользователей и соединениями».

    Замечание

    Автоматизированное тестирование использует аутентификацию выбранного тестового аккаунта. Если у вашего агента есть источники знаний или соединения, требующие специальной аутентификации, выберите подходящий аккаунт для тестирования. Когда Copilot Studio генерирует тестовые случаи, он использует учетные данные подключённого аккаунта для доступа к источникам знаний и инструментам вашего агента. Сгенерированные тестовые случаи могут включать чувствительные данные, к которым может получить доступ подключённый аккаунт. Любой создатель, имеющий доступ к агенту, также может просматривать тестовые наборы, связанные с этим агентом.

  8. Выберите Сохранить, чтобы обновить тестовый набор без запуска тестовых случаев, или Оценить, чтобы немедленно запустить тестовый набор.

Ограничение генерации тестового случая

Создание тестового случая не проходит, если один или несколько вопросов нарушают настройки модерации контента вашего агента. Возможные причины:

  • Инструкции или темы агента приводят модель к генерации контента, который система отмечает.
  • Связанный источник знаний включает чувствительный или ограниченный контент.
  • Настройки модерации контента агента слишком строгие.

Чтобы решить проблему, попробуйте разные действия, такие как настройка источников знаний, обновление инструкций или изменение настроек модерации.

Тестовый набор может содержать до 100 тестовых случаев.

Сгенерируйте тестовый набор из знаний или тем

Вы можете протестировать своего агента, генерируя вопросы, используя уже имеющиеся у него информацию и источники разговора. Этот метод тестирования хорош для проверки, как ваш агент использует источник знаний или уже имеющиеся у него темы, но не подходит для выявления информационных пробелов.

Вы можете создавать тестовые случаи, используя следующие источники знаний:

  • Текст

  • Майкрософт Ворд

  • Microsoft Excel

Вы можете использовать файлы до 5 МБ для генерации тестовых вопросов.

Для генерации тестового набора:

  1. В новой оценке выберите «Полный набор вопросов».

  2. Выберите либо знания , либо темы.

    • Знания лучше всего работают для агентов, использующих генеративную оркестрацию. Этот метод создаёт вопросы с помощью одного из источников знаний вашего агента.
    • Topics лучше всего подходит агентам, использующим классическую оркестровку. Этот метод создаёт вопросы, используя темы вашего агента.
  3. Для знаний выберите источник знаний, который вы хотите использовать для генерации вопросов.

    Скриншот, показывающий выбор источников знаний для генерации тестового случая.

  4. Для раздела «Знания и темы» выберите и перетащите ползунок, чтобы выбрать количество вопросов для генерации.

    Скриншот с ползунком для выбора количества вопросов генерировать.

  5. Выберите Создать.

  6. В разделе «Имя» введите название для вашего тестового набора.

    1. Измените или добавьте методы тестирования , которые хотите использовать:
    • Добавьте новый метод:
      1. Выберите "Добавить метод теста".
      2. Выберите все методы, с которыми хотите протестировать, затем выберите OK. Можно добавить несколько методов.
      3. Для некоторых методов установите балл прохода, затем выберите OK. Сдачный балл определяет, какой результат приведёт к прохождению, а какой — к провалу.
      4. Некоторые методы требуют добавления ожидаемых ответов или ключевых слов для каждого вашего тестового случая. Для получения дополнительной информации см. раздел «Выбрать методы оценки»
    • Выберите существующий метод тестирования для редактирования или удаления.
  7. Отредактируйте детали тестовых случаев. Все тестовые случаи, использующие методы, кроме общего качества, требуют ожидаемых ответов. Для получения дополнительной информации об редактировании см. Modify a test set.

  8. Выберите Сохранить, чтобы обновить тестовый набор без запуска тестовых случаев, или Оценить, чтобы немедленно запустить тестовый набор.

Создайте файл тестового набора для импорта

Вместо того чтобы строить тестовые случаи напрямую в Copilot Studio, вы можете создать файл таблицы со всеми тест-кейсами и импортировать их для создания тестового набора. Вы можете составить каждый тестовый вопрос, определить метод теста, который хотите использовать, и указать ожидаемые ответы на каждый вопрос. Когда завершите создание файла, сохраните его как .csv или .txt файл и импортируйте в Copilot Studio.

Это важно

  • Файл может содержать до 100 вопросов.
  • Каждый вопрос может содержать до 1000 символов, включая пробелы.
  • Файл должен быть в формате CSV с разделёнными запятыми (CSV) или в текстовом формате.

Чтобы создать файл импорта:

  1. Откройте приложение с таблицами (например, Microsoft Excel). Вы можете скачать шаблон CSV в разделе Data Source после выбора New evaluation.

  2. Добавьте следующие заголовки в следующем порядке в первой строке:

    • Вопрос
    • Ожидаемый ответ
    • Метод тестирования
  3. Введите вопросы для теста в колонку «Вопрос». Каждый вопрос может иметь 1 000 символов или меньше, включая пробелы.

  4. Введите один из следующих методов тестирования для каждого вопроса в столбце методов тестирования :

    • Общее качество
    • Сравнение значений
    • Сходство
    • Точное совпадение
    • Совпадение ключевых слов
  5. Введите ожидаемые ответы на каждый вопрос в колонку «Ожидаемый ответ ». Ожидаемые ответы необязательны при импорте тестового набора. Однако для проведения совпадения, сходства и сравнения тестов смысла нужны ожидаемые ответы.

  6. Сохраните файл как CSV- или TXT-файл.

  7. Импортируйте файл, следуя шагам в разделе «Создать новый тестовый набор».

Создайте тестовый набор на основе темы

Создайте тестовый набор с вопросами из переписок с реальными пользователями. Этот метод использует темы (превью), которые можно найти в аналитике вашего агента.

Темы — это группы вопросов, взятых из пула пользовательских вопросов, которые запускают генеративные ответы. Когда вы создаёте тестовый набор с использованием темы, вы генерируете тестовые случаи на основе вопросов, заданных пользователями, связанных с этой темой.

Используйте эти тестовые наборы для проведения оценок, сосредоточенных на одной области или теме деятельности вашего агента. Например, если у вас есть агент службы поддержки, вы можете отслеживать качество ответов на вопросы по выставлению счетов и платежам отдельно от других случаев, таких как устранение неполадок.

Замечание

Прежде чем создавать тестовые наборы из тем, вам нужен доступ к темам в аналитике. Ознакомьтесь с обязательными темами (предварительный обзор).

  1. На странице аналитики вашего агента перейдите к списку тем .

  2. Наведите курсор на тему и выберите «Оценить».

    Скриншот, показывающий опцию «Оценить» для темы в списке тем.

    Также можно выбрать «Увидеть всё», чтобы увидеть больше тем, а затем выбрать «Оценить».

  3. Нажмите кнопку "Создать" и "Открыть".

  4. Отредактируйте детали тестовых наборов и кейсов. Все тестовые случаи, использующие методы, кроме общего качества, требуют ожидаемых ответов. Для получения дополнительной информации об редактировании см. Modify a test set.

  5. Выберите Сохранить, чтобы обновить тестовый набор без запуска тестовых случаев, или Оценить, чтобы немедленно запустить тестовый набор.