Речевые фрагменты
Внимание
LUIS будет прекращена 1 октября 2025 г. и с 1 апреля 2023 г. вы не сможете создать новые ресурсы LUIS. Мы рекомендуем перенести приложения LUIS в понимание общения, чтобы воспользоваться продолжением поддержки продуктов и многоязычными возможностями.
Речевые фрагменты — это входные данные, поступившие от пользователей, которые приложение должно расшифровать. Чтобы научить LUIS извлекать из этих входных данных намерения и сущности, важно собрать разные примеры речевых фрагментов для каждого намерения. Активное обучение или процесс продолжения обучения на основе новых речевых фрагментов является необходимым для функции аналитики машинного обучения, предоставляемой LUIS.
Соберите фразы, которые вы ожидаете от ваших пользователей. Включите речевые фрагменты, которые означают одно и то же, но имеют различную структуру.
- Длина фразы — короткие, средние и длинные для клиентского приложения
- Длина слова и фразы
- Размещение слов — сущностей в середине, начале и конце фразы
- грамматики
- Преобразование во множественную форму
- Морфология
- Выбор существительных и глаголов
- Пунктуация — с использованием верных и неверных грамматических форм
Выбор вариантов речевых фрагментов
Когда вы начнете добавлять примеры речевых фрагментов в модель LUIS, необходимо помнить о нескольких принципах.
Высказывания не всегда оформляются правильно
Вашему приложению может потребоваться обработать предложения, например "Забронировать билет в Париж для меня", или фрагмент предложения, например "Booking" или "Paris flight" Пользователи также часто делают ошибки орфографии. При планировании приложения подумайте, нужно ли использовать Проверку орфографии Bing, чтобы исправлять входные данные, полученные от пользователя, перед их передачей в LUIS.
Если вы не проверяете орфографические высказывания пользователей, следует обучить LUIS на речевых фрагментах, включающих опечатки и орфографические ошибки.
Используйте типичный для пользователей язык
При выборе речевых фрагментов не забывайте, что термины или фразы, которые вам кажутся типичными, могут не быть таковыми для пользователей клиентского приложения. Они могут не иметь опыта работы с доменом или использовать другую терминологию. Соблюдайте осторожность при выборе таких терминов или фраз, которые используют только эксперты.
Выбор различных терминов и выражений
Вы обнаружите, что даже если вы предпринимаете усилия по созданию разнообразных шаблонов предложений, вы все равно будете повторять некоторый словарь. Например, следующий речевые фрагменты аналогичны по значению, но используют различные термины и выражения:
- Как мне получить компьютер?
- Где мне взять компьютер?
- Мне нужен компьютер, что для этого нужно сделать?
- Когда я смогу заполучить компьютер?
Здесь есть основной термин компьютер, который совершенно не имеет альтернатив. Используйте альтернативные варианты, такие как настольный компьютер, ноутбук, рабочая станция или даже просто компьютер. LUIS может применять интеллектуальное контекстное обнаружение синонимов, но гораздо лучше всегда предоставлять их на этапе обучения.
Примеры высказываний по каждому намерению
Для каждого намерения следует предоставить не менее 15 примеров речевых фрагментов. Если у вас есть намерение, которое не имеет никаких примеров речевых фрагментов, вы не сможете обучить LUIS. Если у вас есть намерение с одним или несколькими примерами высказываний, LUIS может не точно прогнозировать намерение.
Добавление речевых фрагментов небольшими группами
Не добавляйте большое количество речевых фрагментов при каждой итерации модели с целью ее улучшения. Попробуйте добавлять по 15 речевых фрагментов. И каждый раз повторяйте цикл обучения, публикации и тестирования.
LUIS создает эффективные модели, если высказывания подобраны автором модели правильно. Огромные объемы обучающих данных не повышают эффективность, а только создают путаницу.
Лучше начать с нескольких речевых фрагментов, а затем просмотреть речевые фрагменты конечной точки для правильного прогнозирования намерений и извлечения сущностей.
Нормализация речевого фрагмента
Нормализация речевого фрагмента — это процесс игнорирования влияния типов текста, например пунктуации и диакритических знаков, в процессе обучения и прогнозирования.
Параметры нормализации речевых фрагментов по умолчанию отключены. К этим параметрам относятся:
- Формы слова
- Диакритические знаки
- Пунктуация
Если включить параметр нормализации, оценки в тестовой области, пакетных тестах и запросах конечной точки будут изменены для всех речевых фрагментов для этого параметра нормализации.
При клонировании версии на портале LUIS параметры версии будут сохраняться в новой клонированной версии.
Задайте параметры версии приложения с помощью портала LUIS, выбрав элемент Управление в верхнем меню навигации на странице Параметры приложения. Также можно использовать API обновления параметров версии. Дополнительные сведения см. в справочной документации.
Формы слова
Нормализация форм слова игнорирует различия, которые выходят за границы корня.
Диакритические знаки
Диакритические знаки помечаются или подписываются в тексте.
İ ı Ş Ğ ş ğ ö ü
Знаки препинания
Нормализация знаков препинания означает, что перед обучением моделей и прогнозированием запросов конечной точки из речевых фрагментов будут удалены знаки препинания.
В LUIS пунктуация является отдельным маркером. Высказывание, содержащее период в конце, является отдельным высказыванием, чем один, который не содержит период в конце, и может получить два разных прогноза.
Если знак препинания не нормализован, LUIS по умолчанию не игнорирует знаки препинания, так как некоторые клиентские приложения могут поставить значение на эти знаки. Не забудьте включить примеры речевых фрагментов со знаками препинания и без них, чтобы оба стиля возвращали одни и те же относительные оценки.
Убедитесь, что модель обрабатывает пунктуацию в примерах речевых шаблонов (с пунктуацией и без) или в шаблонах, где легче игнорировать пунктуацию. Например: Я пытаюсь устроиться на должность {Job}[.]
Если же знаки препинания не являются обязательными для клиентского приложения, их можно игнорировать, используя нормализацию знаков препинания.
Игнорирование слов и пунктуации
Если вам нужно игнорировать некоторые слова или пунктуацию в шаблонах, используйте шаблон с синтаксисом игнорирования в квадратных скобках, []
.
Обучение со всеми речевыми фрагментами
Обучение недетерминировано: прогноз высказываний может немного отличаться в разных версиях или приложениях. Вы можете удалить недетерминированное обучение, обновив API параметров версии с помощью пары UseAllTrainingData name/value, чтобы использовать все обучающие данные.
Высказывания для тестирования
Разработчикам следует запустить тестирование приложения LUIS с помощью реальных данных, отправляя речевые фрагменты на URL-адрес конечной точки прогнозирования. Такие высказывания позволяют повысить эффективность поиска намерений и сущностей, используя интерфейс просмотра высказываний. Тесты, отправленные с помощью области тестирования на портале LUIS, не отправляются через конечную точку и не способствуют активному обучению.
Просмотр высказываний
Когда модель будет обучена, опубликована и готова принимать запросы на конечной точке, просмотрите предложенные LUIS высказывания. LUIS выбирает на конечной точке высказывания с низкими оценками по намерениям или сущностям.
Рекомендации
Пометка для значения слова
Если выбор слова или расположение слов совпадает, но не означает одно и то же, не помечайте его сущностью.
В следующих речевых фрагментах слово "село" — это омограф, то есть, слово, которое пишется одинаково, но имеет разное значение.
- "Какие виды каунти ярмарки происходят в районе Сиэтла этим летом?"
- Ваше село являет собой пример рачительного хозяйственного подхода.
Если вы хотите, чтобы сущность событий нашла все данные событий, пометьте слово "село" в первом речевом фрагменте, но не во втором.
Не игнорируйте возможные варианты речевого фрагмента
LUIS ожидает вариации в высказываниях намерения. Высказывания могут различаться с сохранением одного и того же общего смысла. Эти вариации могут относиться к длине высказывания, подбору слов и расположению слов.
Не используйте одинаковый формат | Используйте разные форматы |
---|---|
Buy a ticket to Seattle (Купить билет в Сиэтл) | Buy 1 ticket to Seattle (Купить 1 билет в Сиэтл) |
Buy a ticket to Paris (Купить билет в Париж) | Зарезервировать два билета на красный глаз в Париж в следующий понедельник |
Buy a ticket to Orlando (Купить билет в Орландо) | I would like to book 3 tickets to Orlando for spring break (Я хотел бы забронировать 3 билета в Орландо на весенний отпуск) |
Второй столбец использует разные команды (купить, зарезервировать, забронировать), различные количества (1, "два", 3) и разные договоренности слов, но все имеют одно и то же намерение приобрести авиабилеты для путешествий.
Не добавляйте слишком много примеров речевых фрагментов в намерения
После публикации приложения во время процесса его жизненного цикла разработки добавляйте только речевые фрагменты из активного обучения. Если высказывания очень похожи, добавьте шаблон.