Мониторинг описаний и вариантов использования метрик оценки

Предупреждение

Разработка функций потока запросов закончилась 20 апреля 2026 г. Функция будет полностью прекращена 20 апреля 2027 г. В дату выхода на пенсию, Prompt Flow переходит в режим только для чтения. Существующие потоки будут продолжать работать до этой даты.

Рекомендуемое действие: Перенесите рабочие нагрузки Prompt Flow на Microsoft Agent Framework до 20 апреля 2027 г.

В этой статье вы узнаете о метриках, используемых при мониторинге и оценке моделей сгенерированных ИИ в Машинное обучение Azure, а также о рекомендациях по использованию мониторинга моделей создания ИИ.

Важно

Мониторинг в настоящее время находится в общедоступной предварительной версии. Этот предварительный просмотр предоставляется без договора на уровне обслуживания и не рекомендуется для использования в рабочей среде. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Мониторинг моделей отслеживает производительность модели в рабочей среде и стремится понять его как с точки зрения обработки и анализа данных, так и с операционной точки зрения. Для реализации мониторинга Машинное обучение Azure использует сигналы мониторинга, полученные с помощью анализа данных по потоковой передаче данных. Каждый сигнал мониторинга имеет одну или несколько метрик. Пороговые значения этих метрик можно задать для получения оповещений с помощью Машинное обучение Azure или Azure Monitor об аномалиях модели или данных.

Заземленность

Основанность оценивает, насколько хорошо сформированные ответы модели соответствуют данным из входного источника. Ответы проверяются как утверждения на фоне контекста в источнике истинных данных, определенном пользователем: даже если ответы являются истинными (фактически правильными), если они не проверяются в исходном тексте, они оцениваются как неподтвержденные. Ответы, проверенные на соответствие "контексту" в эталонном источнике (например, в вашем входном источнике или базе данных).

  • Используйте его, когда: Вы обеспокоены тем, что ваше приложение создает информацию, которая не включена в состав обученных знаний искусственного интеллекта (также известных как непроверяемые сведения).|
  • Как прочитать его: Если ответы модели очень обоснованны, это означает, что факты, описанные в ответах системы искусственного интеллекта, проверяются источником входных данных или внутренней базой данных. И наоборот, низкие оценки обоснованности показывают, что факты, упомянутые в ответах системы искусственного интеллекта, могут быть недостаточно обоснованы или проверены входными данными или внутренней базой данных. В таких случаях созданные модели ответы могут быть основаны исключительно на предварительно обученных знаниях, которые могут не соответствовать конкретному контексту или домену заданного входного данных.
  • Масштаб:
    • 1 = "необоснованные": предполагает, что ответы не проверяются входным источником или внутренней базой данных.
    • 5 = "идеальная основа" предполагает, что факты, описанные в ответах системы ИИ, проверяются входным источником или внутренней базой данных.

Актуальность

Метрика релевантности измеряет степень, в которой созданные моделью ответы относятся к соответствующим и непосредственно связанным с заданными вопросами. Когда пользователи взаимодействуют с формируемой моделью искусственного интеллекта, они задают вопросы или запросы ввода, ожидая значимых и контекстно подходящих ответов.

  • Используйте его, когда: Вы хотите добиться высокой релевантности ответов вашего приложения, чтобы улучшить взаимодействие с пользователем и повысить эффективность ваших генеративных систем искусственного интеллекта.
  • Как понимать это: Ответы оцениваются по их способности отражать ключевые моменты вопроса из контекста источника достоверной информации. Если ответы модели очень важны, это означает, что система ИИ понимает входные данные и может создавать последовательные и контекстно соответствующие выходные данные. И наоборот, оценки низкой релевантности предполагают, что созданные ответы могут быть вне темы, отсутствие контекста или не отвечать на предполагаемые запросы пользователя надлежащим образом.  
  • Масштаб:
    • 1 = "неуместно" предполагает, что созданные ответы могут быть вне темы, отсутствие контекста или не отвечать на предполагаемые запросы пользователя должным образом.  
    • 5 = "идеальная релевантность" предлагает контекстно соответствующие выходные данные.

Согласованность

Связность оценивает, насколько хорошо языковая модель может производить результат, который плавно читается, естественно воспринимается и напоминает человеческий язык. Насколько хорошо бот сообщает свои сообщения кратко и четко, используя простой и подходящий язык и избегая ненужных или запутанных сведений? Насколько легко пользователю понять и следовать ответам бота, и насколько хорошо они соответствуют потребностям и ожиданиям пользователя?

  • Используйте его, когда: Вы хотите проверить удобочитаемость и удобство взаимодействия с созданными моделью ответами в реальных приложениях.
  • Как прочитать его: Если ответы модели очень последовательны, это означает, что система ИИ создает простой, хорошо структурированный текст с плавными переходами. Согласованный контекст во всем тексте улучшает удобочитаемость и понимание. Низкая согласованность означает, что предложения в прогнозируемом ответе модели имеют низкое качество и не связаны естественным образом. Созданный текст может быть лишён логической последовательности, и предложения могут казаться несвязанными, что затрудняет понимание читателями общего контекста или предполагаемого сообщения. Ответы оцениваются в их ясности, краткости, соответствующем языке и способности соответствовать определенным потребностям и ожиданиям пользователей
  • Масштаб:
    • 1 = "несогласованный": предполагает, что качество предложений в прогнозируемом ответе модели плохое, и они не подходят вместе естественно. Созданный текст может быть лишён логической последовательности, и предложения могут казаться несвязанными, что затрудняет понимание читателями общего контекста или предполагаемого сообщения.
    • 5 = "идеально согласованный": предполагает, что система ИИ создает простой, хорошо структурированный текст с плавными переходами и согласованным контекстом в тексте, который повышает удобочитаемость и понимание.

Плавность

Беглость оценивает языковую грамотность ответа, сгенерированного искусственным интеллектом. Он оценивает, насколько хорошо созданный текст соответствует грамматическим правилам, синтаксическим структурам и правильному использованию словаря, что приводит к лингвистически правильным и естественным и звучным ответам. Ответы измеряются качеством отдельных предложений, а также правильно ли они написаны и грамматически правильно. Эта метрика ценна при оценке способности языковой модели создавать текст, который соответствует правильной грамматике, синтаксису и использованию словаря.

  • Используйте его, когда: Вы хотите оценить грамматическую и лингвистическую точность ответов, предсказанных генеративным искусственным интеллектом.
  • Как прочитать его: Если ответы модели очень последовательны, это означает, что система ИИ следует грамматические правила и использует соответствующий словарь. Согласованный контекст во всем тексте улучшает удобочитаемость и понимание. И наоборот, низкие оценки беглости указывают на наличие грамматических ошибок и неловких выражений, что делает текст менее подходящим для практического использования.  
  • Масштаб:
    • 1 = "остановка" предполагает борьбу с грамматические ошибки и неловкое выражение, что делает текст менее подходящим для практических приложений.  
    • 5 = "идеальная беглость" предполагает, что система ИИ следует грамматическим правилам и использует соответствующий словарь. Согласованный контекст во всем тексте улучшает удобочитаемость и понимание.

Сходство

Сходство квантифицирует степень сходства между эталонным предложением (или документом) и предсказанием, сгенерированным моделью ИИ. Он вычисляется путем вычисления внедрений на уровне предложения как для эталонного текста, так и для предсказания модели. Эти векторы встраивания представляют собою высокоразмерные векторные представления предложений, захватывая их семантический смысл и контекст.

  • Используйте его, когда: если вы хотите провести объективную оценку качества работы модели ИИ (для задач создания текста, где у вас есть доступ к эталонным желаемым ответам). Сходство Ada позволяет сравнить созданный текст с нужным содержимым.
  • Как это прочитать: Ответы оцениваются на соответствие эталонному ответу, передавая ту же информацию и смысл, что и эталонный ответ для данного вопроса. Высокая оценка сходства Ada говорит о том, что прогноз модели контекстно схож с истинным значением, указывая на точные и соответствующие результаты. И наоборот, низкая оценка сходства Ada подразумевает несоответствие или расхождение между прогнозом и фактическим истинным значением, что потенциально сигнализирует о ошибках или недостатках работы модели.
  • Масштаб:
    • "nonequivalence" предполагает несоответствие или расхождение между прогнозом и реальными данными, что может сигнализировать о неточностях или недостатках в производительности модели.
    • 5 = "идеальная эквивалентность" предполагает, что прогноз модели контекстно похож на эталонное значение, указывая на точные и релевантные результаты.

Дальнейшие действия