Поделиться через


Наблюдаемость в генеративном ИИ

Замечание

Этот документ относится к порталу Microsoft Foundry (классическая модель).

Замечание

Этот документ относится к порталу Microsoft Foundry (new).

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

В современном мире, ориентированном на искусственный интеллект, создание операций искусственного интеллекта (GenAIOps) является революцией в том, как организации создают и развертывают интеллектуальные системы. Поскольку компании все чаще используют агенты и приложения ИИ для преобразования принятия решений, улучшения взаимодействия с клиентами и повышения качества инноваций, один элемент имеет первостепенное значение: надежные платформы оценки. Оценка — это не только контрольная точка. Это основа качества и доверия к приложениям ИИ. Без строгой оценки и мониторинга системы ИИ могут создавать контент, который:

  • Сфабриковано или не имеет отношения к реальности
  • Неуместный или несогласованный
  • Вредно в увековечении рисков и стереотипов содержания
  • Опасно распространять дезинформацию
  • Уязвимые для эксплойтов безопасности

Это место, где наблюдаемость становится важной. Эти возможности измеряют частоту и серьезность рисков в выходных данных искусственного интеллекта, позволяя командам систематически решать проблемы качества, безопасности и безопасности на протяжении всего процесса разработки ИИ— от выбора подходящей модели для мониторинга производительности, качества и безопасности.

Что такое наблюдаемость?

Наблюдаемость искусственного интеллекта относится к способности отслеживать, понимать и устранять неполадки систем ИИ на протяжении всего жизненного цикла. Он включает сбор и анализ таких сигналов, как метрики оценки, журналы, трассировки и выходные данные модели и агента, чтобы получить представление о производительности, качестве, безопасности и работоспособности эксплуатации.

Что такое оценщики?

Оценщики — это специализированные инструменты, которые измеряют качество, безопасность и надежность ответов ИИ. Реализуя систематические оценки в течение жизненного цикла разработки ИИ, команды могут выявлять и устранять потенциальные проблемы, прежде чем они влияют на пользователей. Следующие поддерживаемые вычислители предоставляют комплексные возможности оценки для различных типов приложений ИИ и проблем.

Общее назначение

Оценщик Цель Входные данные
Согласованность Измеряет логическую согласованность и поток ответов. Запрос, ответ
Беглость Измеряет качество естественного языка и удобочитаемость. Ответ
Обеспечение качества Измеряет различные аспекты качества в процессе ответов на вопросы комплексно. Запрос, контекст, ответ, земная истина

Дополнительные сведения см. в разделе "Оценка общего назначения".

Подобие текста

Оценщик Цель Входные данные
Сходство Измерение текстового сходства с помощью искусственного интеллекта. Запрос, контекст, земная истина
F1-мера Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой. Ответ, эталонная истина
BLEU Двуязычная оценка BLEU для измерения качества перевода оценивает совпадения n-грамм между ответом и эталонным текстом. Ответ, эталонная истина
GLEU Google-BLEU вариант для оценки на уровне предложения определяет совпадения в n-граммах между ответом и эталонными данными. Ответ, эталонная истина
РУМЯНА Recall-Oriented Замена для оценки Gisting измеряет перекрытия в n-граммах между ответом и эталонными данными. Ответ, эталонная истина
МЕТЕОР Метрика для оценки перевода с явным упорядочением измеряет пересечение n-грамм между ответом и истинными данными. Ответ, эталонная истина

Подробности см. в разделе оценка текстового сходства

RAG (генерация с дополненным поиском)

Оценщик Цель Входные данные
Возвращение Измеряет, насколько эффективно система получает соответствующую информацию. Запрос, контекст
Извлечение документов (предварительная версия) Измеряет точность в результатах извлечения, учитывая эталонные данные. Реальные данные, извлеченные документы
Обоснованность Измеряет согласованность ответа относительно полученного контекста. Запрос (необязательно), контекст, ответ
Groundedness Pro (предварительная версия) Измеряет, согласуется ли ответ с учетом полученного контекста. Запрос, контекст, ответ
Актуальность Измеряет, насколько соответствующий ответ соответствует запросу. Запрос, ответ
Полнота ответа (предварительная версия) Меры в той степени, в какой ответ завершен (не отсутствует критическая информация) по отношению к эталонным данным. Ответ, эталонная истина

Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).

Безопасность и защита (предварительная версия)

Оценщик Цель Входные данные
Ненависть и несправедливость Определяет предвзятое, дискриминационное или ненавистное содержимое. Запрос, ответ
Половой Определяет неуместное сексуальное содержимое. Запрос, ответ
Насилие Обнаруживает насильственное содержимое или подстрекательство. Запрос, ответ
Самоповредение Обнаруживает содержимое, повышающее или описывающее самоповредение. Запрос, ответ
Безопасность содержимого Комплексная оценка различных проблем безопасности. Запрос, ответ
Защищенные материалы Обнаруживает несанкционированное использование содержимого, защищенного авторским правом или иным образом защищенного. Запрос, ответ
Уязвимость кода Определяет проблемы безопасности в созданном коде. Запрос, ответ
Необоснованные атрибуты Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем. Запрос, контекст, ответ

Дополнительные сведения см. в статье о оценках рисков и безопасности.

Агенты (предварительная версия)

Оценщик Цель Входные данные
Определение намерений Измеряет, насколько точно агент определяет и решает намерения пользователей. Запрос, ответ
Соблюдение задач Измеряет, насколько хорошо агент следует за идентифицированными задачами. Запрос, ответ, определения инструментов (необязательно)
Точность вызова инструмента Измеряет, насколько эффективно агент выбирает и вызывает правильные инструменты. Запрос, вызовы ответов или инструментов, определения инструментов
Оценщик Цель Входные данные
Соблюдение задач Измеряет, выполняет ли агент задачи, определенные в соответствии с системными инструкциями. Запрос, ответ, определения инструментов (необязательно)
Завершение задачи Измеряет, успешно ли агент выполнил запрошенную задачу. Запрос, ответ, определения инструментов (необязательно)
Определение намерений Измеряет, насколько точно агент определяет и решает намерения пользователей. Запрос, ответ, определения инструментов (необязательно)
Эффективность навигации по задачам Определяет, соответствует ли последовательность шагов агента оптимальному или ожидаемому пути для измерения эффективности. Ответ, земля правда
Точность вызова инструмента Измеряет общее качество вызовов инструментов, включая выбор, правильность параметров и эффективность. Запрос, определения инструментов, вызовы инструментов (необязательно), ответ
Выбор инструмента Измеряет, был ли агентом выбран наиболее подходящие и эффективные инструменты для выполнения задачи. Запрос, определения инструментов, вызовы инструментов (необязательно), ответ
Точность ввода инструмента Проверяет правильность всех параметров вызова средства со строгими критериями, включая заземление, тип, формат, полноту и соответствие. Запросы, ответы, определения инструментов
Использование выходных данных средства Измеряет, правильно ли агент интерпретирует и использует контекстно выходные данные средства в ответах и последующих вызовах. Запрос, ответ, определения инструментов (необязательно)
Успех вызова инструмента Определяет, успешно ли выполняются все вызовы инструментов без технических сбоев. Ответ, определения инструментов (необязательно)

Дополнительные сведения смотрите в разделе Оценка агентов.

Оценки Azure OpenAI (предварительная версия)

Оценщик Цель Входные данные
Метчик моделей Классифицирует содержимое с помощью пользовательских рекомендаций и меток. Запрос, ответ, земная истина
Средство проверки строки Выполняет гибкие проверки текста и сопоставление шаблонов. Ответ
Сходство текста Оценивает качество текста или определяет семантическую близость. Ответ, эталонная истина
Средство оценки модели Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций. Запрос, ответ, земная истина

Дополнительные сведения см. в статье Azure OpenAI Graders.

Оценщики в жизненном цикле разработки

Используя эти вычислители стратегически на протяжении всего жизненного цикла разработки, команды могут создавать более надежные, безопасные и эффективные приложения ИИ, которые соответствуют потребностям пользователей, минимизируя потенциальные риски.

Схема жизненного цикла Enterprise GenAIOps, показывающая выбор модели, создание приложения ИИ и выполнение операций.

Три этапа оценки GenAIOps

GenAIOps использует следующие три этапа.

Выбор базовой модели

Прежде чем создавать приложение, необходимо выбрать правильный фундамент. Эта начальная оценка помогает сравнить различные модели на основе:

  • Качество и точность: насколько релевантны и последовательны ответы модели?
  • Производительность задачи: эффективно ли модель обрабатывает конкретные варианты использования?
  • Этические соображения: модель свободна от вредных предвзятости?
  • Профиль безопасности: что такое риск создания небезопасного содержимого?

Доступные средства: Microsoft Foundry benchmark для сравнения моделей с общедоступными наборами данных или собственными данными, а также пакет SDK для оценки ИИ Azure для тестирования определенных конечных точек модели.

Оценка на этапе подготовки к производству

После выбора базовой модели следующим шагом является разработка агента или приложения ИИ. Перед развертыванием в рабочей среде необходимо тщательное тестирование, чтобы убедиться, что агент ИИ или приложение готовы к реальному использованию.

Предварительная оценка включает в себя:

  • Тестирование с помощью наборов данных оценки. Эти наборы данных имитируют реалистичные взаимодействия пользователей, чтобы агент ИИ выполнял ожидаемые действия.
  • Определение пограничных вариантов: поиск сценариев, в которых качество ответа агента ИИ может снизить или вызвать нежелательные выходные данные.
  • Оценка надежности: обеспечение того, чтобы агент ИИ может обрабатывать диапазон входных вариантов без значительного снижения качества или безопасности.
  • Измерение ключевых метрик: метрики, такие как соблюдение задач, соответствие ответа, релевантность и безопасность, оцениваются для подтверждения готовности к рабочей среде.

Схема предварительной оценки моделей и приложений с шестью шагами.

Этап предварительного производства выступает в качестве окончательной проверки качества, уменьшая риск развертывания агента ИИ или приложения, который не соответствует требуемым стандартам производительности или безопасности.

Средства оценки и подходы:

  • Используйте собственные данные: вы можете оценить агентов ИИ и приложения на стадии предпродакшена, используя собственные данные оценки с поддерживаемыми оценщиками, включая оценщики качества, безопасности или пользовательские оценщики, а также просматривать результаты через портал Foundry. Используйте мастер оценки Foundry или поддерживаемые оценщики из Azure AI Evaluation SDK, включая качество генерации, безопасность или пользовательские оценщики. Просмотр результатов с помощью портала Foundry.

  • Симуляторы и агент красной команды ИИ: если у вас нет данных оценки (тестовые данные), симуляторы пакета SDK для оценки ИИ Azure могут помочь, создав связанные с темами или состязательные запросы. Эти симуляторы проверяют реакцию модели на запросы, соответствующие ситуации или напоминающие атаки (пограничные случаи).

    • Агент по тестированию AI имитирует сложные адверзивные атаки на вашу систему ИИ, используя широкий спектр атак по безопасности и защите с использованием открытой платформы Microsoft для средства идентификации рисков на Python, PyRIT.
    • Состязательные симуляторы внедряют статические запросы, которые имитируют потенциальные риски безопасности или атаки безопасности, такие как попытки взлома, помогая выявлять ограничения и подготавливать модель к непредвиденным условиям.
    • Контекстуально соответствующие симуляторы генерируют типичные, уместные разговоры, которые вы ожидаете от пользователей, чтобы проверить качество ответов. С помощью контекстных симуляторов можно оценить такие метрики, как заземление, релевантность, согласованность и беглость созданных ответов.

    Автоматические проверки с помощью агента красной команды ИИ повышают предварительную оценку риска, пошагово тестируя приложения ИИ для выявления рисков. Этот процесс включает имитированные сценарии атаки для выявления слабых мест в ответах модели до реального развертывания. Проводя проверки на прочность с использованием ИИ, вы можете обнаруживать и устранять потенциальные проблемы безопасности перед развертыванием. Эта утилита рекомендуется к использованию в процессах с участием человека, таких как классическое использование red teaming методов для ИИ, чтобы ускорить идентификацию рисков и помочь в оценке, проводимой экспертами.

Кроме того, можно использовать портал Foundry для тестирования создаваемых приложений ИИ.

  • Используйте собственные данные: Вы можете оценить приложения ИИ на стадии предпродакшн с помощью собственных данных оценки и поддерживаемых оценщиков, включая оценку качества генерации, безопасность или настраиваемые оценки, и просматривать результаты через портал Foundry. Используйте мастер оценки Foundry или поддерживаемые оценочные средства ИИ Azure, включая качество генерации, безопасность или настраиваемые средства оценки, а также просмотрите результаты через портал Foundry.

  • Симуляторы и агент красной команды ИИ: если у вас нет данных оценки (тестовых данных), симуляторы могут помочь, создавая тематические или состязательные запросы. Эти симуляторы проверяют реакцию модели на запросы, соответствующие ситуации или напоминающие атаки (пограничные случаи).

    • Агент по тестированию AI имитирует сложные адверзивные атаки на вашу систему ИИ, используя широкий спектр атак по безопасности и защите с использованием открытой платформы Microsoft для средства идентификации рисков на Python, PyRIT.

    Автоматическое сканирование с использованием группы по проверке безопасности искусственного интеллекта улучшает предварительную оценку рисков посредством систематического тестирования приложений ИИ на выявление рисков. Этот процесс включает имитированные сценарии атаки для выявления слабых мест в ответах модели до реального развертывания. Проводя проверки на прочность с использованием ИИ, вы можете обнаруживать и устранять потенциальные проблемы безопасности перед развертыванием. Эта утилита рекомендуется к использованию в процессах с участием человека, таких как классическое использование red teaming методов для ИИ, чтобы ускорить идентификацию рисков и помочь в оценке, проводимой экспертами.

Кроме того, можно использовать портал Foundry для тестирования создаваемых приложений ИИ.

Получив удовлетворительные результаты, вы можете развернуть приложение ИИ в рабочей среде.

Мониторинг после производства

После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях.

После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях.

  • Операционные метрики: регулярное измерение ключевых метрик агента ИИ.
  • Непрерывная оценка: позволяет оценивать качество и безопасность рабочего трафика с использованием выборочной частоты.
  • Запланированная оценка: Включает запланированную оценку качества и безопасности с помощью тестового набора данных для обнаружения дрейфа в базовых системах.
  • Запланированное тестирование красной команды: предоставляет запланированные возможности атакующего тестирования для поиска уязвимостей безопасности и защиты.
  • Оповещения Azure Monitor: действие Swift при возникновении вредных или неуместных выходных данных. Настройте оповещения для непрерывной оценки, чтобы получать уведомления, когда результаты оценки падают ниже порогового значения пропускного балла в производственной среде.

Эффективный мониторинг помогает поддерживать доверие пользователей и позволяет быстро устранить проблемы.

Наблюдаемость обеспечивает широкие возможности мониторинга, необходимые для современных сложных и быстро развивающихся ландшафтов ИИ. Это решение обеспечивает непрерывный мониторинг развернутых приложений ИИ для обеспечения оптимальной производительности, безопасности и качества в рабочих средах.

Панель мониторинга Foundry предоставляет критически важные метрики и данные в режиме реального времени. Это позволяет командам быстро выявлять и устранять проблемы с производительностью, проблемы безопасности или снижение качества.

Для приложений на основе агента Foundry предлагает расширенные возможности непрерывной оценки. Эти возможности могут обеспечить более глубокую видимость метрик качества и безопасности. Они могут создать надежную экосистему мониторинга, которая адаптируется к динамической природе приложений ИИ, сохраняя высокие стандарты производительности и надежности.

Постоянно отслеживая поведение приложения ИИ в рабочей среде, вы можете поддерживать высококачественные пользовательские возможности и быстро устранять все проблемы, которые возникают.

Создание доверия с помощью систематической оценки

GenAIOps устанавливает надежный процесс управления приложениями ИИ на протяжении всего жизненного цикла. Реализуя тщательную оценку на каждом этапе от выбора модели до развертывания и за ее пределами, команды могут создавать решения искусственного интеллекта, которые не только мощные, но надежные и безопасные.

Памятка по оценке

Цель Процедура Параметры
Для чего вы оцениваете? Определение или создание соответствующих оценщиков - Образец записной книжки для оценки качества и производительности

- Качество отклика агентов

- Безопасность и охрана (Пример записной книжки по безопасности и охране)

- Пользовательский (Пользовательский пример записной книжки)
Какие данные следует использовать? Отправка или создание соответствующего набора данных - Универсальный симулятор для измерения качества и производительности (пример записной книжки универсального симулятора)

- Симулятор оппонента для измерения безопасности и защищенности (пример ноутбука для симулятора оппонента)

— агент красной команды ИИ для проведения автоматизированных сканирований с целью оценки уязвимостей безопасности и защищенности (пример записной книжки агента красной команды ИИ)
Как выполнять оценки в наборе данных? Запуск оценки - Выполнение оценки агента

- Удаленный запуск в облаке

- Локальный запуск
Как выполнялась модель или приложение? Анализ результатов - Просмотр статистических показателей, просмотр сведений, сведений о оценке, сравнение запусков оценки
Как улучшить? Внесите изменения в модель, приложение или оценщиков — Если результаты оценки не соответствуют человеческим отзывам, настройте оценщика.

— Если результаты оценки соответствуют человеческим отзывам, но не соответствуют пороговым значениям качества и безопасности, применяются целевые меры по устранению рисков. Пример мер по снижению рисков: Azure AI Content Safety
Цель Процедура Параметры
Для чего вы оцениваете? Определение или создание соответствующих оценщиков - Качество RAG

- Качество агентов

- Безопасность и охрана (Пример записной книжки по безопасности и охране)

- Пользовательский (Пользовательский пример записной книжки)
Какие данные следует использовать? Отправка или создание соответствующего набора данных - Создание искусственного набора данных

— агент красной команды ИИ для проведения автоматизированных сканирований с целью оценки уязвимостей безопасности и защищенности (пример записной книжки агента красной команды ИИ)
Как выполнять оценки в наборе данных? Запуск оценки - Выполнение оценки агента

- Удаленный запуск в облаке
Как выполнялась модель или приложение? Анализ результатов - Просмотр статистических показателей, просмотр сведений, сведений о оценке, сравнение запусков оценки
Как улучшить? Внесите изменения в модель, приложение или оценщиков — Если результаты оценки не соответствуют человеческим отзывам, настройте оценщика.

— Если результаты оценки соответствуют человеческим отзывам, но не соответствуют пороговым значениям качества и безопасности, применяются целевые меры по устранению рисков. Пример мер по снижению рисков: Azure AI Content Safety

Использование собственной виртуальной сети для оценки

В целях изоляции сети можно использовать собственную виртуальную сеть для оценки. Дополнительные сведения см. в статье "Настройка приватного канала".

Замечание

Данные оценки отправляются в Application Insights, если Application Insights подключена. Поддержка виртуальной сети для Application Insights пока недоступна, но ожидается в будущем.

Поддержка региона виртуальной сети

География Поддерживаемый регион Azure
США westus, westus3, eastus, eastus2
Австралия австралиявосток
Франция francecentral
Индия Южная Индия
Япония japaneast
Норвегия Норвегия Восток
Швеция SwedenCentral
Швейцария Швейцария север
ОАЭ uaenorth
ВЕЛИКОБРИТАНИЯ UKSOUTH

Поддержка регионов

В настоящее время некоторые оценочные системы с поддержкой ИИ доступны только в следующих регионах:

Регион Ненависть и несправедливость, сексуальные материалы, насильственные, самоповреждения, непрямая атака, уязвимости кода, необоснованные атрибуты Устойчивость Pro Защищаемый материал
Восток США 2 Поддерживается Поддерживается Поддерживается
Центральная Швеция Поддерживается Поддерживается Не применимо
Северо-Центральный район США Поддерживается Не применимо Не применимо
Центральная Франция Поддерживается Не применимо Не применимо
Западная Швейцария Поддерживается Не применимо Не применимо

Поддержка региона оценки игровой площадки агента

Регион Состояние
East US Поддерживается
Восток США 2 Поддерживается
West US Поддерживается
Западная часть США 2 Поддерживается
Западная часть США 3 Поддерживается
Центральная Франция Поддерживается
Norway East Поддерживается
Центральная Швеция Поддерживается

Ценообразование

Функции наблюдения, такие как оценки рисков и безопасности и непрерывные оценки, выставляются на основе потребления, как указано на странице цен Azure.