Категории вреда и уровни серьезности в Microsoft Foundry

Microsoft Foundry guardrails гарантирует, что созданные ИИ выходные данные соответствуют этическим рекомендациям и стандартам безопасности. Система фильтрации содержимого классифицирует вредное содержимое в четырех категориях — ненависть, сексуальное насилие и самоповредение— каждый класс оценивается на четырех уровнях серьезности (безопасный, низкий, средний и высокий) для содержимого текста и изображения. Используйте эти категории и уровни для настройки элементов управления guardrail, которые определяют и устраняют риски, связанные с вредным содержимым в развертываниях и агентах модели.

Для получения общего представления о том, как работают ограничители, см. раздел Обзор ограничителей и элементов управления.

Система безопасности содержимого использует нейронные многоклассовые модели классификации для обнаружения и фильтрации вредного содержимого как для текста, так и для изображения. Содержимое, обнаруженное на "безопасном" уровне серьезности, помечено в заметках, но не подлежит фильтрации и не настраивается.

Примечание

Модели безопасности содержимого текста для категорий ненависти, сексуального насилия и самоповредения обучаются и проверяются на следующих языках: английский, немецкий, японский, испанский, французский, итальянский, португальский и китайский. Служба может работать на многих других языках, но точность обнаружения и ложные положительные показатели могут отличаться. В случаях вызова проводите тщательное тестирование, чтобы проверить производительность в соответствии с вашими требованиями.

Описания категорий вреда

В следующей таблице приведены категории возможного ущерба, поддерживаемые защитными мерами Foundry:

Категории Описание
Ненависть и справедливость Ненависть и вред, связанные с несправедливым отношением, относятся к любому контенту, который нападает или использует дискриминационный язык в отношении человека или группы, основанных на определённых отличительных признаках этих групп.

Эта категория включает в себя, но не ограничивается:
• Раса, этническое происхождение, национальность
• Группы гендерной идентичности и их выражение
• Сексуальная ориентация
•Религии
• Персональный внешний вид и размер тела
• Состояние инвалидности
• Домогательства и издевательства
Сексуальный Сексуальный описывает язык, связанный с анатомическими органами и гениталиями, романтическими отношениями и сексуальными актами, действия, изображаемые в эротических или ласковых терминах, в том числе те, которые изображаются как нападение или принудительный сексуальный насильственный акт против воли человека.

Эта категория включает в себя, но не ограничивается:
• Непристойное содержимое
•Проституции
• Нагота и порнография
•Злоупотребления
• Эксплуатация детей, жестокое обращение с детьми, уход за детьми
Насилия Насилие описывает язык, связанный с физическими действиями, предназначенными для того, чтобы повредить, ранить, нанести ущерб или убить кого-то или что-то; описывает оружие и связанные с ним явления.

Эта категория включает в себя, но не ограничивается:
•Оружия
• Издевательство и запугивание
• Террористический и насильственный экстремизм
•Преследование
Самоповредение Самоповреждение относится к действиям, направленным на нанесение ущерба, травмирование, повреждение тела или совершение самоубийства.

Эта категория включает в себя, но не ограничивается:
• Расстройства питания
• Издевательство и запугивание
Соблюдение задач Помогает обеспечить согласованное поведение агентов ИИ в соответствии с инструкциями пользователя и целями задач. Он определяет несоответствия, такие как несогласованные вызовы инструментов, неправильные входные данные или выходные данные средства относительно намерения пользователя, а также несоответствия между ответами и входными данными клиента.

Уровни серьезности

Система безопасности содержимого классифицирует вредное содержимое на четырех уровнях серьезности:

Уровень серьезности Описание
Безопасного Не обнаружено вредного материала. Аннотированный, но никогда не отфильтрованный.
Низкий Слабо вредное вещество. Включает в себя предубежденные взгляды, мягкие изображения в вымышленном контексте или личном опыте.
Средний Умеренно вредный материал. Включает графические изображения, издевательства или содержимое, которое способствует вредным действиям.
Высокий Тяжелый вредный материал. Включает экстремистское содержимое, откровенные сцены или контент, который призывает к серьезному вреду.

Сопоставление уровней серьезности с конфигурацией защиты

При конфигурировании элемента управления ограничителями для категории вреда нужно задать порог серьезности, определяющий, какое содержимое отмечается:

Параметр порогового значения Поведение
Выкл. Обнаружение отключено для этой категории. Содержимое не помечено или заблокировано.
Низкий Помечает содержимое с низким уровнем серьезности и выше. Наименьший ограничивающий параметр.
Средний Помечает содержимое со средним уровнем серьезности и выше.
Высокий Помечает только самое тяжелое содержимое. Наиболее строгий параметр.

Содержимое на "безопасном" уровне всегда аннотировано, но никогда не блокируется независимо от порогового значения. Чтобы настроить эти пороговые значения, см. инструкции по настройке ограничителей и управлений.

Подробные определения серьезности для текста

В следующих таблицах приведены подробные описания и примеры для каждого уровня серьезности в каждой категории вреда для текстового содержимого. Перейдите на вкладку "Определения серьезности" , чтобы просмотреть примеры.

Текстовое содержимое

Предупреждение

Вкладка "Определения серьезности " в этом документе содержит примеры вредного содержимого, которое может беспокоить некоторых читателей.

Подробные определения серьезности для изображений

В следующих таблицах приведены подробные описания и примеры для каждого уровня серьезности в каждой категории вреда для содержимого изображения. Перейдите на вкладку "Определения серьезности" , чтобы просмотреть примеры.

Содержимое изображения

Предупреждение

Вкладка "Определения серьезности " в этом документе содержит примеры вредного содержимого, которое может беспокоить некоторых читателей.

Устранение неполадок

Общие сведения о классификациях серьезности

Если содержимое классифицируется на непредвиденном уровне серьезности:

  • Просмотрите подробные определения серьезности, чтобы понять критерии классификации
  • Проверьте, отсутствует ли контекст, который изменит интерпретацию (образовательный, исторический, вымышленный)
  • Убедитесь, что язык содержимого находится в поддерживаемом списке для оптимальной точности
  • Используйте аннотации, чтобы увидеть все обнаруженные категории, а не только отфильтрованных.

Настройка чувствительности

Если вы видите слишком много ложных положительных или отрицательных результатов:

  • Проверьте пороговые настройки в конфигурации "guardrail"
  • Учитывайте, требует ли тип контента (образовательный, медицинский, творческий) индивидуальной политики контента.
  • Для поддерживаемых вариантов использования запросите настраиваемую конфигурацию фильтра содержимого

Дополнительные сведения см. в разделе Настройка ограничений и контрольных механизмов.

Дальнейшие действия