Безопасность содержимого на портале Microsoft Foundry (классическая модель)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Примечание

Содержание в новой документации Microsoft Foundry может открываться по ссылкам в этой статье вместо документации Foundry (классической версии), которую вы просматриваете сейчас.

Безопасность содержимого ИИ Azure — это служба искусственного интеллекта, которая обнаруживает вредное содержимое, созданное пользователем и ИИ, в приложениях и службах. Безопасность содержимого ИИ Azure включает API, которые помогают обнаруживать и предотвращать вывод вредного содержимого. Интерактивная страница "Безопасность контента" попробуйте на портале Microsoft Foundry позволяет просматривать, изучать и пробовать пример кода для обнаружения вредного содержимого в разных модальностях.

Функции

Используйте Безопасность содержимого ИИ Azure для следующих сценариев:

Текстовое содержимое

  • Умеренное текстовое содержимое: сканирует и модерирует текстовое содержимое. Он определяет и классифицирует текст на основе различных уровней серьезности, чтобы обеспечить соответствующие ответы.
  • Обнаружение обоснованности: Определяет, основываются ли ответы ИИ на надежных источниках, предоставленных пользователем. Эта функция гарантирует, что ответы основаны на задуманном материале. Обнаружение достоверности помогает повысить надежность и фактическую точность ответов.
  • Защищенное обнаружение материалов для текста: определяет защищенный текстовый материал, например известные тексты песен, статьи или другое содержимое. Эта функция гарантирует, что ИИ не выводит это содержимое без разрешения.
  • Защищенное обнаружение материалов для кода: обнаруживает сегменты кода в выходных данных модели, которые соответствуют известному коду из общедоступных репозиториев. Эта функция помогает предотвратить некредитованное или несанкционированное воспроизведение исходного кода.
  • Экраны запроса: обеспечивает единый API для противодействия "джейлбрейку" и "обходным атакам".
    • Атаки с использованием джейлбрейка: попытки пользователей манипулировать ИИ, обойдя его протоколы безопасности или этические рекомендации. Примеры включают запросы, предназначенные для обмана ИИ в предоставлении неуместных ответов или выполнению задач, которые она была запрограммирована, чтобы избежать.
    • Непрямые атаки: также известные как атаки внедрения команд между доменами. Косвенные атаки включают внедрение вредоносных запросов в документы, которые может обрабатывать ИИ. Например, если документ содержит скрытые инструкции, искусственный интеллект может непреднамеренно следовать им, что приводит к непреднамеренному или небезопасным выходным данным.

Содержимое изображения

  • Умеренное содержимое изображения: аналогично модерации текста, эта функция фильтрует и оценивает содержимое изображения для обнаружения неуместных или вредных визуальных элементов.
  • Умеренное многомодальное содержимое: предназначено для обработки сочетания текста и изображений. Он оценивает общий контекст и любые потенциальные риски для нескольких типов содержимого.

Настраиваемая фильтрация

  • Пользовательские категории: позволяет пользователям определять определенные категории для модерации и фильтрации содержимого. Настраивает протоколы безопасности для уникальных потребностей.
  • Сообщение системы безопасности: предоставляет метод настройки системного сообщения для указания искусственного интеллекта о требуемом поведении и ограничениях. Он усиливает границы безопасности и помогает предотвратить нежелательные выходные данные.

Общие сведения о категориях вреда

Категории вреда

Категории Описание Термин API
Ненависть и справедливость Ненависть и дискриминация относятся к любому содержимому, которое атакует или использует дискриминационный язык в отношении человека или группы идентичности по определенным особенностям этих групп.

Это включает в себя, но не ограничивается:
  • Раса, этническое происхождение, национальность
  • Группы и выражения гендерной идентификации
  • Сексуальная ориентация
  • Религии
  • Персональный внешний вид и размер тела
  • Состояние инвалидности
  • Домогательства и издевательства
Hate
Сексуальный Сексуальный описывает язык, связанный с анатомическими органами и гениталиями, романтическими отношениями и сексуальными актами, действия, изображаемые в эротических или ласковых терминах, в том числе те, которые изображаются как нападение или принудительный сексуальный насильственный акт против воли человека.

Это включает в себя, но не ограничивается:
  • Вульгарное содержимое
  • Проституции
  • Нагота и порнография
  • Злоупотребления
  • Эксплуатация детей, жестокое обращение с детьми, уход за детьми
Sexual
Насилия Насилие описывает язык, связанный с физическими действиями, предназначенными для того, чтобы повредить, ранить, нанести ущерб или убить кого-то или что-то; описывает оружие и связанные с ним явления.

Это включает в себя, но не ограничивается:
  • Оружия
  • Издевательства и запугивание
  • Террористический и насильственный экстремизм
  • Преследование
Violence
Самоповреждение Самоповреждение относится к действиям, направленным на нанесение ущерба, травмирование, повреждение тела или совершение самоубийства.

Это включает в себя, но не ограничивается:
  • Расстройства питания
  • Издевательства и запугивание
SelfHarm
Соблюдение задач Помогает обеспечить согласованное поведение агентов ИИ в соответствии с инструкциями пользователя и целями задач. Он определяет несоответствия, такие как несогласованные вызовы инструментов, неправильные входные данные или выходные данные средства относительно намерения пользователя, а также несоответствия между ответами и входными данными клиента.

Уровни серьезности

Уровень Описание
Безопасный Содержимое может быть связано с насилием, самовосхищением, сексуальными или ненавистными категориями. Однако термины используются в общем, в журналистских, научных, медицинских и аналогичных профессиональных контекстах, что подходит для большинства аудиторий.
Низкий Содержимое, которое выражает предрассудки, суждения или мнения, включает в себя оскорбительное использование языка, стереотипы, использование в изучении вымышленного мира (например, в играх и литературе) и изображения с низкой степенью интенсивности.
Средний Содержимое, использующее оскорбительный, запугивающий или унизительный язык в отношении определённых групп идентичности, включает изображения поиска и выполнения вредных инструкций, фантазий, восхваление, поощрение вреда средней степени интенсивности.
Высокий Содержимое, отображающее явные и серьезные вредные инструкции, действия, ущерб или злоупотребление; включает в себя одобрение, славу или продвижение серьезных вредных актов, крайних или незаконных форм вреда, радикализации или неконсенсуального обмена властью или злоупотреблений.

Ограничения

Сведения о поддерживаемых регионах, ограничениях скорости и требованиях к входным данным для всех функций см. в обзоре службы "Безопасность содержимого". Поддерживаемые языки см. на странице поддержки языка .

Следующий шаг

Для начала работы с Безопасность содержимого ИИ Azure в портале Foundry следуйте пошаговому руководству.