Безопасность содержимого на портале Microsoft Foundry

Замечание

Этот документ относится к порталу Microsoft Foundry (классическая модель).

🔍 Ознакомьтесь с документацией по Microsoft Foundry (новая), чтобы узнать о новом портале.

Безопасность содержимого ИИ Azure — это служба искусственного интеллекта, которая обнаруживает вредное содержимое, созданное пользователем и ИИ, в приложениях и службах. Безопасность содержимого ИИ Azure включает API, которые помогают обнаруживать и предотвращать выход вредного содержимого. Интерактивная страница " Безопасность содержимого" на портале Microsoft Foundry позволяет просматривать, изучать и пробовать пример кода для обнаружения вредного содержимого в разных модальности.

Features

Используйте безопасность содержимого ИИ Azure для следующих сценариев:

Текстовое содержимое

Умеренное текстовое содержимое: сканирует и модерирует текстовое содержимое. Он определяет и классифицирует текст на основе различных уровней серьезности, чтобы обеспечить соответствующие ответы.
Определение обоснованности: Определяет, основаны ли ответы ИИ на доверенных источниках, предоставленных пользователем. Эта функция гарантирует, что ответы основаны на предназначенном материале. Обнаружение заземления помогает повысить надежность и фактическую точность ответов.
Защищенное обнаружение материалов для текста: определяет защищенный текстовый материал, например известные тексты песен, статьи или другое содержимое. Эта функция гарантирует, что ИИ не выводит это содержимое без разрешения.
Защищенное обнаружение материалов для кода: обнаруживает сегменты кода в выходных данных модели, которые соответствуют известному коду из общедоступных репозиториев. Эта функция помогает предотвратить некредитованное или несанкционированное воспроизведение исходного кода.
Защитные экраны: предоставляют унифицированный API для решения проблем с джейлбрейком и косвенными атаками.
- Атаки в тюрьме: попытки пользователей манипулировать ИИ в обход своих протоколов безопасности или этических рекомендаций. Примеры включают запросы, предназначенные для обмана ИИ в предоставлении неуместных ответов или выполнению задач, которые она была запрограммирована, чтобы избежать.
- Непрямые атаки: также известные как атаки на внедрение запросов между доменами. Косвенные атаки включают внедрение вредоносных запросов в документы, которые может обрабатывать ИИ. Например, если документ содержит скрытые инструкции, искусственный интеллект может непреднамеренно следовать им, что приводит к непреднамеренному или небезопасным выходным данным.

Содержимое изображения

Умеренное содержимое изображения: аналогично модерации текста, эта функция фильтрует и оценивает содержимое изображения для обнаружения неуместных или вредных визуальных элементов.
Умеренное многомодальное содержимое: предназначено для обработки сочетания текста и изображений. Он оценивает общий контекст и любые потенциальные риски для нескольких типов содержимого.

Настраиваемая фильтрация

Пользовательские категории: позволяет пользователям определять определенные категории для модерации и фильтрации содержимого. Настраивает протоколы безопасности для уникальных потребностей.
Сообщение системы безопасности: предоставляет метод настройки системного сообщения для указания искусственного интеллекта о требуемом поведении и ограничениях. Он усиливает границы безопасности и помогает предотвратить нежелательные выходные данные.

Общие сведения о категориях вреда

Категории вреда

Category	Description	Термин API
Ненависть и справедливость	Ненависть и вред относятся к любому содержимому, которое атакует или использует дискриминационный язык по отношению к человеку или идентификационной группе на основе определенных характеристик этих групп. Среди прочего необходимо отметить следующие улучшения: Раса, этническое происхождение, национальность Группы и выражения гендерной идентификации сексуальная ориентация; Religion Персональный внешний вид и размер тела Состояние инвалидности Домогательства и издевательства	`Hate`
Sexual	Сексуальный описывает язык, связанный с анатомическими органами и гениталиями, романтическими отношениями и сексуальными актами, действия, изображаемые в эротических или ласковых терминах, в том числе те, которые изображаются как нападение или принудительный сексуальный насильственный акт против воли человека. Это включает в себя, но не ограничивается: Вульгарное содержимое Prostitution Нагота и порнография Abuse Эксплуатация детей, жестокое обращение с детьми, уход за детьми	`Sexual`
Violence	Насилие описывает терминологию, связанную с физическими действиями, предназначенными для того, чтобы ранить или убить кого-либо или что-либо; описывает оружие, пистолеты и связанные с ними объекты. Это включает в себя, но не ограничивается: Weapons Издевательства и запугивание Террористический и насильственный экстремизм Stalking	`Violence`
Self-Harm	Самоповреждение описывает речь о физических действиях, направленных на намеренное причинение боли, травмы, повреждения тела или суицида. Это включает в себя, но не ограничивается: Расстройства питания Издевательства и запугивание	`SelfHarm`

Уровни серьезности

Level	Description
Safe	Содержимое может быть связано с насилием, самовосхищением, сексуальными или ненавистными категориями. Однако термины используются в целом, журналистских, научных, медицинских и аналогичных профессиональных контекстов, которые подходят для большинства аудиторий.
Low	Содержимое, которое выражает предрассудки, суждение или мнения мнения, включает в себя оскорбительный использование языка, стереотипы, варианты использования, изучающие вымышленный мир (например, игры, литература) и изображения с низкой интенсивностью.
Medium	Содержимое, использующее оскорбительные, оскорбительные, высмеивание, запугивание или унижение языка в отношении определенных групп удостоверений, включает изображения поиска и выполнения вредных инструкций, фантазий, славения, поощрения вреда в средней интенсивности.
High	Содержимое, отображающее явные и серьезные вредные инструкции, действия, ущерб или злоупотребление; включает в себя одобрение, славу или продвижение серьезных вредных актов, крайних или незаконных форм вреда, радикализации или неконсенсуального обмена властью или злоупотреблений.

Limitations

Сведения о поддерживаемых регионах, ограничениях скорости и требованиях к входным данным для всех функций см. в обзоре службы "Безопасность содержимого". Поддерживаемые языки см. на странице поддержки языка .

Следующий шаг

Чтобы начать работу с безопасностью контента в Azure на портале Foundry, следуйте руководству.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-12-30