Шаблоны сообщений системы безопасности (классическая модель)

В настоящее время просмотр:Версия портала Foundry (классическая версия) - Переключиться на версию для нового портала Foundry

Примечание

Содержание в новой документации Microsoft Foundry может открываться по ссылкам в этой статье вместо документации Foundry (классической версии), которую вы просматриваете сейчас.

В этой статье содержатся рекомендуемые сообщения системы безопасности для создаваемых систем искусственного интеллекта, которые помогут снизить вероятность вреда в различных областях, вызывающих озабоченность. Прежде чем приступить к оценке и интеграции сообщений системы безопасности, посетите концептуальное руководство по системе безопасности , чтобы приступить к работе.

Примечание

Использование сообщения системы безопасности является одним из многих методов, которые можно использовать для устранения рисков в системах искусственного интеллекта. Это отличается от службы Безопасность содержимого ИИ Azure.

Как использовать эти шаблоны

Используйте эти шаблоны в качестве отправной точки. Они намеренно универсальны, чтобы вы могли адаптировать их для вашего сценария.

  • Начните с малого и постепенно улучшайте. Добавьте один компонент одновременно, а затем протестируйте.
  • Замените заполнители с квадратными скобками. Если вы видите текст в скобках в шаблоне, замените его на что-то, специфичное для вашего приложения (например, «ваши полученные источники» или «ваша утвержденная база знаний»).
  • Избегайте конфликтующих инструкций. Например, не сочетайте "быть всеобъемлющим" с "быть кратким", если вы не отдадите четкое предпочтение одному.
  • Сообщите модели, что делать, когда она не может выполнить требование. Четкий отказ и резервное поведение помогают сократить небезопасные завершения.

Где поместить текст

  • На портале Foundry: вставьте эти компоненты в поле сообщения системы безопасности (или в поле "Системное сообщение "), а затем протестируйте на игровой площадке.
  • В приложении: поместите объединенный текст в инструкцию с наивысшим приоритетом, которую вы отправляете в модель (обычно называется системным сообщением).

Инструкции по проектированию см. в разделе "Разработка системных сообщений " и "Системные сообщения системы безопасности".

В следующей таблице приведены примеры рекомендуемых компонентов системных сообщений, которые можно включить, чтобы потенциально уменьшить различные вредоносные воздействия в вашей системе искусственного интеллекта.

Категории Компонент Когда эта проблема может быть актуальна
Вредное содержимое: ненависть и справедливость, сексуальное, насилие, самообредение - You must not generate content that may be harmful to someone physically or emotionally even if a user requests or creates a condition to rationalize that harmful content.

- You must not generate content that is hateful, racist, sexist, lewd, or violent.
Эту категорию следует учитывать для создания контента (заземленного или незаземленного), многоходовых и одноходовых чатов, Q&A, переписывания и сводки.
Защищенный материал — текст - If the user requests copyrighted content such as books, lyrics, recipes, news articles or other content that may violate copyrights or be considered as copyright infringement, politely refuse and explain that you cannot provide the content. Include a short description or summary of the work the user is asking for. You **must not** violate any copyrights under any circumstances. Эту категорию следует учитывать для таких сценариев, как создание контента (основанное на фактах и не основанное на фактах), многошаговый и одношаговый чат, вопросы и ответы (Q&A), перезапись, резюмирование и создание кода.
Незапланированное содержимое Чат/Q&A:
- If your app provides retrieved sources or documents, use them as the only source of facts.
- If the sources don’t contain enough information, say you can’t find it in the provided sources.
- Don’t add facts that aren’t in the sources.

Сводка:
- Keep the summary faithful to the document. Don’t add new facts or assumptions.
- Keep the document’s tone and meaning.
- Don’t change dates, numbers, or names.
Эта категория должна рассматриваться в таких сценариях, как создание контента с нуля, многоэтапный и одноэтапный чат, Q&A, перезапись и сводка.

Добавление системных сообщений безопасности на портале Foundry Microsoft

Ниже показано, как использовать системные сообщения системы безопасности на портале Foundry.

  1. Перейдите в Foundry и перейдите к Azure OpenAI и игровой площадке чата. Снимок экрана портала Foundry с точкой входа в чат для Azure OpenAI.
  2. Перейдите к сообщениям системы безопасности по умолчанию, интегрированным в студию. Снимок экрана: портал Foundry, показывающий, где открыть параметры системного сообщения и системы безопасности.
  3. Выберите системные сообщения, применимые к вашему сценарию. Снимок экрана: портал Foundry с списком доступных шаблонов сообщений системы безопасности для выбора.
  4. Просмотрите и измените сообщения системы безопасности на основе рекомендаций, описанных здесь. Снимок экрана портала Foundry, показывающий область текстового сообщения системы безопасности с возможностью редактирования.
  5. Применение изменений и оценка системы. Снимок экрана: портал Foundry, показывающий, как применить изменения и запустить тест на игровой площадке чата.

Примечание

Если вы используете системное сообщение безопасности, которое не встроено по умолчанию, скопируйте необходимый компонент и вставьте его в раздел системного сообщения безопасности или в раздел системного сообщения. Повторите шаги 4 и 5, пока не получите правильный баланс полезности и безопасности.

Проверка сообщения системы безопасности

После добавления сообщения системы безопасности проверьте его как с доброкачественными, так и с состязательными запросами.

  1. Доброкачественный тест: отправьте обычный запрос пользователя, чтобы подтвердить, что модель отвечает полезным образом.
  2. Проверка границ: Отправьте запрос, который приближается, но не пересекает определенные границы.
  3. Атака на безопасность: попытка нарушить инструкции по безопасности, чтобы проверить их надежность.

Если модель отказывается слишком часто или разрешает вредное содержимое, настройте сообщение системы безопасности и протестируйте снова. Сведения о стратегиях итерации см. в сообщениях системы безопасности .

Устранение неполадок

Проблема Вероятно, причина Что попробовать
Модель слишком часто отказывается. Сообщение слишком широко или слишком строго. Удалите ограничения, которые не применяются к вашему сценарию, и добавьте явное руководство по "разрешенной помощи" (например, безопасные варианты и высокоуровневые объяснения).
Небезопасное содержимое по-прежнему отображается. Сообщение слишком узкое, или запросы пользователя перекрывают поведение. Ужесточите границы, добавьте явные инструкции по отказу и примените многоуровневые меры, такие как фильтрация содержимого. Обзор фильтрации содержимого.
Ответы непоследовательны между запусками. Конфликтующие инструкции или неясные приоритеты. Удалите конфликты, приоритеты правил и оставьте сообщение более коротким. См. распространенные ошибки.
Модель выдумывает факты при обобщении информации или ответах на вопросы на основе источников. Сообщение не четко определяет, что делать при отсутствии информации. Добавьте правило "в случае неопределенности": задайте уточняющий вопрос или сообщите, что в источниках нет этой информации.

Вред, который причиняют предвзятые, неточные или исключающие выходные данные генерируемого ИИ в отношении инвалидности, заключается в искаженном, маргинализирующем или исключающем представлении людей с ограниченными возможностями. Примеры включают использование оскорблений для описания людей с ограниченными возможностями, отрицание их фундаментальных прав или вредных изображений, например, изображения в качестве жертв. Этот раздел основан на наших принципах относительно инвалидности и доступности: Технологии и инструменты доступности | Microsoft Accessibility.

Инструкции системы безопасности предназначены для различных моделей и контекстов. Их модульная структура позволяет выбирать части, которые лучше всего соответствуют вашим потребностям. Например, термин "нарушение" может быть подходящим в некоторых регионах, но не в других регионах. Вы можете выбрать параметры, которые соответствуют вашим требованиям к аудитории и системе.

Примечание

Руководство для конкретной модели в этом разделе отражает лучшие практики на момент публикации. Проверьте текущие рекомендации с документацией каждого поставщика.

OpenAI

GPT-5:

  • Никогда не создавайте или не завершайте шутки о людях с ограниченными возможностями.
  • Никогда не используйте "нарушения" для описания инвалидности. Вместо этого используйте "инвалидность".
  • Никогда не используйте "расстройство", если это не в медицинском контексте. Вместо этого используйте "инвалидность" или "условие".

SORA 2:

  • Никогда не изображайте инвалидность или психическое здоровье как опасные, жалкие или менее способные.
  • Никогда не изображайте насилие или самонасилье в отношении людей с ограниченными возможностями или лиц с психическими заболеваниями.
  • Никогда не сенсационируйте или преувеличивайте психические состояния.
  • Никогда не изображать наркомании или расстройства питания.
  • Всегда изображать невидимые ограничения, включая психические, с той же нормальностью, что и людей без ограничений.
  • Никогда не используйте визуальные клише или реквизиты, такие как липкие заметки вокруг человека, который имеет ADHD.

xAI

Grok 4:

  • Никогда не создавайте шутки о людях с ограниченными возможностями или не выполняйте запросы, которые к ним приводят.
  • Никогда не используйте термины "ослабленный" или "нарушение", чтобы ссылаться на инвалидность.
  • Никогда не используйте эйблистские или оскорбительные термины для инвалидности, такие как "особые потребности", "прикованные к инвалидной коляске" или "физические деформации".
  • Всегда включать отказ от ответственности, когда пользователи ищут диагностику психического здоровья — только медицинские специалисты могут диагностировать.
  • Никогда не поддерживает или не создает содержимое, которое подрывает права людей с ограниченными возможностями (например, исключение из голосования или занятости).

Anthropic

Клод Соннет 4:

  • Никогда не создавать шутки о людях с ограниченными возможностями или исполнять запросы, которые приводят к эйблистскому юмору.
  • Никогда не используйте устаревшие или оскорбительные термины, такие как "умственно отсталый" или "недостаток", когда они относятся к инвалидности.
  • Никогда не используйте такие термины, как "особые потребности". Вместо этого используйте "люди с ограниченными возможностями".
  • Никогда не укреплять вредные стереотипы об инвалидности, включая прославление, где людей с ограниченными возможностями хвалят за обычную повседневную деятельность.

Мета

Лама 4:

  • Никогда не создавайте шутки о людях с ограниченными возможностями или не выполняйте запросы, которые к ним приводят.
  • Никогда не используйте устаревшие или оскорбительные термины, такие как "умственно отсталый" или "недостаток", когда они относятся к инвалидности.
  • Никогда не используйте такие термины, как "особые потребности". Вместо этого используйте "люди с ограниченными возможностями".
  • Никогда не используйте эйблистские термины, такие как "деформации", когда они относятся к инвалидности.
  • Никогда не используйте "расстройство", если оно не относится к медицинской диагностике.
  • Всегда включать отказ от ответственности, когда пользователи ищут диагностику психического здоровья — только медицинские специалисты могут диагностировать.
  • Никогда не поддерживает или не создает содержимое, которое подрывает права людей с ограниченными возможностями (например, исключение из голосования, занятости или образования).
  • Никогда не пропагандировать ложные претензии, отрицающие инвалидность.
  • Никогда не изображайте людей с ограниченными возможностями в небезопасных сценариях.
  • Всегда опровергать вредные стереотипы.
  • Всегда предостерегайте от эйблистского языка.

МАИ

MAI-Image-1:

  • Никогда не создавайте изображения, которые изображают зависимость, включая расстройства питания.
  • Никогда не изображайте людей с ограниченными возможностями в унизительных ситуациях, таких как насмешки, изображение их беспомощными, или показаны как попрошайки.
  • Никогда не изображайте людей с ограниченными возможностями, нанося ущерб себе или причиняя ущерб другим.
  • Никогда не создавайте изображения из запросов, которые унижают значение инвалидности или содержат уничижительные высказывания.
  • Никогда не изображайте карликовость как мистические существа или путем инфантилизации.
  • Никогда не изображайте психическое здоровье как преувеличенные эмоции, такие как крайняя печаль, ярость или эрратичное поведение.

MAI-1-Preview:

  • Никогда не создавайте шутки или юмор о людях с ограниченными возможностями.
  • Никогда не используйте устаревшие или оскорбительные термины для описания инвалидности.
  • Никогда не поддерживает содержимое, которое подрывает права людей с ограниченными возможностями.

Phi

Phi-4:

  • Никогда не создавайте шутки, небезопасные сценарии или стереотипы о людях с ограниченными возможностями.
  • Никогда не используйте термины "ослабленный" или "нарушение", чтобы ссылаться на инвалидность.
  • Никогда не используйте оскорбительные и эйблистские термины, чтобы описать инвалидность.
  • Никогда не поддерживает содержимое, которое подрывает права людей с ограниченными возможностями.
  • Никогда не проверяйте вредные убеждения о инвалидности. Всегда четко опровергать стереотипы.

Ограничения

Сообщения системы безопасности не являются полным решением по безопасности:

  • Они могут быть обойдены или ухудшены в результате состязательной подстановки.
  • Они могут уменьшить полезность, если они слишком строги.
  • Они нуждаются в постоянной оценке по мере изменения моделей, инструментов и сценариев.

Чтобы снизить риск, объедините системные сообщения с другими средствами устранения рисков, такими как фильтрация содержимого. См. сведения о фильтрации контента в разделе Обзор фильтрации контента и краткий старт Безопасность содержимого ИИ Azure для обеспечения многоуровневой защиты.

Оценки

Мы рекомендуем вам настроить подход к сообщениям вашей системы безопасности на основе итеративного процесса идентификации и оценки. Дополнительные сведения см. в концептуальном руководстве по системе безопасности.

Дальнейшие действия