Категории вреда и уровни серьезности в Microsoft Foundry

Microsoft Foundry guardrails гарантирует, что созданные ИИ выходные данные соответствуют этическим рекомендациям и стандартам безопасности. Система фильтрации содержимого классифицирует вредное содержимое в четырех категориях — ненависть, сексуальное насилие и самоповредение— каждый класс оценивается на четырех уровнях серьезности (безопасный, низкий, средний и высокий) для содержимого текста и изображения. Используйте эти категории и уровни для настройки элементов управления guardrail, которые определяют и устраняют риски, связанные с вредным содержимым в развертываниях и агентах модели.

Для получения общего представления о том, как работают ограничители, см. раздел Обзор ограничителей и элементов управления.

Система безопасности содержимого использует нейронные многоклассовые модели классификации для обнаружения и фильтрации вредного содержимого как для текста, так и для изображения. Содержимое, обнаруженное на "безопасном" уровне серьезности, помечено в заметках, но не подлежит фильтрации и не настраивается.

Примечание

Модели безопасности содержимого текста для категорий ненависти, сексуального насилия и самоповредения обучаются и проверяются на следующих языках: английский, немецкий, японский, испанский, французский, итальянский, португальский и китайский. Служба может работать на многих других языках, но точность обнаружения и ложные положительные показатели могут отличаться. В случаях вызова проводите тщательное тестирование, чтобы проверить производительность в соответствии с вашими требованиями.

Описания категорий вреда

В следующей таблице приведены категории возможного ущерба, поддерживаемые защитными мерами Foundry:

Категории	Описание
Ненависть и справедливость	Ненависть и вред, связанные с несправедливым отношением, относятся к любому контенту, который нападает или использует дискриминационный язык в отношении человека или группы, основанных на определённых отличительных признаках этих групп. Эта категория включает в себя, но не ограничивается: • Раса, этническое происхождение, национальность • Группы гендерной идентичности и их выражение • Сексуальная ориентация •Религии • Персональный внешний вид и размер тела • Состояние инвалидности • Домогательства и издевательства
Сексуальный	Сексуальный описывает язык, связанный с анатомическими органами и гениталиями, романтическими отношениями и сексуальными актами, действия, изображаемые в эротических или ласковых терминах, в том числе те, которые изображаются как нападение или принудительный сексуальный насильственный акт против воли человека. Эта категория включает в себя, но не ограничивается: • Непристойное содержимое •Проституции • Нагота и порнография •Злоупотребления • Эксплуатация детей, жестокое обращение с детьми, уход за детьми
Насилия	Насилие описывает язык, связанный с физическими действиями, предназначенными для того, чтобы повредить, ранить, нанести ущерб или убить кого-то или что-то; описывает оружие и связанные с ним явления. Эта категория включает в себя, но не ограничивается: •Оружия • Издевательство и запугивание • Террористический и насильственный экстремизм •Преследование
Самоповредение	Самоповреждение относится к действиям, направленным на нанесение ущерба, травмирование, повреждение тела или совершение самоубийства. Эта категория включает в себя, но не ограничивается: • Расстройства питания • Издевательство и запугивание
Соблюдение задач	Помогает обеспечить согласованное поведение агентов ИИ в соответствии с инструкциями пользователя и целями задач. Он определяет несоответствия, такие как несогласованные вызовы инструментов, неправильные входные данные или выходные данные средства относительно намерения пользователя, а также несоответствия между ответами и входными данными клиента.

Уровни серьезности

Система безопасности содержимого классифицирует вредное содержимое на четырех уровнях серьезности:

Уровень серьезности	Описание
Безопасного	Не обнаружено вредного материала. Аннотированный, но никогда не отфильтрованный.
Низкий	Слабо вредное вещество. Включает в себя предубежденные взгляды, мягкие изображения в вымышленном контексте или личном опыте.
Средний	Умеренно вредный материал. Включает графические изображения, издевательства или содержимое, которое способствует вредным действиям.
Высокий	Тяжелый вредный материал. Включает экстремистское содержимое, откровенные сцены или контент, который призывает к серьезному вреду.

Сопоставление уровней серьезности с конфигурацией защиты

При конфигурировании элемента управления ограничителями для категории вреда нужно задать порог серьезности, определяющий, какое содержимое отмечается:

Параметр порогового значения	Поведение
Выкл.	Обнаружение отключено для этой категории. Содержимое не помечено или заблокировано.
Низкий	Помечает содержимое с низким уровнем серьезности и выше. Наименьший ограничивающий параметр.
Средний	Помечает содержимое со средним уровнем серьезности и выше.
Высокий	Помечает только самое тяжелое содержимое. Наиболее строгий параметр.

Содержимое на "безопасном" уровне всегда аннотировано, но никогда не блокируется независимо от порогового значения. Чтобы настроить эти пороговые значения, см. инструкции по настройке ограничителей и управлений.

Подробные определения серьезности для текста

В следующих таблицах приведены подробные описания и примеры для каждого уровня серьезности в каждой категории вреда для текстового содержимого. Перейдите на вкладку "Определения серьезности" , чтобы просмотреть примеры.

Предупреждение

Вкладка "Определения серьезности " в этом документе содержит примеры вредного содержимого, которое может беспокоить некоторых читателей.

Уровни серьезности ненависти и справедливости

Уровень серьезности	Описание	Пример текста
Безопасный	Содержимое безопасно, но может содержать термины ненависти и справедливости, используемые в универсальных и безопасных контекстах, таких как: Образования Медиа Официальная статистика История Медицины Науки Другие аналогичные контексты	`Black people should not be killed by police or mistreated just because of their skin color.`
Низкий	Содержимое, содержащее положительную характеристику или защиту групп идентичности, демонстрирует дискриминацию, стереотипы и предвзятые суждения или мнения, связанные с речью ненависти или направленные на группы идентичности. К ним относятся: Оскорбления в исследовательских документах, словарях или средствах массовой информации с прямой цитатой Общая ненавистническая речь, направленная на объекты, отдельных лиц или группы Ограниченная речь о ненависти или изображение негативных тональности в вымышленных контекстах (например, игры, фильмы, литература)	`I hate you! You are so stupid.`
Средний	Содержимое, содержащее оскорбления, издевательства, запугивание, де-гуманизацию или дерогацию отдельных лиц или групп. К ним относятся: Язык, который высмеивает и имитирует атрибуты идентификационных групп Описание отдельных лиц или групп как неполноценных или несовестных Отрицание или уничижение существования групп идентичности Тексты, отрицающие исторические, хорошо документированные и насильственные события, такие как Холокост, рабство или колония	`Old people should not be hired to work, especially with computers. They need to stay in nursing homes.`
Высокий	Содержимое, содержащее язык вражды в качестве пропаганды, угрожающей или призывающей к насилию против групп по идентичности, радикализует, вербует или побуждает людей присоединиться к экстремистским усилиям или распространять язык вражды. К ним относятся: Подстрекательский, оскорбительный и вульгарный язык, направленный на конкретных лиц или группы идентичности Претензии на превосходство, чтобы оправдать дискриминацию, сегрегацию или исключение Тексты, содержащие любую форму прославления нацистской символики, символики СС, ККК и флага Конфедерации за пределами исторического, образовательного или художественного контекста Тексты, которые демонстрируют подготовку преступлений на почве ненависти, прославление и одобрение насилия против идентификационных групп, или похвалу, прославление или одобрение геноцида	`[Identity Group] threaten our existence, so we should wipe them out.`

Уровни тяжести сексуальных проявлений

Уровень серьезности	Описание	Пример текста
Безопасный	Содержимое безопасно, но может содержать термины сексуального характера, используемые в универсальных и безопасных контекстах, таких как: Образования Медиа Официальная статистика История Медицины Науки Упоминания о семейных или романтических отношениях	`Fewer young adults are having sex than in previous generations.`
Низкий	Содержание, которое выражает предубежденные или осуждающие мнения о сексуально связанных темах, или упоминает сексуально связанные термины в вымышленной или реальной ситуации, которые не являются особо откровенными. К ним относятся: Упоминания о сексуальной анатомии или сексуальных сценах в вымышленных и художественных контекстах Медицинские рецепты и диагноз Личный опыт, сексуальные проблемы и травмы с некоторым графическим контентом, включая стратегии и ресурсы	`These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them.`
Средний	Контент, описывающий сексуальное возбуждение и активность в явном и графическом терминах, включает фантазии о сексе и сексуальном насилии. К ним относятся: Упоминания о сексуальной стимуляции и мастурбации Порнография ограничена бизнесом и проституцией, эскортом и т. д. в качестве карьеры без секс-сцен Реклама товаров для взрослых, таких как секс-игрушки Личные опыты и описания, связанные с сексуальными, эротическими или тантрическими массажами, стрип-клубами, эротическими шоу, атрибутами и практиками БДСМ	`We both climaxed at the same time.`
Высокий	Содержание, описывающее запрос сексуальных коммерческих услуг, содержащее подробные описания сексуальной активности, насильственных сексуальных злоупотреблений и изнасилований, а также неконсенсуальные обмены властью, злоупотребление и voyeurism. Это также включает в себя содержимое, которое используется для поощрения, одобрения или славы экстремальных или незаконных сексуальных актов. К ним относятся: Любое изображение материалов о сексуальном насилии над детьми (CSAM), включая любую явную или потенциальную ссылку на секс с несовершеннолетними Уход за детьми, жестокое обращение с детьми и другая эксплуатация детей Явные или потенциальные ссылки на инцест, зоофилию, некрофилию и т. д. Вербовка людей в торговле сексом, включая манипуляцию жертвой	`I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son.`

Уровни серьезности насилия

Уровень серьезности	Описание	Пример текста
Безопасный	Содержимое безопасно, но может содержать термины, связанные с насилием, используемым в универсальных и безопасных контекстах, таких как: Образования Медиа Официальная статистика История Медицины Науки Общие объекты, которые не используются в качестве оружия Технические спецификации охоты и стрелкового спорта, а также оружия	`Thanks, I had a blast! You are the bomb!`
Низкий	Содержимое в вымышленных контекстах (например, игры, литература, искусство), которые изображают насильственные или графические сцены без славения, одобрения или неправильного намерения. К ним относятся: Личный опыт насилия (без насильственного намерения) Предвзятые, предубежденные, осуждающие или субъективные взгляды на насилие Упоминания о насильственных актах и смерти с низкой интенсивностью	`Physical punishment is a way to correct bad behavior and doesn’t cause harm to children.`
Средний	Содержимое, содержащее графическое изображение насилия и смерти на средней интенсивности, а также фантазии о насильственных действиях или угрозах. К ним относятся: Тексты, возлагающие вину на жертву или изображающие преступников в положительном свете Исторические ссылки на геноцид и Холокост без одобрения или славы Ссылки на известные массовые стрельбы без одобрения или прославления Ссылки на террористические группы и группы насильственных экстремистов и события без одобрения или прославления Тексты, которые ищут советы или рекомендации или тексты, которые предоставляют инструкции по выполнению насильственных действий против животного, человека, группы лиц или объекта или инфраструктуры, которые могут привести к индивидуальному или массовому ущербу Издевательства и запугивание	`Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught.`
Высокий	Содержание, содержащее экстремистскую и насильственную пропаганду и насильственные идеологии в Интернете, описывающее, восхваляющее, поддерживающее, одобряющее или прославляющее убийства как часть террористической деятельности, помогает террористическим организациям или их делу. К ним относятся: Тексты, которые дают инструкции по принадлежности к террористическим и насильственным экстремистским группам Тексты, предоставляющие инструкции о том, как набирать последователей, влиять на людей в сторону террористической причины или экстремистской идеологии, принимать радикальные взгляды или предоставлять учебные материалы о том, как работают террористические и насильственные экстремистские группы, или предоставлять информацию о своих лидерах и членах Тексты, которые планируют и координируют нападения на отдельных лиц или группы людей, включая стрельбу, использование бомб и взрывчатых веществ на гражданской инфраструктуре, или нападения с использованием холодного оружия, совершаемые некомбатантами или не-террористами. Содержимое, ссылающееся на принудительные труды, включая детей, домашний сервитуд, преследования и принудительные медицинские процедуры	`Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight.`

Уровни серьезности самоповредения

Уровень серьезности	Описание	Пример текста
Безопасный	Содержимое безопасно, но может содержать термины, связанные с самоповредением, используемым в универсальных и безопасных контекстах, таких как: Официальная статистика Образования Медиа Медицинский Действия, описывающие случайное самоповредение, советы по первой помощи и т. д.	`Binging and purging may be a warning sign for people with a history of extreme weight loss.`
Низкий	Содержимое, содержащее ссылки на персонажи планирования или совершения самоубийства в вымышленном контексте (например, литературы, фильмов) или содержит изображения актов самоповреждения или самоубийства с низкой интенсивностью. К ним относятся: Личные предвзятые, предубежденные, осуждающие или мнения о самоповреждении Связь с расстройствами пищевого поведения, поиск или предоставление инструкций по радикальному и нездоровому снижению веса. Личный опыт, связанный с самоповреждением, включая поиск профессиональной помощи	`I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?`
Средний	Содержимое, которое насмехается над жертвами или пережившими самоповреждения, такими как расстройства пищевого поведения или суицид, а также издевательства и запугивания, которые провоцируют и способствуют действиям самоповреждения. К ним относятся: Самостоятельное повреждение, представленное в качестве решения проблемы Фантазии, желания, мечты или личный опыт, связанные с самоповреждением/самоубийством Тексты, которые ищут или дают советы, инструкции или рекомендации по выполнению самоповреждения Издевательства и запугивание, которые подстрекают и способствуют самоповреждению	`Go kill yourself, you are worthless.`
Высокий	Содержимое, включающее исследования или консультации, или предоставляет инструкции и методы того, как причинять себе вред, что приводит к смерти, или как совершить самоубийство, а также прославление и одобрение самоубийства, или другие серьезные виды самоповреждения. К ним относятся: Тексты, которые объясняют, как написать прощальное сообщение семье Самодекапитация Сжигание живых	`Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble.`

Подробные определения серьезности для изображений

В следующих таблицах приведены подробные описания и примеры для каждого уровня серьезности в каждой категории вреда для содержимого изображения. Перейдите на вкладку "Определения серьезности" , чтобы просмотреть примеры.

Содержимое изображения

Предупреждение
Определения серьезности

Предупреждение

Уровни серьезности ненависти и справедливости

Уровень серьезности	Описание	Пример изображения
Безопасный	Содержимое безопасно, но может содержать изображения, связанные с ненавистью и справедливостью, без выраженного настроения или с нейтральным настроением в недискриминационными и неоскорбительными способами в следующих контекстах или аналогичных. Журналистика Историческое Медицинский Юридическое Образовательный Географическое	Неконфедератные флаги, например флаги стран или штатов, которые содержат кресты. Изображение флага Юнион Джек Великобритании Изображение эмансипации порабощенных людей в США на исторических фотографиях
Низкий	Содержимое, содержащее либо положительные эмоции, ложные положительные эмоции, либо отрицательные, предвзятые эмоции, различающие группы идентичности от других. Это содержимое предназначено для активации эмоционального ответа. К ним относятся: Защита Нацистский символизм, конфедератный флаг, символизм Ku Klux Klan Стереотипирование Дискриминация по трудоустройству	Представления движения «Нет ненавистной речи» Представления деприоритизированных кандидатов на работу, таких как кандидаты с ограниченными возможностями, в условиях собеседования
Средний	Содержимое, содержащее негативные настроения в отношении групп идентичности и других людей, что приводит к продвижению действий против групп идентичности и настроений превосходства. К ним относятся: Оскорбление, изоляция, высмеивание Нацистский флаг, флаг Конфедерации, и ЛГБТКЯ+ вариации и товары	Изображения, содействующие социальному избеганию [идентификационных групп] Изображения, изображающие теорию расового улучшения и евгенику
Высокий	Содержимое, содержащее негативные настроения и речь ненависти в отношении групп по идентичности, порождающие речь ненависти или преступления ненависти. К ним относятся: Расизм Нападения на ЛГБТКЯ+ Эйблизм Дискриминация по признаку пола Славный нацистский символизм, флаг Конфедерации, символизм Ku Klux Klan Насильственный флаг конфедерации	Антисемитическое изображение , изображающее "Южный крест", который имеет синий косой крест с очевидной принадлежностью к насилию (например, демонстрация или использование оружия)

Уровни тяжести сексуальных проявлений

Уровень серьезности	Описание	Пример изображения
Безопасный	Содержимое безопасно, но содержит сексуально связанные изображения, используемые в общем смысле. К ним относятся: Семейные и романтические отношения Несексуальная нагота Одежда Общие объекты Неполовая поза или активность Спаривание животных Сексуальное здоровье	Изображения объятий или осуществление несексуальных физических контактов Изображения, показывающие проявление привязанности, такие как поцелуи без использования языка и без обнажения
Низкий	Содержимое, содержащее сексуальное предложение поведения или действия. К ним относятся: Личный опыт Моделирование моды Нагота в произведении искусства Искусство тела Отображение Racy	Изображения людей
Средний	Содержимое, содержащее коммерческий и любительский эротический и/или порнографический материал без визуального фотографического проникновения, а также обнаженных или полуобнаженных участников, участвующих в сексуальных сценах, предназначенных для сексуального возбуждения. К ним относятся: Сексуальное моделирование Мягкая нагота в произведении искусства Работа в секс-индустрии или секс-шопы Скрытная сексуальная активность За кулисами производства порно Танцы на пилоне	Изображение полового акта, которое может быть частично окклудировано, но по-прежнему ясно присутствует на изображении
Высокий	Содержание, содержащее явное подробное изображение сексуальных органов и сексуальных актов, включая незаконные акты. К ним относятся: Любительская софт-кор и хард-кор порнография Сексуальное домогательство Вуайеризм Секс в произведении искусства BDSM без согласия или изнасилования Сексуальная эксплуатация и жестокое обращение с детьми Уход за детьми Инцест	Изображение участия в сексуальной деятельности с животными или трупами

Уровни серьезности насилия

Уровень серьезности	Описание	Пример изображения
Безопасный	Содержимое безопасно, но содержит связанные с насилием изображения, используемые в общем смысле. К ним относятся: Спящая или лежащая поза Общие объекты Ненасильственная деятельность Веревки, а не петли Режущие инструменты, используемые на кухне или при шитье Раны, шрамы и хирургическое лечение Охота и стрелковый спорт Игрушки и игрушечные пистолеты Боевые практики Повреждение объектов и вандализм Символика террористов без торговых марок	Изображение нереалистичного оружия и лезвийных инструментов
Низкий	Контент, содержащий сцены насилия, связанные с изображениями и действиями в реальном или вымышленном контексте, с низким количеством крови. К ним относятся: Огнестрельное оружие, орудия и режущие инструменты на выставке и в использовании Нереалистичный труп Нереалистичное насилие Анимированное оружие Легкие травмы и личный опыт Веревки как петля Смерть в исторических, образовательных или погребальных параметрах Нереалистичная террористическая символика Корриды	Изображение флагов ИГИЛ/Аль-Каиды
Средний	Содержимое, содержащее умеренное графическое насилие и насильственные акты, направленные на идентифицированный целевой объект. К ним относятся: Вскрытие Преступление или место смерти Смерть животных (естественная или охота), жертва животными, злоупотребление животными Порабощение Геноцид и массовые убийства в исторических, образовательных учреждениях Скотобойне Насилие в семье и физическое насилие Издевательства Огнестрельное и другое оружие применяются против цели	Изображение использования силы и принуждения агрессивно доминировать или запугать человека
Высокий	Содержимое, содержащее явное подробное изображение насилия и насильственных действий с высоким уровнем жестокости. К ним относятся: Жестокие травмы и смерть Расчленение, обезглавление, сжигание живых Декомпозиция трупа Терроризм, террористические группы и флаги Принудительный труд и рабство, принудительные медицинские процедуры Преследование Тело жертвы в терроризме и военных преступлениях Стрельбищное мероприятие Другие виды экстремизма	Изображения смерти, когда они демонстрируются террористическими группами с флагами и символикой ИГИЛ

Уровни серьезности самоповредения

Уровень серьезности	Описание	Пример изображения
Безопасный	Содержимое безопасно, но содержит изображения, связанные с самоповреждением, используемые в общем смысле. К ним относятся: Низкий жир тела Акт, не связанный с самоповреждением Случайное повреждение тела	Изображения прыжка с парашютом из самолета
Низкий	Содержимое, изображающее или содержащее акты самоповреждения в реальном мире или вымышленных контекстах с низким уровнем насилия. К ним относятся: Шрамы Травмы самоповреждения в процессе восстановления Нереалистичное самоповречение Истощенные лица или животные	Изображения актов, связанных с самоповреждением, инструментами, травмами и эмоциональным состоянием
Средний	Контент, содержащий умеренные графические изображения, связанные с самоповреждением и самоубийством. К ним относятся: Вскрытие Преступление или место смерти Издевательства	Представления об использовании силы и принуждения с целью агрессивного доминирования или запугивания человека до самоповреждения.
Высокий	Содержимое, содержащее явные подробные изображения самоповреждения и самоубийства высокой степени жестокости. К ним относятся: Неотвратимое действие самоповреждения Акты самоповреждения Самоубийство	Изображение преднамеренного самоубийства, где человек совершил самоубийство, прыгнув с высоты здания

Устранение неполадок

Общие сведения о классификациях серьезности

Если содержимое классифицируется на непредвиденном уровне серьезности:

Просмотрите подробные определения серьезности, чтобы понять критерии классификации
Проверьте, отсутствует ли контекст, который изменит интерпретацию (образовательный, исторический, вымышленный)
Убедитесь, что язык содержимого находится в поддерживаемом списке для оптимальной точности
Используйте аннотации, чтобы увидеть все обнаруженные категории, а не только отфильтрованных.

Настройка чувствительности

Если вы видите слишком много ложных положительных или отрицательных результатов:

Проверьте пороговые настройки в конфигурации "guardrail"
Учитывайте, требует ли тип контента (образовательный, медицинский, творческий) индивидуальной политики контента.
Для поддерживаемых вариантов использования запросите настраиваемую конфигурацию фильтра содержимого

Дополнительные сведения см. в разделе Настройка ограничений и контрольных механизмов.

Дальнейшие действия

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-28