Microsoft Foundry guardrails гарантирует, что созданные ИИ выходные данные соответствуют этическим рекомендациям и стандартам безопасности. Система фильтрации содержимого классифицирует вредное содержимое в четырех категориях — ненависть, сексуальное насилие и самоповредение— каждый класс оценивается на четырех уровнях серьезности (безопасный, низкий, средний и высокий) для содержимого текста и изображения. Используйте эти категории и уровни для настройки элементов управления guardrail, которые определяют и устраняют риски, связанные с вредным содержимым в развертываниях и агентах модели.
Для получения общего представления о том, как работают ограничители, см. раздел Обзор ограничителей и элементов управления.
Система безопасности содержимого использует нейронные многоклассовые модели классификации для обнаружения и фильтрации вредного содержимого как для текста, так и для изображения. Содержимое, обнаруженное на "безопасном" уровне серьезности, помечено в заметках, но не подлежит фильтрации и не настраивается.
Примечание
Модели безопасности содержимого текста для категорий ненависти, сексуального насилия и самоповредения обучаются и проверяются на следующих языках: английский, немецкий, японский, испанский, французский, итальянский, португальский и китайский. Служба может работать на многих других языках, но точность обнаружения и ложные положительные показатели могут отличаться. В случаях вызова проводите тщательное тестирование, чтобы проверить производительность в соответствии с вашими требованиями.
Описания категорий вреда
В следующей таблице приведены категории возможного ущерба, поддерживаемые защитными мерами Foundry:
| Категории |
Описание |
|
Ненависть и справедливость |
Ненависть и вред, связанные с несправедливым отношением, относятся к любому контенту, который нападает или использует дискриминационный язык в отношении человека или группы, основанных на определённых отличительных признаках этих групп.
Эта категория включает в себя, но не ограничивается: • Раса, этническое происхождение, национальность • Группы гендерной идентичности и их выражение • Сексуальная ориентация •Религии • Персональный внешний вид и размер тела • Состояние инвалидности • Домогательства и издевательства |
|
Сексуальный |
Сексуальный описывает язык, связанный с анатомическими органами и гениталиями, романтическими отношениями и сексуальными актами, действия, изображаемые в эротических или ласковых терминах, в том числе те, которые изображаются как нападение или принудительный сексуальный насильственный акт против воли человека.
Эта категория включает в себя, но не ограничивается: • Непристойное содержимое •Проституции • Нагота и порнография •Злоупотребления • Эксплуатация детей, жестокое обращение с детьми, уход за детьми |
|
Насилия |
Насилие описывает язык, связанный с физическими действиями, предназначенными для того, чтобы повредить, ранить, нанести ущерб или убить кого-то или что-то; описывает оружие и связанные с ним явления.
Эта категория включает в себя, но не ограничивается: •Оружия • Издевательство и запугивание • Террористический и насильственный экстремизм •Преследование |
|
Самоповредение |
Самоповреждение относится к действиям, направленным на нанесение ущерба, травмирование, повреждение тела или совершение самоубийства.
Эта категория включает в себя, но не ограничивается: • Расстройства питания • Издевательство и запугивание |
|
Соблюдение задач |
Помогает обеспечить согласованное поведение агентов ИИ в соответствии с инструкциями пользователя и целями задач. Он определяет несоответствия, такие как несогласованные вызовы инструментов, неправильные входные данные или выходные данные средства относительно намерения пользователя, а также несоответствия между ответами и входными данными клиента. |
Уровни серьезности
Система безопасности содержимого классифицирует вредное содержимое на четырех уровнях серьезности:
| Уровень серьезности |
Описание |
|
Безопасного |
Не обнаружено вредного материала. Аннотированный, но никогда не отфильтрованный. |
|
Низкий |
Слабо вредное вещество. Включает в себя предубежденные взгляды, мягкие изображения в вымышленном контексте или личном опыте. |
|
Средний |
Умеренно вредный материал. Включает графические изображения, издевательства или содержимое, которое способствует вредным действиям. |
|
Высокий |
Тяжелый вредный материал. Включает экстремистское содержимое, откровенные сцены или контент, который призывает к серьезному вреду. |
Сопоставление уровней серьезности с конфигурацией защиты
При конфигурировании элемента управления ограничителями для категории вреда нужно задать порог серьезности, определяющий, какое содержимое отмечается:
| Параметр порогового значения |
Поведение |
|
Выкл. |
Обнаружение отключено для этой категории. Содержимое не помечено или заблокировано. |
|
Низкий |
Помечает содержимое с низким уровнем серьезности и выше. Наименьший ограничивающий параметр. |
|
Средний |
Помечает содержимое со средним уровнем серьезности и выше. |
|
Высокий |
Помечает только самое тяжелое содержимое. Наиболее строгий параметр. |
Содержимое на "безопасном" уровне всегда аннотировано, но никогда не блокируется независимо от порогового значения. Чтобы настроить эти пороговые значения, см. инструкции по настройке ограничителей и управлений.
Подробные определения серьезности для текста
В следующих таблицах приведены подробные описания и примеры для каждого уровня серьезности в каждой категории вреда для текстового содержимого. Перейдите на вкладку "Определения серьезности" , чтобы просмотреть примеры.
Текстовое содержимое
Предупреждение
Вкладка "Определения серьезности " в этом документе содержит примеры вредного содержимого, которое может беспокоить некоторых читателей.
Уровни серьезности ненависти и справедливости
|
Уровень серьезности |
Описание |
Пример текста |
| Безопасный |
Содержимое безопасно, но может содержать термины ненависти и справедливости, используемые в универсальных и безопасных контекстах, таких как: - Образования
- Медиа
- Официальная статистика
- История
- Медицины
- Науки
- Другие аналогичные контексты
|
Black people should not be killed by police or mistreated just because of their skin color. |
| Низкий |
Содержимое, содержащее положительную характеристику или защиту групп идентичности, демонстрирует дискриминацию, стереотипы и предвзятые суждения или мнения, связанные с речью ненависти или направленные на группы идентичности. К ним относятся:- Оскорбления в исследовательских документах, словарях или средствах массовой информации с прямой цитатой
- Общая ненавистническая речь, направленная на объекты, отдельных лиц или группы
- Ограниченная речь о ненависти или изображение негативных тональности в вымышленных контекстах (например, игры, фильмы, литература)
|
I hate you! You are so stupid. |
| Средний |
Содержимое, содержащее оскорбления, издевательства, запугивание, де-гуманизацию или дерогацию отдельных лиц или групп. К ним относятся: - Язык, который высмеивает и имитирует атрибуты идентификационных групп
- Описание отдельных лиц или групп как неполноценных или несовестных
- Отрицание или уничижение существования групп идентичности
- Тексты, отрицающие исторические, хорошо документированные и насильственные события, такие как Холокост, рабство или колония
|
Old people should not be hired to work, especially with computers. They need to stay in nursing homes. |
| Высокий |
Содержимое, содержащее язык вражды в качестве пропаганды, угрожающей или призывающей к насилию против групп по идентичности, радикализует, вербует или побуждает людей присоединиться к экстремистским усилиям или распространять язык вражды. К ним относятся: - Подстрекательский, оскорбительный и вульгарный язык, направленный на конкретных лиц или группы идентичности
- Претензии на превосходство, чтобы оправдать дискриминацию, сегрегацию или исключение
- Тексты, содержащие любую форму прославления нацистской символики, символики СС, ККК и флага Конфедерации за пределами исторического, образовательного или художественного контекста
- Тексты, которые демонстрируют подготовку преступлений на почве ненависти, прославление и одобрение насилия против идентификационных групп, или похвалу, прославление или одобрение геноцида
|
[Identity Group] threaten our existence, so we should wipe them out. |
Уровни тяжести сексуальных проявлений
|
Уровень серьезности |
Описание |
Пример текста |
| Безопасный |
Содержимое безопасно, но может содержать термины сексуального характера, используемые в универсальных и безопасных контекстах, таких как: - Образования
- Медиа
- Официальная статистика
- История
- Медицины
- Науки
- Упоминания о семейных или романтических отношениях
|
Fewer young adults are having sex than in previous generations. |
| Низкий |
Содержание, которое выражает предубежденные или осуждающие мнения о сексуально связанных темах, или упоминает сексуально связанные термины в вымышленной или реальной ситуации, которые не являются особо откровенными. К ним относятся: - Упоминания о сексуальной анатомии или сексуальных сценах в вымышленных и художественных контекстах
- Медицинские рецепты и диагноз
- Личный опыт, сексуальные проблемы и травмы с некоторым графическим контентом, включая стратегии и ресурсы
|
These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them. |
| Средний |
Контент, описывающий сексуальное возбуждение и активность в явном и графическом терминах, включает фантазии о сексе и сексуальном насилии. К ним относятся: - Упоминания о сексуальной стимуляции и мастурбации
- Порнография ограничена бизнесом и проституцией, эскортом и т. д. в качестве карьеры без секс-сцен
- Реклама товаров для взрослых, таких как секс-игрушки
- Личные опыты и описания, связанные с сексуальными, эротическими или тантрическими массажами, стрип-клубами, эротическими шоу, атрибутами и практиками БДСМ
|
We both climaxed at the same time. |
| Высокий |
Содержание, описывающее запрос сексуальных коммерческих услуг, содержащее подробные описания сексуальной активности, насильственных сексуальных злоупотреблений и изнасилований, а также неконсенсуальные обмены властью, злоупотребление и voyeurism. Это также включает в себя содержимое, которое используется для поощрения, одобрения или славы экстремальных или незаконных сексуальных актов. К ним относятся: Любое изображение материалов о сексуальном насилии над детьми (CSAM), включая любую явную или потенциальную ссылку на секс с несовершеннолетними Уход за детьми, жестокое обращение с детьми и другая эксплуатация детей Явные или потенциальные ссылки на инцест, зоофилию, некрофилию и т. д. Вербовка людей в торговле сексом, включая манипуляцию жертвой |
I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son. |
Уровни серьезности насилия
|
Уровень серьезности |
Описание |
Пример текста |
| Безопасный |
Содержимое безопасно, но может содержать термины, связанные с насилием, используемым в универсальных и безопасных контекстах, таких как:- Образования
- Медиа
- Официальная статистика
- История
- Медицины
- Науки
- Общие объекты, которые не используются в качестве оружия
- Технические спецификации охоты и стрелкового спорта, а также оружия
|
Thanks, I had a blast! You are the bomb! |
| Низкий |
Содержимое в вымышленных контекстах (например, игры, литература, искусство), которые изображают насильственные или графические сцены без славения, одобрения или неправильного намерения. К ним относятся: - Личный опыт насилия (без насильственного намерения)
- Предвзятые, предубежденные, осуждающие или субъективные взгляды на насилие
- Упоминания о насильственных актах и смерти с низкой интенсивностью
|
Physical punishment is a way to correct bad behavior and doesn’t cause harm to children. |
| Средний |
Содержимое, содержащее графическое изображение насилия и смерти на средней интенсивности, а также фантазии о насильственных действиях или угрозах. К ним относятся: - Тексты, возлагающие вину на жертву или изображающие преступников в положительном свете
- Исторические ссылки на геноцид и Холокост без одобрения или славы
- Ссылки на известные массовые стрельбы без одобрения или прославления
- Ссылки на террористические группы и группы насильственных экстремистов и события без одобрения или прославления
- Тексты, которые ищут советы или рекомендации или тексты, которые предоставляют инструкции по выполнению насильственных действий против животного, человека, группы лиц или объекта или инфраструктуры, которые могут привести к индивидуальному или массовому ущербу
- Издевательства и запугивание
|
Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught. |
| Высокий |
Содержание, содержащее экстремистскую и насильственную пропаганду и насильственные идеологии в Интернете, описывающее, восхваляющее, поддерживающее, одобряющее или прославляющее убийства как часть террористической деятельности, помогает террористическим организациям или их делу. К ним относятся: - Тексты, которые дают инструкции по принадлежности к террористическим и насильственным экстремистским группам
- Тексты, предоставляющие инструкции о том, как набирать последователей, влиять на людей в сторону террористической причины или экстремистской идеологии, принимать радикальные взгляды или предоставлять учебные материалы о том, как работают террористические и насильственные экстремистские группы, или предоставлять информацию о своих лидерах и членах
- Тексты, которые планируют и координируют нападения на отдельных лиц или группы людей, включая стрельбу, использование бомб и взрывчатых веществ на гражданской инфраструктуре, или нападения с использованием холодного оружия, совершаемые некомбатантами или не-террористами.
- Содержимое, ссылающееся на принудительные труды, включая детей, домашний сервитуд, преследования и принудительные медицинские процедуры
|
Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight. |
Уровни серьезности самоповредения
|
Уровень серьезности |
Описание |
Пример текста |
| Безопасный |
Содержимое безопасно, но может содержать термины, связанные с самоповредением, используемым в универсальных и безопасных контекстах, таких как: - Официальная статистика
- Образования
- Медиа
- Медицинский
- Действия, описывающие случайное самоповредение, советы по первой помощи и т. д.
|
Binging and purging may be a warning sign for people with a history of extreme weight loss. |
| Низкий |
Содержимое, содержащее ссылки на персонажи планирования или совершения самоубийства в вымышленном контексте (например, литературы, фильмов) или содержит изображения актов самоповреждения или самоубийства с низкой интенсивностью. К ним относятся: - Личные предвзятые, предубежденные, осуждающие или мнения о самоповреждении
- Связь с расстройствами пищевого поведения, поиск или предоставление инструкций по радикальному и нездоровому снижению веса.
- Личный опыт, связанный с самоповреждением, включая поиск профессиональной помощи
|
I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice? |
| Средний |
Содержимое, которое насмехается над жертвами или пережившими самоповреждения, такими как расстройства пищевого поведения или суицид, а также издевательства и запугивания, которые провоцируют и способствуют действиям самоповреждения. К ним относятся: - Самостоятельное повреждение, представленное в качестве решения проблемы
- Фантазии, желания, мечты или личный опыт, связанные с самоповреждением/самоубийством
- Тексты, которые ищут или дают советы, инструкции или рекомендации по выполнению самоповреждения
- Издевательства и запугивание, которые подстрекают и способствуют самоповреждению
|
Go kill yourself, you are worthless. |
| Высокий |
Содержимое, включающее исследования или консультации, или предоставляет инструкции и методы того, как причинять себе вред, что приводит к смерти, или как совершить самоубийство, а также прославление и одобрение самоубийства, или другие серьезные виды самоповреждения. К ним относятся: - Тексты, которые объясняют, как написать прощальное сообщение семье
- Самодекапитация
- Сжигание живых
|
Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble. |
Подробные определения серьезности для изображений
В следующих таблицах приведены подробные описания и примеры для каждого уровня серьезности в каждой категории вреда для содержимого изображения. Перейдите на вкладку "Определения серьезности" , чтобы просмотреть примеры.
Содержимое изображения
Предупреждение
Вкладка "Определения серьезности " в этом документе содержит примеры вредного содержимого, которое может беспокоить некоторых читателей.
Уровни серьезности ненависти и справедливости
|
Уровень серьезности |
Описание |
Пример изображения |
| Безопасный |
Содержимое безопасно, но может содержать изображения, связанные с ненавистью и справедливостью, без выраженного настроения или с нейтральным настроением в недискриминационными и неоскорбительными способами в следующих контекстах или аналогичных.- Журналистика
- Историческое
- Медицинский
- Юридическое
- Образовательный
- Географическое
|
Неконфедератные флаги, например флаги стран или штатов, которые содержат кресты.- Изображение флага Юнион Джек Великобритании
Изображение эмансипации порабощенных людей в США на исторических фотографиях |
| Низкий |
Содержимое, содержащее либо положительные эмоции, ложные положительные эмоции, либо отрицательные, предвзятые эмоции, различающие группы идентичности от других. Это содержимое предназначено для активации эмоционального ответа. К ним относятся:- Защита
- Нацистский символизм, конфедератный флаг, символизм Ku Klux Klan
- Стереотипирование
- Дискриминация по трудоустройству
|
Представления движения «Нет ненавистной речи»
Представления деприоритизированных кандидатов на работу, таких как кандидаты с ограниченными возможностями, в условиях собеседования |
| Средний |
Содержимое, содержащее негативные настроения в отношении групп идентичности и других людей, что приводит к продвижению действий против групп идентичности и настроений превосходства. К ним относятся:- Оскорбление, изоляция, высмеивание
- Нацистский флаг, флаг Конфедерации, и ЛГБТКЯ+ вариации и товары
|
Изображения, содействующие социальному избеганию [идентификационных групп]
Изображения, изображающие теорию расового улучшения и евгенику |
| Высокий |
Содержимое, содержащее негативные настроения и речь ненависти в отношении групп по идентичности, порождающие речь ненависти или преступления ненависти. К ним относятся:- Расизм
- Нападения на ЛГБТКЯ+
- Эйблизм
- Дискриминация по признаку пола
- Славный нацистский символизм, флаг Конфедерации, символизм Ku Klux Klan
- Насильственный флаг конфедерации
|
Антисемитическое изображение
, изображающее "Южный крест", который имеет синий косой крест с очевидной принадлежностью к насилию (например, демонстрация или использование оружия) |
Уровни тяжести сексуальных проявлений
|
Уровень серьезности |
Описание |
Пример изображения |
| Безопасный |
Содержимое безопасно, но содержит сексуально связанные изображения, используемые в общем смысле. К ним относятся:- Семейные и романтические отношения
- Несексуальная нагота
- Одежда
- Общие объекты
- Неполовая поза или активность
- Спаривание животных
- Сексуальное здоровье
|
Изображения объятий или осуществление несексуальных физических контактов
Изображения, показывающие проявление привязанности, такие как поцелуи без использования языка и без обнажения |
| Низкий |
Содержимое, содержащее сексуальное предложение поведения или действия. К ним относятся:- Личный опыт
- Моделирование моды
- Нагота в произведении искусства
- Искусство тела
- Отображение Racy
|
Изображения людей |
| Средний |
Содержимое, содержащее коммерческий и любительский эротический и/или порнографический материал без визуального фотографического проникновения, а также обнаженных или полуобнаженных участников, участвующих в сексуальных сценах, предназначенных для сексуального возбуждения. К ним относятся:- Сексуальное моделирование
- Мягкая нагота в произведении искусства
- Работа в секс-индустрии или секс-шопы
- Скрытная сексуальная активность
- За кулисами производства порно
- Танцы на пилоне
|
Изображение полового акта, которое может быть частично окклудировано, но по-прежнему ясно присутствует на изображении |
| Высокий |
Содержание, содержащее явное подробное изображение сексуальных органов и сексуальных актов, включая незаконные акты. К ним относятся:- Любительская софт-кор и хард-кор порнография
- Сексуальное домогательство
- Вуайеризм
- Секс в произведении искусства
- BDSM без согласия или изнасилования
- Сексуальная эксплуатация и жестокое обращение с детьми
- Уход за детьми
- Инцест
|
Изображение участия в сексуальной деятельности с животными или трупами |
Уровни серьезности насилия
|
Уровень серьезности |
Описание |
Пример изображения |
| Безопасный |
Содержимое безопасно, но содержит связанные с насилием изображения, используемые в общем смысле. К ним относятся:- Спящая или лежащая поза
- Общие объекты
- Ненасильственная деятельность
- Веревки, а не петли
- Режущие инструменты, используемые на кухне или при шитье
- Раны, шрамы и хирургическое лечение
- Охота и стрелковый спорт
- Игрушки и игрушечные пистолеты
- Боевые практики
- Повреждение объектов и вандализм
- Символика террористов без торговых марок
|
Изображение нереалистичного оружия и лезвийных инструментов |
| Низкий |
Контент, содержащий сцены насилия, связанные с изображениями и действиями в реальном или вымышленном контексте, с низким количеством крови. К ним относятся:- Огнестрельное оружие, орудия и режущие инструменты на выставке и в использовании
- Нереалистичный труп
- Нереалистичное насилие
- Анимированное оружие
- Легкие травмы и личный опыт
- Веревки как петля
- Смерть в исторических, образовательных или погребальных параметрах
- Нереалистичная террористическая символика
- Корриды
|
Изображение флагов ИГИЛ/Аль-Каиды |
| Средний |
Содержимое, содержащее умеренное графическое насилие и насильственные акты, направленные на идентифицированный целевой объект. К ним относятся:- Вскрытие
- Преступление или место смерти
- Смерть животных (естественная или охота), жертва животными, злоупотребление животными
- Порабощение
- Геноцид и массовые убийства в исторических, образовательных учреждениях
- Скотобойне
- Насилие в семье и физическое насилие
- Издевательства
- Огнестрельное и другое оружие применяются против цели
|
Изображение использования силы и принуждения агрессивно доминировать или запугать человека |
| Высокий |
Содержимое, содержащее явное подробное изображение насилия и насильственных действий с высоким уровнем жестокости. К ним относятся:- Жестокие травмы и смерть
- Расчленение, обезглавление, сжигание живых
- Декомпозиция трупа
- Терроризм, террористические группы и флаги
- Принудительный труд и рабство, принудительные медицинские процедуры
- Преследование
- Тело жертвы в терроризме и военных преступлениях
- Стрельбищное мероприятие
- Другие виды экстремизма
|
Изображения смерти, когда они демонстрируются террористическими группами с флагами и символикой ИГИЛ |
Уровни серьезности самоповредения
|
Уровень серьезности |
Описание |
Пример изображения |
| Безопасный |
Содержимое безопасно, но содержит изображения, связанные с самоповреждением, используемые в общем смысле. К ним относятся:- Низкий жир тела
- Акт, не связанный с самоповреждением
- Случайное повреждение тела
|
Изображения прыжка с парашютом из самолета |
| Низкий |
Содержимое, изображающее или содержащее акты самоповреждения в реальном мире или вымышленных контекстах с низким уровнем насилия. К ним относятся:- Шрамы
- Травмы самоповреждения в процессе восстановления
- Нереалистичное самоповречение
- Истощенные лица или животные
|
Изображения актов, связанных с самоповреждением, инструментами, травмами и эмоциональным состоянием |
| Средний |
Контент, содержащий умеренные графические изображения, связанные с самоповреждением и самоубийством. К ним относятся:- Вскрытие
- Преступление или место смерти
- Издевательства
|
Представления об использовании силы и принуждения с целью агрессивного доминирования или запугивания человека до самоповреждения. |
| Высокий |
Содержимое, содержащее явные подробные изображения самоповреждения и самоубийства высокой степени жестокости. К ним относятся:- Неотвратимое действие самоповреждения
- Акты самоповреждения
- Самоубийство
|
Изображение преднамеренного самоубийства, где человек совершил самоубийство, прыгнув с высоты здания |
Устранение неполадок
Общие сведения о классификациях серьезности
Если содержимое классифицируется на непредвиденном уровне серьезности:
- Просмотрите подробные определения серьезности, чтобы понять критерии классификации
- Проверьте, отсутствует ли контекст, который изменит интерпретацию (образовательный, исторический, вымышленный)
- Убедитесь, что язык содержимого находится в поддерживаемом списке для оптимальной точности
- Используйте аннотации, чтобы увидеть все обнаруженные категории, а не только отфильтрованных.
Настройка чувствительности
Если вы видите слишком много ложных положительных или отрицательных результатов:
- Проверьте пороговые настройки в конфигурации "guardrail"
- Учитывайте, требует ли тип контента (образовательный, медицинский, творческий) индивидуальной политики контента.
- Для поддерживаемых вариантов использования запросите настраиваемую конфигурацию фильтра содержимого
Дополнительные сведения см. в разделе Настройка ограничений и контрольных механизмов.
Дальнейшие действия