Поделиться через


Примечание о прозрачности: оценки рисков и безопасности Microsoft Foundry (предварительная версия)

Замечание

Этот документ относится к порталу Microsoft Foundry (классическая модель).

🔄 Перейдите в новую документацию по Microsoft Foundry, если вы используете новый портал.

Замечание

Этот документ относится к порталу Microsoft Foundry (new).

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

Что такое примечание о прозрачности

Система ИИ включает не только технологии, но и людей, которые будут ею пользоваться и которых она затронет, а также среду, в которой она будет развернута. Чтобы создаваемая система соответствовала своему предназначению, нужно понимать, как работает технология, каковы ее возможности и ограничения, а также как добиться от нее наилучших результатов. Заметки о прозрачности корпорации Майкрософт предназначены для того, чтобы помочь вам понять, как работает наша технология ИИ, как владельцы систем могут повлиять на производительность и поведение системы, а также важность думать о всей системе, включая технологию, людей и окружающую среду. Вы можете использовать информационные статьи при разработке или развертывании собственной системы, а также предоставить их людям, которые будут использовать вашу систему или на которых ваша система будет оказывать влияние.

Заметки майкрософт о прозрачности являются частью более широких усилий корпорации Майкрософт по внедрению принципов ИИ на практике. Дополнительные сведения см. в статье Принципы ИИ Майкрософт.

Основы оценки рисков и безопасности Microsoft Foundry (предварительная версия)

Введение

Оценки риска и безопасности Foundry позволяют пользователям оценивать результаты работы их генерирующего приложения ИИ на наличие текстовых рисков контента: ненавистное и несправедливое содержимое, сексуальное содержимое, насильственное содержимое, содержимое, связанное с самоповреждением, прямые и косвенные уязвимости разблокировки, а также материалы с ограниченным доступом. Оценки безопасности также могут помочь создать состязательные наборы данных, чтобы ускорить и расширить операцию red-teaming. Оценки безопасности литейного производства отражают приверженность Microsoft обеспечивать, чтобы системы искусственного интеллекта создавались безопасно и ответственно, опираясь на наши Принципы ответственного ИИ.

Ключевые термины

  • Ненавистное и несправедливое содержимое (для текста и изображений) ссылается на любой язык или образы, относящиеся к ненависти к или несправедливому представлению отдельных лиц и социальных групп наряду с факторами, включая, но не ограничивается расой, этнической принадлежности, национальностью, полом, сексуальной ориентацией, религией, иммиграционным статусом, способностью, личным видом и размером тела. Несправедливость возникает, когда системы ИИ обрабатывают или представляют социальные группы несправедливо, создавая или способствуя социальному неравенствам.
  • Сексуальное содержимое (для текста и изображений) включает язык или изображения, относящиеся к анатомическим органам и гениталиям, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.
  • Насильственное содержимое (для текста и изображений) включает язык или изображения, относящиеся к физическим действиям, предназначенным для повреждения, повреждения, повреждения или убийства кого-то или чего-то. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).
  • Содержимое, связанное с самоповреждениями (для текста и изображений), включает язык или изображения, относящиеся к действиям, предназначенным для того, чтобы повредить, ранить или повредить тело человека или убить себя.
  • Защищенное содержимое материала (для текста), известное текстовое содержимое, например текст песни, статьи, рецепты и выбранное веб-содержимое, которое может выводиться большими языковыми моделями. Обнаруживая и предотвращая отображение защищенного материала, организации могут поддерживать соответствие правам интеллектуальной собственности и сохранять оригинальность содержимого.
  • Защищенное содержимое материалов (для изображений) относится к определенному защищенному визуальному контенту, защищенному авторским правом, таким как логотипы и бренды, произведения искусства или вымышленные символы. Система использует модель основы изображения к тексту, чтобы определить, присутствует ли такое содержимое.
  • Прямая тюрьма, прямые атаки на запросы или атаки на внедрение запросов пользователей, ссылаются на пользователи, манипулятивные запросы на внедрение вредных входных данных в LLM для искажания действий и выходных данных. Пример команды джейл-брейк является атакой "DAN" (Do Anything Now), которая может обмануть LLM в неуместное создание контента или игнорировать ограничения, введенные системой.
  • Непрямая атака на непрямую блокировку в тюрьме или атаки на внедрение запросов между доменами, ссылается на то, когда вредоносные инструкции скрыты в данных, из которых система ИИ обрабатывает или создает наземленное содержимое. Эти данные могут включать сообщения электронной почты, документы, веб-сайты или другие источники, не созданные разработчиком или пользователем, и могут привести к неправильному созданию содержимого или игнорировать ограничения, введенные системой.
  • Частота дефектов (риск содержимого) определяется как процент экземпляров в тестовом наборе данных, превышающий пороговое значение шкалы серьезности по всему размеру набора данных.
  • Red-teaming исторически описал систематические атаки состязательности для тестирования уязвимостей безопасности. С ростом крупных языковых моделей (LLM) термин расширился за рамки традиционной кибербезопасности и развивался в общем использовании, чтобы описать множество видов проверки, тестирования и атаки систем искусственного интеллекта. При использовании LLM как доброкачественное, так и состязательное использование может создавать потенциально вредные выходные данные, которые могут принимать множество форм, включая вредное содержимое, например ненавистное речь, подстрекательство или славение насилия, ссылка на содержимое, связанное с самоповредением, или сексуальное содержимое.

Возможности

Поведение системы

Foundry подготавливает точно настроенную модель Azure OpenAI GPT-4o и координирует проведение атак-состязаний против вашего приложения для создания высококачественного тестового набора данных. Затем она подготавливает другую модель GPT-4o для аннации тестового набора данных для содержимого и безопасности. Пользователи предоставляют конечную точку приложения искусственного интеллекта, которую они хотят протестировать, и оценки безопасности будут выводить статический набор данных теста для этой конечной точки вместе с меткой риска содержимого (очень низкая, низкая, средняя, высокая) или меткой обнаружения рисков содержимого (True или False) и причины для метки, созданной ИИ.

Случаи использования

Целевое назначение

Оценки безопасности не предназначены для каких-либо целей, кроме оценки рисков содержимого и уязвимостей в взломах создаваемого приложения ИИ:

  • Предварительная оценка развертывания генеративного приложения ИИ: Используя мастер оценки на портале Foundry или SDK для Python от Azure, можно автоматически оценивать потенциальные риски, связанные с содержимым или безопасностью.
  • Расширение операций red-teaming: использование состязательного симулятора оценки безопасности может имитировать состязательные взаимодействия с созданным приложением ИИ, чтобы попытаться выявить риски содержимого и безопасности.
  • Обмен информацией о рисках содержимого и безопасности заинтересованным лицам: с помощью портала Foundry вы можете предоставить доступ к проекту Foundry с результатами оценки безопасности с аудиторами или заинтересованными лицами соответствия требованиям.

Рекомендации при выборе варианта использования

Мы рекомендуем клиентам использовать оценки безопасности Foundry в своих инновационных решениях или приложениях. Однако при выборе варианта использования следует учитывать некоторые рекомендации.

  • Оценки безопасности должны включать участие человека в процессе: использование автоматизированных оценок, таких как оценки безопасности Foundry, должны включать рецензентов, таких как специалисты в области, чтобы оценить, было ли ваше приложение генерирующего ИИ тщательно проверено перед развертыванием для конечных пользователей.
  • Оценки безопасности не включают общее комплексное покрытие: хотя оценки безопасности могут предоставить способ расширения тестирования для потенциальных рисков содержимого или безопасности, он не был разработан для замены операций red-teaming вручную, специально ориентированных на домен вашего приложения, варианты использования и тип конечных пользователей.
  • Поддерживаемые сценарии:
    • Для состязательного моделирования: ответы на вопросы, многоэтапный чат, сводка, поиск, перезапись текста, незапланированный и заземленный создание контента.
    • Для автоматической заметки: ответы на вопросы и многоэтапный чат.
  • Служба в настоящее время лучше всего используется с английским доменом только для текстовых поколений. Дополнительные функции, включая поддержку нескольких моделей, будут рассматриваться для будущих выпусков.
  • Охват рисков содержимого, предоставляемых в оценках безопасности, состоит из ограниченного числа маргинализованных групп и тем:
    • Метрика ненависти и несправедливости включает в себя некоторое покрытие для ограниченного числа маргинализованных групп для демографических факторов пола (например, мужчин, женщин, не двоичных людей) и расы, происхождения, этнической принадлежности и национальности (например, Черный, мексиканский, европейский). Не все маргинальные группы в гендерной и расовой принадлежности, происхождении, этнической принадлежности и национальности охватываются. Другие демографические факторы, относящиеся к ненависти и несправедливости, в настоящее время не имеют охвата (например, инвалидности, сексуальности, религии).
    • Метрики для содержимого, связанного с сексуальным, насильственным и самообредованием, основаны на предварительной концепции этих вредов, которые менее развиты, чем ненависть и несправедливость. Это означает, что мы можем сделать менее сильные утверждения о охвате измерений и о том, насколько хорошо измерения представляют различные способы этих причинений вреда. Охват этих типов контента включает ограниченное число тем, связанных с сексом (например, сексуальное насилие, отношения, сексуальные акты), насилие (например, злоупотребление, ранение других, похищение человека) и самоповредение (например, преднамеренное убийство, преднамеренное повреждение себя, расстройства питания).
  • Оценки безопасности литейных установок пока не поддерживают подключаемые модули или расширяемость.
  • Для поддержания актуальности качества и улучшения охвата мы будем стремиться к курсу будущих выпусков улучшения в состязательном моделировании и заметках службы.

Технические ограничения, эксплуатационные факторы и диапазоны

  • Поле больших языковых моделей (LLM) продолжает развиваться в быстром темпе, требуя непрерывного улучшения методов оценки для обеспечения безопасного и надежного развертывания системы искусственного интеллекта. Оценки безопасности литейных объектов отражают приверженность Майкрософт продолжению инноваций в области оценки LLM. Мы стремимся предоставить лучшие средства, которые помогут вам оценить безопасность создаваемых приложений ИИ, но распознать эффективную оценку — это непрерывная работа.
  • В настоящее время возможности настройки оценки безопасности для Foundry ограничены. Мы ожидаем, что пользователи будут предоставлять входную конечную точку приложения ИИ, и наша служба выводит статический набор данных, помеченный для риска содержимого.
  • Наконец, следует отметить, что эта система не автоматизирует какие-либо действия или задачи, она предоставляет только оценку выходных данных приложения для создания ИИ, которые должны проверяться человеком в цикле перед развертыванием созданного приложения ИИ в рабочей среде для конечных пользователей.

Производительность системы

Рекомендации по улучшению производительности системы

  • При учете домена, который может более конфиденциально обрабатывать содержимое, чем другое, рассмотрите возможность корректировки порогового значения для вычисления частоты дефектов.
  • При использовании автоматических вычислений безопасности иногда может возникнуть ошибка в созданных ИИ метках для серьезности риска содержимого или его причины. Существует столбец обратной связи вручную, чтобы включить проверку результатов автоматической оценки безопасности.

Оценка оценки безопасности Foundry

Методы оценки

Для всех поддерживаемых типов рисков содержимого мы внутренне проверили качество, сравнивая частоту приблизительных совпадений между человеческими метками с помощью шкалы серьезности 0-7 и автоматического аннотатора оценки безопасности также с использованием шкалы серьезности 0-7 в одном наборе данных. Для каждой области риска у нас есть как человеческие метки, так и автоматические метки аннотатора 500 английских, одноэтапных текстов, 250 одноэтапных поколений текста в изображение и 250 много модальных текстов с поколениями изображений к тексту. Человеческие метки и автоматический аннотатор не использовали точно те же версии рекомендаций по заметкам; в то время как правила автоматизированного аннотатора были связаны с рекомендациями для людей, они с тех пор разошлись в различные степени (с ненавидимыми и несправедливыми рекомендациями, которые разошлись больше всего). Несмотря на эти незначительные и умеренные различия, мы считаем, что по-прежнему полезно поделиться общими тенденциями и аналитическими сведениями из нашего сравнения приблизительных совпадений. В наших сравнениях мы искали совпадения с 2-уровней терпимости (где метка человека соответствовала автоматической метке аннотатора точно или находилась в пределах 2 уровней выше или ниже в серьезности), соответствует 1 уровню терпимости и соответствует 0-уровню терпимости.

Результаты оценки

В целом, мы видели высокий уровень приблизительных совпадений по отношению к себе и сексуальному контенту рисков на всех уровнях терпимости. Для насилия и для ненависти и несправедливости приблизительная частота совпадений на уровне терпимости была ниже. Эти результаты были частично обусловлены увеличением расхождения в содержимом руководства по заметкам для пользователей и автоматических меток, а также частично из-за увеличения объема содержимого и сложности в конкретных рекомендациях.

Хотя наши сравнения проводятся между объектами, которые используют немного разные или умеренно различные рекомендации по аннотации (и, следовательно, не являются стандартными сравнениями согласия между человеком и моделью), эти сравнения дают представление о качестве, которое мы можем ожидать от оценок безопасности Foundry с учетом параметров этих сравнений. В частности, мы рассмотрели только английские примеры, поэтому наши выводы могут не обобщать другие языки. Кроме того, каждый образец набора данных состоит только из одного поворота, и поэтому для проверки обобщенности результатов оценки в сценариях с несколькими поворотами (например, обратной и вперед беседы, включая запросы пользователей и системные ответы). Типы примеров, используемых в этих наборах данных оценки, также могут значительно повлиять на приблизительную частоту совпадений между метками человека и автоматическим аннотатором— если примеры проще пометить (например, если все образцы не подвержены рискам содержимого), мы можем ожидать, что приблизительная скорость сопоставления будет выше. Качество человеческих меток для оценки может также повлиять на обобщение наших результатов.

Оценка и интеграция проверок безопасности Foundry для вашего использования

Измерение и оценка создаваемого приложения ИИ являются важной частью комплексного подхода к управлению рисками искусственного интеллекта. Оценки безопасности литейных устройств дополняются и должны использоваться в тандеме с другими методами управления рисками искусственного интеллекта. Эксперты домена и рецензенты в цикле должны обеспечить надлежащий надзор при использовании оценки безопасности с поддержкой ИИ в процессе разработки, разработки и развертывания с помощью искусственного интеллекта. Вы должны понимать ограничения и предполагаемое использование оценок безопасности, тщательно избегая полагаться на выходные данные, произведенные Foundry AI в одиночку.

Из-за недетерминированного характера LLM может возникнуть ложный отрицательный или положительный результат, например высокий уровень серьезности насильственного содержимого, оцененный как "очень низкий" или "низкий". Кроме того, результаты оценки могут иметь разные значения для разных аудиторий. Например, оценки безопасности могут создать метку для "низкой" серьезности насильственного содержимого, которое может не соответствовать определению рецензента человека о том, насколько сильно это конкретное насильственное содержимое может быть. На портале Foundry мы предоставляем колонку обратной связи с кнопками "палец вверх" и "палец вниз" при просмотре результатов оценки, чтобы показать, какие экземпляры были утверждены или помечены как неверные человеческим рецензентом. Рассмотрим контекст интерпретации результатов для принятия решений другими пользователями, с которыми можно поделиться оценкой и проверить результаты оценки с соответствующим уровнем контроля на уровне риска в среде, в которой работает каждое созданное приложение ИИ.

Подробнее об ответственном использовании ИИ

Дополнительные сведения об оценках безопасности Foundry