Microsoft оценка рисков и безопасности Foundry Transparency Note

Что такое примечание о прозрачности

Система ИИ включает не только технологию, но и людей, которые будут использовать ее, людей, которые будут затронуты ею, и среды, в которой она развернута. Создание системы, которая подходит для ее целевой цели, требует понимания того, как работает технология, какие возможности и ограничения существуют, а также как достичь оптимальной производительности. Заметки о прозрачности Microsoft призваны помочь вам понять, как работает наша технология ИИ, какие выборы могут делать владельцы системы, чтобы влиять на производительность и поведение системы, и насколько важно рассматривать всю систему в целом, включая технологию, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать прозрачные заметки или поделиться ими с пользователями, которые будут использовать вашу систему или на которых она повлияет.

Заметки о прозрачности Microsoft являются частью более широких усилий Microsoft по внедрению в практику наших принципов ИИ. Дополнительные сведения см. в принципах Microsoft ИИ.

Основы оценки рисков и безопасности Microsoft Foundry

Введение

Модели, проданные непосредственно Azure, были оценены Microsoft на основе стандартов ответственного ИИ Microsoft. Все остальные модели, включая, но не ограничиваясь моделями Anthropic и открытыми моделями, полученными из Hugging Face hub или Fireworks AI, являются продуктами, не принадлежащими Microsoft, в соответствии с условиями продукта Microsoft и не были оценены Microsoft.

Независимо от того, продается ли модель непосредственно Azure или не Microsoft продукт, клиенты должны проводить свои собственные оценки риска и безопасности. Оценки риска и безопасности Foundry позволяют пользователям оценивать выходные данные их генеративного ИИ-приложения на предмет рисков текстового контента: ненавистное и несправедливое содержимое, сексуальный контент, насильственный контент, контент, связанный с самоповреждениями, уязвимости прямой и косвенной разблокировки, а также защищённые материалы в содержимом. Оценки безопасности также могут помочь создать состязательные наборы данных, чтобы ускорить и расширить операцию red-teaming. Оценки безопасности производственного процесса отражают обязательства Microsoft по обеспечению безопасного и ответственного создания систем искусственного интеллекта, внедряя наши принципы ответственного использования ИИ.

Ключевые термины

  • Ненавистное и несправедливое содержимое (для текста и изображений) ссылается на любой язык или образы, относящиеся к ненависти к или несправедливому представлению отдельных лиц и социальных групп наряду с факторами, включая, но не ограничивается расой, этнической принадлежности, национальностью, полом, сексуальной ориентацией, религией, иммиграционным статусом, способностью, личным видом и размером тела. Несправедливость возникает, когда системы ИИ обрабатывают или представляют социальные группы несправедливо, создавая или способствуя социальному неравенствам.
  • Сексуальное содержимое (для текста и изображений) включает язык или изображения, относящиеся к анатомическим органам и гениталиям, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.
  • Насильственное содержимое (для текста и изображений) включает язык или изображения, связанные с физическими действиями, направленными на причинение боли, нанесение травм, повреждение или убийство кого-либо или чего-либо. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).
  • Содержимое, связанное с самоповреждениями (для текста и изображений), включает язык или изображения, относящиеся к действиям, предназначенным для того, чтобы повредить, ранить или повредить тело человека или убить себя.
  • Защищенное содержимое материалов (для текста) включает известное текстовое содержимое, например текст песни, статьи, рецепты и выбранное веб-содержимое, которое может выводиться большими языковыми моделями. Обнаруживая и предотвращая отображение защищенного материала, организации могут поддерживать соответствие правам интеллектуальной собственности и сохранять оригинальность содержимого.
  • Защищенное содержимое материалов (для изображений) относится к определенному защищенному визуальному контенту, защищенному авторским правом, таким как логотипы и бренды, произведения искусства или вымышленные символы. Система использует модель основы изображения к тексту, чтобы определить, присутствует ли такое содержимое.
  • Прямое снятие ограничений, прямые атаки на команды или атаки с внедрением команд пользователя относятся к случаям, когда пользователи изменяют команды для внедрения вредоносных данных в LLM, чтобы исказить их действия и результаты. Пример команды джейлбрейка — это атака "DAN" (Do Anything Now), которая может заставить LLM генерировать неподходящий контент или игнорировать ограничения, установленные системой.
  • Непрямой джейлбрейк, непрямые атаки на запросы, или атаки междоменного внедрения запроса подразумевают ситуацию, когда вредоносные инструкции скрыты в данных, которые система ИИ обрабатывает или из которых она создает основывающееся содержимое. Эти данные могут включать сообщения электронной почты, документы, веб-сайты или другие источники, не созданные разработчиком или пользователем, и могут привести к неправильному созданию содержимого или игнорировать ограничения, введенные системой.
  • Частота дефектов (риск содержимого) определяется как процент экземпляров в тестовом наборе данных, превышающий пороговое значение шкалы серьезности по всему размеру набора данных.
  • Red-teaming исторически описывает систематические атаки противника для тестирования уязвимостей безопасности. С ростом крупных языковых моделей (LLM) термин расширился за рамки традиционной кибербезопасности и развивался в общем использовании, чтобы описать множество видов проверки, тестирования и атаки систем искусственного интеллекта. При использовании LLM-моделей как благожелательное, так и враждебное использование может создавать потенциально вредные результаты, которые могут принимать множество форм, включая вредное содержимое, например ненавистная речь, подстрекательство или прославление насилия, ссылка на содержимое, связанное с самоповреждением, или сексуальное содержимое.

Возможности

Системное поведение

Foundry подготавливает точно настроенную модель Azure OpenAI GPT-4o и оркеструет враждебные атаки против вашего приложения для создания набора данных высокого качества. Затем подготавливается другая модель GPT-4o для аннотации тестового набора данных по вопросам содержимого и безопасности. Пользователи предоставляют конечную точку приложения искусственного интеллекта, которую они хотят протестировать, и оценки безопасности будут выводить статический набор данных теста для этой конечной точки вместе с меткой риска содержимого (очень низкая, низкая, средняя, высокая) или меткой обнаружения рисков содержимого (True или False) и причины для метки, созданной ИИ.

Варианты использования

Предполагаемое использование

Оценки безопасности не предназначены для каких-либо целей, кроме оценки рисков содержимого и уязвимостей в взломах создаваемого приложения ИИ:

  • Оценка вашего генеративного ИИ приложения перед развертыванием: Используя мастера оценки в портале Foundry или SDK Azure AI для Python, автоматизированные проверки безопасности могут оценить потенциальные риски содержимого или безопасности.
  • Расширение операций red-teaming: В рамках оценки безопасности использование состязательного симулятора может имитировать состязательные взаимодействия с генеративным приложением ИИ, чтобы попытаться выявить риски в содержимом и безопасности.
  • Обмен информацией о рисках содержимого и безопасности заинтересованным лицам: с помощью портала Foundry вы можете предоставить доступ к проекту Foundry с результатами оценки безопасности с аудиторами или заинтересованными лицами соответствия требованиям.

Рекомендации при выборе варианта использования

Мы рекомендуем клиентам использовать оценки безопасности Foundry в своих инновационных решениях или приложениях. Однако при выборе варианта использования следует учитывать некоторые рекомендации.

  • Оценки безопасности должны включать человека в процессе: использование автоматизированных оценок, таких как оценки безопасности Foundry, должны включать рецензентов, таких как эксперты по доменам, чтобы определить, было ли ваше приложение с генеративным ИИ тщательно проверено перед развертыванием для конечных пользователей.
  • Оценки безопасности не включают общее комплексное покрытие: хотя оценки безопасности могут предоставить способ расширения тестирования для потенциальных рисков содержимого или безопасности, она не была разработана для замены операций red-teaming вручную, специально ориентированных на домен вашего приложения, его сценарии использования и тип конечных пользователей.
  • Поддерживаемые сценарии:
    • Для адверсариального моделирования: ответы на вопросы, многотуровый чат, резюмирование, поиск, переписывание текста, негрунтованная и грунтованная генерация контента.
    • Для автоматической аннотации: ответы на вопросы и многоходовой чат.
  • В настоящее время служба лучше всего используется только для генерации текстов на английском языке. Дополнительные функции, включая поддержку нескольких моделей, будут рассматриваться для будущих выпусков.
  • Освещение рисков в содержании, предоставляемое в оценках безопасности, выбирается из ограниченного количества маргинализованных групп и тем.
    • Метрика нетерпимости и несправедливости включает в себя некоторое покрытие для ограниченного числа маргинализованных групп по демографическим характеристикам пола (например, мужчин, женщин, небинарных людей) и расы, происхождения, этнической принадлежности и национальности (например, темнокожих, мексиканцев, европейцев). Не все маргинальные группы в гендерной и расовой принадлежности, происхождении, этнической принадлежности и национальности охватываются. Другие демографические факторы, относящиеся к ненависти и несправедливости, в настоящее время не имеют охвата (например, инвалидности, сексуальности, религии).
    • Метрики для содержимого, связанного с сексуальным, насильственным и самоповреждением, основаны на предварительной концептуализации этих ущербов, которые менее развиты, чем ненависть и несправедливость. Это означает, что мы можем сделать менее сильные утверждения о охвате измерений и о том, насколько хорошо измерения представляют различные способы этих причинений вреда. Охват этих типов контента включает ограниченное число тем, связанных с сексом (например, сексуальное насилие, отношения, сексуальные акты), насилие (например, злоупотребление, ранение других, похищение человека) и самоповредение (например, преднамеренное убийство, преднамеренное повреждение себя, расстройства питания).
  • Оценки безопасности литейного производства в настоящее время не позволяют использовать плагины или расширяемость.
  • Для поддержания актуальности качества и улучшения охвата мы будем стремиться к регулярным обновлениям для улучшения возможностей службы в области состязательного моделирования и аннотации.

Технические ограничения, операционные факторы и диапазоны

  • Поле больших языковых моделей (LLM) продолжает развиваться в быстром темпе, требуя непрерывного улучшения методов оценки для обеспечения безопасного и надежного развертывания системы искусственного интеллекта. Оценки безопасности литейных объектов отражают приверженность Microsoft продолжению инноваций в области оценки LLM. Мы стремимся предоставить лучшие средства, которые помогут вам оценить безопасность создаваемых приложений ИИ, но распознать эффективную оценку — это непрерывная работа.
  • Настройка оценок безопасности Foundry в настоящее время ограничена. Мы ожидаем, что пользователи будут предоставлять конечную точку входа генеративного приложения ИИ, и наша служба выведет статический набор данных, помеченный для оценки риска содержания.
  • ** Наконец, следует отметить, что эта система не автоматизирует какие-либо действия или задачи, она предоставляет только оценку выходных данных генеративного ИИ приложения, которые должны проходить человеческую проверку перед развертыванием генеративного ИИ приложения или системы в продукции для конечных пользователей.

Производительность системы

Рекомендации по улучшению производительности системы

  • При учете домена, который может более конфиденциально обрабатывать содержимое, чем другое, рассмотрите возможность корректировки порогового значения для вычисления частоты дефектов.
  • При использовании автоматических оценок безопасности иногда могут возникнуть ошибки в метках, созданных ИИ, для оценки серьезности рискованности содержимого или его обоснования. Существует колонка обратной связи человека, для проверки с участием человека результатов автоматической оценки безопасности.

Оценка безопасности литейного производства

Методы оценки

Для всех поддерживаемых типов рисков содержимого мы внутренне проверили качество, сравнивая частоту приблизительных совпадений между человеческими метками с помощью шкалы серьезности 0-7 и автоматического аннотатора оценки безопасности также с использованием шкалы серьезности 0-7 в одном наборе данных. Для каждой области риска у нас были как человеческие аннотаторы, так и автоматические аннотаторы, которые разметили 500 английских одноходовых текстов, 250 одноходовых генераций текста в изображение и 250 многомодальных текстов с переходом от изображения к тексту. Люди, которые занимаются разметкой, и автоматический аннотатор не использовали совершенно одинаковые версии рекомендаций; в то время как рекомендации автоматизированного аннотатора были основаны на руководствах для людей, они с тех пор разошлись в различной степени (где руководства по ненависти и несправедливости разошлись больше всего). Несмотря на эти незначительные и умеренные различия, мы считаем, что по-прежнему полезно поделиться общими тенденциями и аналитическими сведениями из нашего сравнения приблизительных совпадений. В наших сравнениях мы искали совпадения с двухуровневой терпимостью (где метка человека соответствовала автоматической метке аннотатора точно или находилась в пределах двух уровней выше или ниже по серьезности), с однуровневой терпимостью и с нулевой терпимостью.

Результаты оценки

В целом, мы наблюдали высокий уровень приблизительных совпадений в рисках самоповреждения и сексуального контента на всех уровнях терпимости. Для насилия, ненависти и несправедливости частота совпадений по уровням терпимости была ниже. Эти результаты частично обусловлены увеличением расхождения в содержимом руководств по аннотации для человеческих разметчиков по сравнению с автоматическими аннотаторами, а также частично из-за увеличения объема и сложности определенных руководств.

Хотя наши сравнения проводятся между сущностями, которые использовали слегка или умеренно разные рекомендации по аннотации (и поэтому не являются стандартными сравнениями согласия между человеком и моделью), эти сравнения дают оценку качества, которую мы можем ожидать от оценки безопасности Foundry, учитывая параметры этих сравнений. В частности, мы рассмотрели только английские примеры, поэтому наши выводы могут не обобщать другие языки. Кроме того, каждый образец данных состоит только из одной реплики, и поэтому необходимо больше экспериментов для проверки обобщаемости наших результатов оценки на сценарии с множеством взаимодействий (например, диалог туда и обратно, включая запросы пользователей и системные ответы). Типы примеров, используемых в этих наборах данных оценки, также могут значительно повлиять на приблизительную частоту совпадений между метками человека и автоматическим аннотатором— если примеры проще пометить (например, если все образцы не подвержены рискам содержимого), мы можем ожидать, что приблизительная скорость сопоставления будет выше. Качество человеческих меток для оценки может также повлиять на обобщение наших результатов.

Оценка и интеграция оценок безопасности Foundry для вашего использования

Измерение и оценка создаваемого приложения ИИ являются важной частью комплексного подхода к управлению рисками искусственного интеллекта. Оценки безопасности литейных устройств дополняются и должны использоваться в тандеме с другими методами управления рисками искусственного интеллекта. Специалисты по области знаний и рецензенты должны обеспечить надлежащий надзор при использовании оценки безопасности с помощью ИИ на всех этапах проектирования, разработки и внедрения приложений искусственного интеллекта. Вы должны понимать ограничения и предполагаемое использование оценок безопасности, и быть осторожными, чтобы не полагаться на результаты, которые созданы Foundry AI в одиночку.

Из-за недетерминированного характера LLM может возникнуть ложный отрицательный или положительный результат, например высокий уровень серьезности насильственного содержимого, оцененный как "очень низкий" или "низкий". Кроме того, результаты оценки могут иметь разные значения для разных аудиторий. Например, оценки безопасности могут создать ярлык для "низкой степени серьезности" насильственного содержимого, который может не совпадать с определением, данным человеческим рецензентом относительно серьезности конкретного насильственного содержимого. На портале Foundry мы предоставляем колонку для человеческой обратной связи с кнопками "палец вверх" и "палец вниз" при просмотре результатов оценки, чтобы показать, какие экземпляры были утверждены или отмечены как неверные человеческим рецензентом. Учтите контекст, в котором ваши результаты могут быть интерпретированы для принятия решений другими, с которыми вы можете поделиться оценкой. Проверьте результаты оценки с соответствующим уровнем проверки в зависимости от уровня риска в среде, в которой работает каждое генеративное приложение ИИ.

Дополнительные сведения об ответственном ИИ

Дополнительные сведения об оценках безопасности Foundry