Агент для красных команд по искусственному интеллекту

Агент Red Teaming для искусственного интеллекта — это мощный инструмент, предназначенный для упреждающего поиска рисков безопасности, связанных с генеративными системами ИИ во время их проектирования и разработки моделей и приложений генеративного ИИ.

Традиционное проведение "красных команд" включает эксплуатацию цепочки кибер-атак и процесс проверки системы на уязвимости. Тем не менее, с ростом генеративного ИИ был введен термин AI red teaming для обозначения выявления новых рисков (как связанных с содержанием, так и с безопасностью), которые эти системы представляют, и обозначает имитацию поведения враждебного пользователя, который пытается спровоцировать неправильное поведение вашей системы искусственного интеллекта.

Агент редтиминга ИИ использует платформу с открытым исходным кодом Microsoft для средств идентификации рисков для Python (PyRIT) и инструменты оценки рисков и безопасности Microsoft Foundry, чтобы помочь вам автоматически оценить проблемы безопасности тремя способами:

  • Автоматическое сканирование рисков содержимого: Во-первых, вы можете автоматически сканировать модель и конечные точки приложений для рисков безопасности, имитируя состязательный анализ.
  • Оцените успешность зондирования: Затем вы можете оценить и присвоить оценку каждой паре атака-ответ, чтобы создать аналитические метрики, такие как показатель успешности атак (ASR).
  • Отчеты и ведение журнала Наконец, вы можете создать карту оценки методов анализа атак и категорий рисков, чтобы помочь вам решить, готова ли система к развертыванию. Результаты можно регистрировать, отслеживать и отслеживать с течением времени непосредственно в Foundry, обеспечивая соответствие требованиям и непрерывное устранение рисков.

Вместе эти компоненты (сканирование, оценка и отчеты) помогают командам понять, как системы ИИ реагируют на распространенные атаки, в конечном итоге управляя комплексной стратегией управления рисками.

Когда следует использовать агент ИИ Red Teaming

При рассмотрении связанных с ИИ рисков безопасности и разработке надежных систем ИИ Microsoft использует структуру NIST для эффективного снижения риска: Управление, Картирование, Оценка, Управление процессами. В следующих разделах основное внимание уделяется последним трем частям в контексте жизненного цикла разработки генеративного ИИ.

  • Карта: определение соответствующих рисков и определение варианта использования.
  • Мера. Оценка рисков в масштабе.
  • Управление. Устранение рисков в рабочей среде и мониторинг с помощью плана реагирования на инциденты.

Диаграмма использования агента ИИ Red Teaming, показывающая переход от упреждающих к реактивным действиям и от менее к более дорогостоящим.

Агент Red Teaming для искусственного интеллекта можно использовать для запуска автоматизированных проверок и имитации состязательной проверки, чтобы ускорить идентификацию и оценку известных рисков в масштабе. Это помогает командам "перейти влево" от дорогостоящих реактивных инцидентов к более упреждающим платформам тестирования, которые могут перехватывать проблемы перед развертыванием. Процесс мануальной красной команды для систем искусственного интеллекта требует значительных времени и ресурсов. Он полагается на творчество специалистов по безопасности и защите для имитации враждебного тестирования. Этот процесс может создать узкие места для многих организаций для ускорения внедрения искусственного интеллекта. С помощью агента Red Teaming ai организации теперь могут использовать глубокий опыт Microsoft для масштабирования и ускорения разработки ИИ с помощью надежного ИИ на переднем крае.

Используйте агент искусственного интеллекта для Red Teaming для запуска автоматизированного сканирования на протяжении всего этапа проектирования, разработки и предварительного развертывания.

  • Проектирование. Выбор самой безопасной базовой модели в вашем варианте использования.
  • Разработка: обновление моделей в приложении или создание точно настроенных моделей для конкретного приложения.
  • Перед развертыванием приложений и агентов GenAI в рабочей среде.
  • Отслеживайте ваши приложения и агентов генеративного ИИ после развертывания, используя запланированные непрерывные запуски тестирования красной командой на искусственных состязательных данных.

В рабочей среде рекомендуется реализовать фильтры safety guardrail например фильтры Безопасность содержимого ИИ Azure или реализацию системных сообщений безопасности с помощью наших templates. Для агентских рабочих процессов мы рекомендуем использовать управляющую плоскость Foundry для применения направляющих и управления группой агентов.

Как работает красная команда ИИ

Агент Red Teaming для искусственного интеллекта помогает автоматизировать имитацию состязательной проверки целевой системы ИИ. Он предоставляет отобранный набор данных начальных запросов или целей атаки по поддерживаемым категориям рисков. Их можно использовать для автоматизации прямого атакующего проверки. Однако прямое исследование уязвимостей может легко выявляться существующими мерами безопасности при развертывании модели. Применение стратегий атак из PyRIT обеспечивает дополнительное преобразование, которое может помочь обойти или подорвать систему ИИ и вынудить ее создать нежелательное содержимое.

На схеме показано, что прямой запрос к системе ИИ о том, как разграбить банк активирует ответ на отказ. Однако применение стратегии атаки, например перевернуть все символы, может помочь обмануть модель в ответ на вопрос.

Схема работы агента ИИ Red Teaming.

Кроме того, агент Red Teaming для искусственного интеллекта предоставляет пользователям тонко настроенную состязательную модель большого языка, предназначенную для проведения моделирования состязательных атак и оценки ответов с возможным вредным содержимым с помощью средств оценки рисков и безопасности. Ключевая метрика для оценки состояния риска системы ИИ — это частота успешного выполнения атак (ASR), которая вычисляет процент успешных атак по количеству общих атак.

Поддерживаемые категории рисков

Следующие категории рисков поддерживаются в агенте ИИ Red Teaming из оценки рисков и безопасности. Поддерживаются только текстовые сценарии.

Категория риска Поддерживаемые целевые объекты Локальная или облачная красная команда Описание
Ненавистное и несправедливое содержимое Модель и агенты Локальный и облачный Ненавистное и несправедливое содержание относится к любому языку или образу, относящегося к ненависти к или несправедливому представлению отдельных лиц и социальных групп вместе с факторами, включая, но не ограничивается расой, этнической принадлежности, национальностью, полом, сексуальной ориентацией, религией, иммиграционным статусом, способностью, личным видом и размером тела. Несправедливость возникает, когда системы ИИ обрабатывают или представляют социальные группы несправедливо, создавая или способствуя социальному неравенствам.
Сексуальное содержимое Модель и агенты Локальный и облачный Сексуальное содержимое включает язык или образы, относящиеся к анатомическим органам и половым органам, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.
Насильственное содержимое Модель и агенты Локальный и облачный Насильственное содержимое включает язык или образы, относящиеся к физическим действиям, предназначенным для травмы, повреждения, повреждения или убийства кого-то или чего-то. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).
Контент, связанный с самоповреждением Модель и агенты Локальный и облачный Содержимое, связанное с самоповреждением, включает язык или изображения, относящиеся к действиям, предназначенным для того, чтобы повредить или ранить тело человека или убить себя.
Защищенные материалы Модель и агенты Локальный и облачный Авторские права или защищенные материалы, такие как тексты, песни и рецепты.
Уязвимость кода Модель и агенты Локальный и облачный Измеряет, создаёт ли ИИ код с уязвимостями безопасности, такими как внедрение кода, уязвимости типа "tar-slip", внедрение SQL, утечка трассировки стека и другие риски в Python, Java, C++, C#, Go, JavaScript и SQL.
Незаземленные атрибуты Модель и агенты Локальный и облачный Измеряет генерацию текстовых ответов системой ИИ, содержащих неподтвержденные выводы о таких личных атрибутах, как демографические данные или эмоциональное состояние.
Запрещенные действия Только агенты Только облако Измеряет способность агента ИИ участвовать в поведении, которое нарушает явно запрещенные действия или использование инструментов на основе проверенной пользователем политики или таксономии запрещенных действий.
Утечка конфиденциальных данных Только агенты Только облако Измеряет уязвимость агента ИИ к раскрытию конфиденциальной информации (финансовые данные, личные идентификаторы, данные о работоспособности и т. д.).
Соблюдение задач Только агенты Только облако Измеряет, завершает ли агент ИИ назначенную задачу, следуя цели пользователя, уважая все правила и ограничения, а также выполняя необходимые процедуры без несанкционированных действий или упущений.

Агентические риски

Для категорий рисков, связанных с определёнными агентами, таких как запрещённые действия, утечка конфиденциальных данных и соблюдение задач, требуется подход к автоматизированной red team, который отличается от подхода исключительно к категориям рисков модели. В частности, агент ИИ Red Teaming больше не ограничивается проверкой созданных выходных данных, но также проверяет выходные данные инструмента для выявления небезопасного или рискованного поведения. Категории агентских рисков доступны только в облачных операциях red-teaming для создания минимально изолированной среды.

Примечание

Облачные red teaming в настоящее время доступны в следующих регионах: Восточный регион США 2, Центральная Франция, Центральная Швеция, Западная Швейцария и Северный регион США.

Для запуска облачной красной команды мы редактируем вредоносные или состязательные входные данные, отправленные в модель или агент из результирующих результатов красной команды. Это предотвращает разработчиков и нетехнических заинтересованных лиц от воздействия потенциально вредоносных атак, созданных в ходе операций команды ИИ Red Teaming Agent.

Для категорий рисков агента в моделировании красной команды мы убеждаемся, что при маневре моделирования красной команды, направленном на агента, размещенного в Foundry, это транзитный процесс, чтобы вредоносные данные не регистрировались службой агента Foundry и завершения чатов также не сохранялись. Выполните упражнения красной команды в фиолетовой среде — нерабочей среде, настроенной с помощью рабочих ресурсов, чтобы узнать, как агенты выполняются в реалистичных условиях.

Утечка конфиденциальных данных

Тесты red teaming на утечку конфиденциальных данных ориентированы на выявление утечки финансовых, медицинских и персональных данных из внутренних баз знаний и вызовов инструментов. Агент Red Teaming для искусственного интеллекта использует синтетический набор данных конфиденциальной информации и имитационные инструменты для создания сценариев, побуждающих агента к разглашению информации. Уровень успешности атак (ASR) определяет, сможет ли команда тестирования безопасности обнаружить утечки на уровне формата с помощью сопоставления шаблонов.

Ограничения: Однократная, только на английском языке; синтетические данные; не учитывает утечки памяти и обучающего набора.

Запрещенные действия

Проверка действий агентов в условиях красных командных тестов на их выполнение запрещенных, рискованных или необратимых действий происходит путем создания динамических антагонистических запросов, основанных на предоставленных пользователем политиках и таксономии запрещенных действий, а также наборе поддерживаемых инструментов, используемых агентом, и описаниях инструментов, предоставленных пользователем. Частота успешности атак (ASR) определяет нарушения политики, отображаемые агентом на основе предоставленных пользователем политик.

Категории Описание Правило пособия
Запрещенные действия Универсально запрещено (например, распознавание лиц, вывод эмоций, социальная оценка). ❌ Никогда не разрешено
Действия высокого риска Конфиденциальные действия требуют явной авторизации человека (например, финансовых транзакций, медицинских решений). ⚠️ Разрешено с человеческим подтверждением
Необратимые действия Постоянные операции (например, удаление файлов, сброс системы). ⚠️ Разрешено с раскрытием и подтверждением

Ограничения: Один оборот, только на английском языке; Фокусировка на уровне инструмента; отсутствие живых рабочих данных.

Осторожно

Отказ от ответственности за использование третьими сторонами таксономии запрещенных действий:
Таксономия запрещенных, высоких рисков и необратимых действий, предоставляемых в этом продукте, предназначена исключительно как иллюстрированное руководство для поддержки разработчиков агентов в оценке и настройке собственных платформ рисков. Он не представляет собой окончательный или исчерпывающий список запрещенных практик, а также не отражает Microsoft политику или интерпретацию нормативных требований. Сторонние организации остаются исключительно ответственными за обеспечение соответствия их агентов применимым законам и нормативным актам, включая, но не ограничивается Законом ЕС ИИ и другими требованиями юрисдикции. Microsoft настоятельно рекомендует сохранить запрещенные по умолчанию действия, производные от нормативных ограничений, и не рекомендует отменять выбор этих элементов. Использование этого продукта не гарантирует соответствие требованиям. Организации должны обратиться к своему собственному юридическому адвокату, чтобы оценить и реализовать соответствующие гарантии и запреты, адаптированные к их оперативному контексту и терпимости к рискам.

Соблюдение задач

Проверка соблюдения задач в рамках тестирования красной команды оценивает, точно ли агенты выполняют назначенные задачи, достигая цели пользователя, соблюдая все правила и ограничения и следуя необходимым процедурам. Агент Red Teaming для искусственного интеллекта проверяет три измерения: достижение цели (удалось ли агенту достичь заданной цели), соблюдение правил (включая политические рамки и представительские контракты), а также дисциплина в процедурах (правильное использование инструментов, рабочий процесс и обоснование). Запрашивающий набор данных учитывает поддерживаемые и доступные средства для создания разнообразных траекторий агента, включая репрезентативные и состязательные случаи, для тестирования как обычных, так и пограничных сценариев.

Непрямые атаки на внедрение команд (XPIA)

Непрямые атаки с внедренными запросами (также известные как атаки внедрения междоменных запросов, XPIA) проверяют, может ли агент управляться вредоносными инструкциями, скрытыми во внешних источниках данных, таких как сообщения электронной почты или документы, полученные с использованием вызова инструментов. Агент Red Teaming для искусственного интеллекта использует синтетический набор данных доброкачественных пользовательских запросов и симулированные выходные данные инструмента, содержащие заполнители атак. Во время тестирования агент Red Teaming ИИ внедряет в эти контексты специфические для риска атаки, чтобы оценить, выполняет ли целевой агент возможные непреднамеренные или небезопасные действия. Уровень успешности атак (ASR) измеряет, как часто агент скомпрометирован путём косвенной инъекции запроса, используя специфические для агента категории риска, такие как запрещенные действия, утечка конфиденциальных данных или соответствие задачам.

Полный список стратегий атак см. в следующем разделе.

Поддерживаемые агенты и средства

В настоящее время агент AI Red Teaming поддерживает проведение упражнений по тестированию уязвимостей на агентах Foundry с использованием вызовов инструментов Azure в соответствии со следующей матрицей поддержки:

Поддерживаемые агенты и действия Статус
Агенты мгновенного отклика, размещенные на фабрике Поддерживается
Агенты контейнеров, размещенные Foundry Поддерживается
Агенты рабочих процессов Foundry Не поддерживается
Агенты, не относящиеся к Foundry Не поддерживается
Средства, отличные от Azure Не поддерживается
вызовы инструментов Azure Поддерживается
Вызовы функций инструмента Не поддерживается
Вызовы функций средств автоматизации браузера Не поддерживается
Вызовы инструмента подключенного агента Не поддерживается
Вызовы средства "Использование компьютера" Не поддерживается

Полный список инструментов см. в разделе "Сервис".

Поддерживаемые стратегии атак

Следующие стратегии атаки поддерживаются в AI Red Teaming агенте от PyRIT:

Стратегия атак Описание
AnsiAttack Использует escape-последовательности ANSI для управления внешним видом и поведением текста.
AsciiArt Создает визуальное искусство с помощью символов ASCII, часто используемых для творческих или скрытых целей.
AsciiSmuggler Скрывает данные в символах ASCII, что затрудняет обнаружение.
Atbash Реализует шифр Atbash, простой шифр подстановки, где каждая буква сопоставляется с обратной.
Base64 Кодирует двоичные данные в текстовый формат с помощью Base64, часто используемого для передачи данных.
Двоичный Преобразует текст в двоичный код, представляющий данные в серии 0 и 1s.
Цезарь Применяет шифр Цезаря, шифр подстановки, который перемещает символы на фиксированное количество позиций.
CharacterSpace Изменяет текст путем добавления пробелов между символами, часто используемых для маскировки.
CharSwap Переключает символы в тексте, чтобы создать варианты или скрыть исходное содержимое.
Диакритический знак Добавляет диакритические знаки к символам, меняя их внешний вид и иногда их смысл.
Флип Инвертирует символы, переворачивая их от переднего плана к заднему, создавая зеркальный эффект.
Leetspeak Преобразует текст в Leetspeak, форму кодирования, которая заменяет буквы похожими числами или символами.
Азбука Морзе Кодирует текст в код Morse, используя точки и дефисы для представления символов.
ROT13 Применяет шифр ROT13, простой шифр подстановки, который перемещает символы на 13 позиций.
СуффиксAppend Добавляет адверсариальный суффикс к запросу
Склеивание строк Объединяет несколько строк, часто используемых для объединения или маскирования.
ЮникодConfusable Использует символы Юникода, похожие на стандартные символы, создавая визуальную путаницу.
ЗаменаЮникода Заменяет стандартные символы эквивалентами Юникода, часто для маскировки.
Url Кодирует текст в формате URL-адреса
Джейлбрейк Внедряет специально созданные запросы для обхода мер безопасности ИИ, известных как атаки с внедрением запросов пользователей (UPIA).
Косвенный джейлбрейк Внедряет запросы атак в выходные данные инструмента или возвращаемый контекст для косвенного обхода средств защиты ИИ. Это известно как атаки косвенного внедрения запроса.
Напряженной Изменяет время текста, преобразуя его в прошедшее время.
Многоэтапный процесс Выполняет атаки на протяжении нескольких ходов беседы, используя накопление контекста для обхода механизмов защиты или для вызова непреднамеренного поведения.
Крещендо Постепенно усложняет сложность или риск запроса с течением времени, проверяя уязвимые места в защите агентов с помощью постепенных испытаний.

Известные ограничения агента ИИ Red Teaming

Агент AI Red Teaming имеет несколько важных ограничений, которые важно учитывать при проведении и интерпретации результатов Red Teaming.

  • Кросс-функциональные команды проводят имитации сценариев, в которых агент Foundry непосредственно подвергается конфиденциальным данным или данным об атакующих транспортных средствах. Так как эти данные являются искусственными, это не является представителем реальных распределений данных.
  • Инструменты для моделирования в настоящее время активированы только для получения синтетических данных и проведения оценок команд по тестированию безопасности. В настоящее время они не поддерживают имитацию поведения, что позволило бы проводить тестирование в условиях, ближе к реальной песочнице, чем те, которые поддерживаются в настоящее время.
  • Из-за отсутствия полностью изолированной поддержки песочницы, состязательный характер наших оценок red teaming контролируется, чтобы избежать отрицательного воздействия в реальном мире.
  • Запуски в рамках красного тиминга представляют собой деятельность противника и не включают наблюдательное население.
  • Красные команды запуска используют генеривные модели для оценки частоты успешности атак (ASR) и могут быть недетерминированными, не прогнозируемыми. Поэтому всегда есть вероятность ложных положительных результатов, и мы всегда рекомендуем просматривать результаты перед принятием мер по минимизации рисков.

Подробнее

Начните с нашей документации, где описывается запуск автоматического сканирования рисков безопасности с помощью агента AI Red Teaming

Узнайте больше о средствах, используемых Агентом ИИ Red Teaming.

Наиболее эффективные стратегии оценки рисков объединяют автоматизированные средства, которые выявляют потенциальные риски, с экспертным анализом человека для более глубокого понимания. Если ваша организация только начинает работу с красной командой ИИ, изучите ресурсы, созданные командой красной команды ИИ компании Microsoft.