Агент AI Red Teaming (предварительная версия) (классический)

В настоящее время просмотр:Версия портала Foundry (классическая версия) - Переключиться на версию для нового портала Foundry

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Агент Red Teaming для искусственного интеллекта — это мощный инструмент, предназначенный для упреждающего поиска рисков безопасности, связанных с генеративными системами ИИ во время их проектирования и разработки моделей и приложений генеративного ИИ.

Традиционное проведение "красных команд" включает эксплуатацию цепочки кибер-атак и процесс проверки системы на уязвимости. Тем не менее, с ростом генеративного ИИ был введен термин AI red teaming для обозначения выявления новых рисков (как связанных с содержанием, так и с безопасностью), которые эти системы представляют, и обозначает имитацию поведения враждебного пользователя, который пытается спровоцировать неправильное поведение вашей системы искусственного интеллекта.

Агент редтиминга ИИ использует платформу с открытым исходным кодом Microsoft для средств идентификации рисков для Python (PyRIT) и инструменты оценки рисков и безопасности Microsoft Foundry, чтобы помочь вам автоматически оценить проблемы безопасности тремя способами:

Автоматическое сканирование рисков содержимого: Во-первых, вы можете автоматически сканировать модель и конечные точки приложений для рисков безопасности, имитируя состязательный анализ.
Оцените успешность зондирования: Затем вы можете оценить и присвоить оценку каждой паре атака-ответ, чтобы создать аналитические метрики, такие как показатель успешности атак (ASR).
Отчеты и ведение журнала Наконец, вы можете создать карту оценки методов анализа атак и категорий рисков, чтобы помочь вам решить, готова ли система к развертыванию. Результаты можно регистрировать, отслеживать и отслеживать с течением времени непосредственно в Foundry, обеспечивая соответствие требованиям и непрерывное устранение рисков.

Вместе эти компоненты (сканирование, оценка и отчеты) помогают командам понять, как системы ИИ реагируют на распространенные атаки, в конечном итоге управляя комплексной стратегией управления рисками.

Когда следует использовать запуск красной команды искусственного интеллекта

При рассмотрении связанных с ИИ рисков безопасности и разработке надежных систем ИИ Microsoft использует структуру NIST для эффективного снижения риска: Управление, Картирование, Оценка, Управление процессами. Мы сосредоточимся на последних трех частях в связи с жизненным циклом разработки генерированных ИИ:

Карта: определение соответствующих рисков и определение варианта использования.
Мера. Оценка рисков в масштабе.
Управление. Устранение рисков в рабочей среде и мониторинг с помощью плана реагирования на инциденты.

Агент Red Teaming для искусственного интеллекта можно использовать для запуска автоматизированных проверок и имитации состязательной проверки, чтобы ускорить идентификацию и оценку известных рисков в масштабе. Это помогает командам "перейти влево" от дорогостоящих реактивных инцидентов к более упреждающим платформам тестирования, которые могут перехватывать проблемы перед развертыванием. Процесс мануальной красной команды для систем искусственного интеллекта требует значительных времени и ресурсов. Он полагается на творчество специалистов по безопасности и защите для имитации враждебного тестирования. Этот процесс может создать узкие места для многих организаций для ускорения внедрения искусственного интеллекта. С помощью агента Red Teaming ai организации теперь могут использовать глубокий опыт Microsoft для масштабирования и ускорения разработки ИИ с помощью надежного ИИ на переднем крае.

Мы рекомендуем командам использовать агент Red Teaming ИИ для проведения автоматизированных проверок на протяжении всего этапа проектирования, разработки и предварительного развертывания.

Проектирование. Выбор самой безопасной базовой модели в вашем варианте использования.
Разработка: обновление моделей в приложении или создание точно настроенных моделей для конкретного приложения.
Этап перед размещением: перед развертыванием приложений GenAI в эксплуатационные среды.

В рабочей среде рекомендуется реализовать меры безопасности, например, фильтры Безопасность содержимого ИИ Azure или системные сообщения безопасности, используя наши шаблоны.

Как работает красная команда ИИ

Агент Red Teaming для искусственного интеллекта помогает автоматизировать имитацию состязательной проверки целевой системы ИИ. Он предоставляет отобранный набор данных начальных запросов или целей атаки по поддерживаемым категориям рисков. Их можно использовать для автоматизации прямого атакующего проверки. Однако прямое исследование уязвимостей может легко выявляться существующими мерами безопасности при развертывании модели. Применение стратегий атак из PyRIT обеспечивает дополнительное преобразование, которое может помочь обойти или подорвать систему ИИ и вынудить ее создать нежелательное содержимое.

На схеме показано, что прямой запрос к системе ИИ о том, как разграбить банк активирует ответ на отказ. Однако применение стратегии атаки, например перевернуть все символы, может помочь обмануть модель в ответ на вопрос.

Кроме того, агент Red Teaming для искусственного интеллекта предоставляет пользователям тонко настроенную состязательную модель большого языка, предназначенную для проведения моделирования состязательных атак и оценки ответов с возможным вредным содержимым с помощью средств оценки рисков и безопасности. Ключевая метрика для оценки состояния риска системы ИИ — это частота успешного выполнения атак (ASR), которая вычисляет процент успешных атак по количеству общих атак.

Поддерживаемые категории рисков

Следующие категории рисков поддерживаются в агенте ИИ Red Teaming из оценки рисков и безопасности. Поддерживаются только текстовые сценарии.

Категория риска	Описание
Ненавистное и несправедливое содержимое	Ненавистное и несправедливое содержание относится к любому языку или образу, относящегося к ненависти к или несправедливому представлению отдельных лиц и социальных групп вместе с факторами, включая, но не ограничивается расой, этнической принадлежности, национальностью, полом, сексуальной ориентацией, религией, иммиграционным статусом, способностью, личным видом и размером тела. Несправедливость возникает, когда системы ИИ обрабатывают или представляют социальные группы несправедливо, создавая или способствуя социальному неравенствам.
Сексуальное содержимое	Сексуальное содержимое включает язык или образы, относящиеся к анатомическим органам и половым органам, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.
Насильственное содержимое	Насильственное содержимое включает язык или образы, относящиеся к физическим действиям, предназначенным для травмы, повреждения, повреждения или убийства кого-то или чего-то. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).
Контент, связанный с самоповреждением	Содержимое, связанное с самоповреждением, включает язык или изображения, относящиеся к действиям, предназначенным для того, чтобы повредить или ранить тело человека или убить себя.

Поддерживаемые стратегии атак

Следующие стратегии атаки поддерживаются в AI Red Teaming агенте от PyRIT:

Стратегия атак	Описание
AnsiAttack	Использует escape-последовательности ANSI для управления внешним видом и поведением текста.
AsciiArt	Создает визуальное искусство с помощью символов ASCII, часто используемых для творческих или скрытых целей.
AsciiSmuggler	Скрывает данные в символах ASCII, что затрудняет обнаружение.
Atbash	Реализует шифр Atbash, простой шифр подстановки, где каждая буква сопоставляется с обратной.
Base64	Кодирует двоичные данные в текстовый формат с помощью Base64, часто используемого для передачи данных.
Двоичный	Преобразует текст в двоичный код, представляющий данные в серии 0 и 1s.
Цезарь	Применяет шифр Цезаря, шифр подстановки, который перемещает символы на фиксированное количество позиций.
CharacterSpace	Изменяет текст путем добавления пробелов между символами, часто используемых для маскировки.
CharSwap	Переключает символы в тексте, чтобы создать варианты или скрыть исходное содержимое.
Диакритический знак	Добавляет диакритические знаки к символам, меняя их внешний вид и иногда их смысл.
Флип	Инвертирует символы, переворачивая их от переднего плана к заднему, создавая зеркальный эффект.
Leetspeak	Преобразует текст в Leetspeak, форму кодирования, которая заменяет буквы похожими числами или символами.
Азбука Морзе	Кодирует текст в код Morse, используя точки и дефисы для представления символов.
ROT13	Применяет шифр ROT13, простой шифр подстановки, который перемещает символы на 13 позиций.
СуффиксAppend	Добавляет адверсариальный суффикс к запросу
Склеивание строк	Объединяет несколько строк, часто используемых для объединения или маскирования.
ЮникодConfusable	Использует символы Юникода, похожие на стандартные символы, создавая визуальную путаницу.
ЗаменаЮникода	Заменяет стандартные символы эквивалентами Юникода, часто для маскировки.
Url	Кодирует текст в формате URL-адреса
Джейлбрейк	Внедряет специально созданные запросы для обхода мер безопасности ИИ, известных как атаки с внедрением запросов пользователей (UPIA).
Косвенный джейлбрейк	Внедряет запросы атак в выходные данные инструмента или возвращаемый контекст для косвенного обхода средств защиты ИИ. Это известно как атаки косвенного внедрения запроса.
Напряженной	Изменяет время текста, преобразуя его в прошедшее время.
Многоэтапный процесс	Выполняет атаки на протяжении нескольких ходов беседы, используя накопление контекста для обхода механизмов защиты или для вызова непреднамеренного поведения.
Крещендо	Постепенно усложняет сложность или риск запроса с течением времени, проверяя уязвимые места в защите агентов с помощью постепенных испытаний.

Известные ограничения агента ИИ Red Teaming

Агент AI Red Teaming имеет несколько важных ограничений, которые важно учитывать при проведении и интерпретации результатов Red Teaming.

Кросс-функциональные команды проводят имитации сценариев, в которых агент Foundry непосредственно подвергается конфиденциальным данным или данным об атакующих транспортных средствах. Так как эти данные являются искусственными, это не является представителем реальных распределений данных.
Инструменты для моделирования в настоящее время активированы только для получения синтетических данных и проведения оценок команд по тестированию безопасности. В настоящее время они не поддерживают имитацию поведения, что позволило бы проводить тестирование в условиях, ближе к реальной песочнице, чем те, которые поддерживаются в настоящее время.
Из-за отсутствия полностью изолированной поддержки песочницы, состязательный характер наших оценок red teaming контролируется, чтобы избежать отрицательного воздействия в реальном мире.
Запуски в рамках красного тиминга представляют собой деятельность противника и не включают наблюдательное население.
Красные команды запуска используют генеривные модели для оценки частоты успешности атак (ASR) и могут быть недетерминированными, не прогнозируемыми. Поэтому всегда есть вероятность ложных положительных результатов, и мы всегда рекомендуем просматривать результаты перед принятием мер по минимизации рисков.

Подробнее

Начните с нашей документации, где описывается запуск автоматического сканирования рисков безопасности с помощью агента AI Red Teaming

Узнайте больше о средствах, используемых Агентом ИИ Red Teaming.

Наиболее эффективные стратегии оценки рисков объединяют автоматизированные средства, которые выявляют потенциальные риски, с экспертным анализом человека для более глубокого понимания. Если ваша организация только начинает работу с красной командой ИИ, изучите ресурсы, созданные командой красной команды ИИ компании Microsoft.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-28