Сведения об анализе ИИ в Исследования по безопасности данных

Важно!

Исследования по безопасности данных использует генеративный искусственный интеллект (ИИ), большие языковые модели и оркестрацию при анализе данных в организации. Результаты, созданные искусственным интеллектом, не всегда могут быть точными или полными. Хотя мы стремимся предоставлять достоверную и полезную информацию, системы ИИ могут давать неверные или ложные результаты. Важно проверить информацию и использовать ее с осторожностью. Корпорация Майкрософт не предоставляет никаких гарантий, явных, подразумеваемых или установленных законом, в отношении информации, предоставляемой системами ИИ.

Исследования по безопасности данных использует службы и средства ИИ, чтобы помочь вам быстро просматривать и принимать меры по элементам, связанным с инцидентами безопасности. Службы, связанные с ИИ, включают следующие средства:

  • Поиск векторов
  • Категоризации
  • Экспертизы

Поиск векторов в Исследования по безопасности данных позволяет контекстно искать данные, добавляемые в область исследования, с помощью расширенной оркестрации и внедрения. Поиск векторов — это технология поисковой системы, которая фокусируется на понимании смысла и контекста слов и фраз в запросе, а не только на сопоставлении ключевых слов.

Вот некоторые ключевые аспекты поиска векторов:

  • Контекстное понимание. Векторный поиск интерпретирует контекст условий поиска с учетом таких факторов, как организация, журнал поиска и общее значение запроса.

  • Распознавание намерений. Поиск в векторов позволяет понять ваше намерение, независимо от того, ищете ли вы информацию, пытаетесь выполнить действие или ищете определенный тип контента, связанного с поиском.

  • Релевантность и точность. Фокусируясь на семантике (значении и намерении слов в запросе), поиск векторов обеспечивает более точные и релевантные результаты и улучшает общий интерфейс поиска.

  • Рекомендуемый поиск (предварительная версия). Векторный поиск также позволяет выбирать настраиваемые предлагаемые поисковые запросы на основе контекста исследования или любых предыдущих поисковых запросов в исследовании. Если в вашем исследовании не определен контекст и у вас нет предыдущих поисковых запросов, вы можете выбрать один из следующих вариантов поиска по умолчанию:

    • Поиск всех учетных данных или паролей
    • Поиск всего содержимого, содержащего конфиденциальную информацию
    • Список всех юридических и финансовых документов

Когда следователи в вашей организации исследуют скомпрометированные наборы данных, поиск векторов в Исследования по безопасности данных может значительно улучшить ваше расследование, решая несколько ключевых проблем:

  • Определение релевантной информации. Поиск в вектора понимает контекст и намерение запросов. Это помогает быстро находить нужные документы, сообщения электронной почты или записи, даже если они не содержат точных ключевых слов, которые вы использовали.
  • Обработка неоднозначности. Поиск векторов вызывает неоднозначность терминов, имеющих несколько значений, гарантируя получение результатов, которые контекстно соответствуют вашему исследованию.
  • Снижение шума. Поиск векторов отфильтровывает неуместные сведения, чтобы вы могли сосредоточиться на наиболее релевантных данных и сократить время, затрачиваемое на поиск несвязанных результатов.
  • Повышение эффективности. Векторный поиск упрощает процесс поиска, делая исследование более эффективным и эффективным за счет быстрого поиска наиболее релевантной информации.

Принципы действия

При создании исследования, определении область и подготовке данных для ИИ можно выполнять векторный поиск по набору данных. В то время как предыдущие этапы процесса позволяют выполнять простые ключевое слово, метаданные и поиск по диапазону дат, векторный поиск использует внедрение ИИ для контекстного поиска данных. Этот процесс позволяет следователям находить элементы, не зная их точного содержимого.

Важно!

Элементы векторируются, если они содержат текст или поддерживаемое содержимое изображения с извлекаемым текстом. Для jpeg, PNG и отсканированных PDF-файлов оптическое распознавание символов (OCR) автоматически извлекает текст из изображений перед векторизацией. Приглашения на собрания и уведомления календаря без текста в тексте исключаются из векторизации.

Поиск векторов работает путем запуска всех данных с заданной областью в исследовании с помощью модели внедрения ИИ. Эта модель извлекает семантические значения из каждого элемента набора данных и разбивает их на более мелкие части. Этот процесс называется внедрением и позволяет Исследования по безопасности данных использовать значения измерений для контекстного понимания данных. Индекс семантического поиска создается на основе этих значений, которые можно запрашивать.

При создании векторного поискового запроса в исследовании ИИ автоматически расширяет и расширяет запрос и выполняет запрос через семантический поисковый индекс. Исследования по безопасности данных затем сопоставляет семантический смысл запроса с семантическим значением содержимого и возвращает все контекстно релевантные элементы.

Например, при поиске по запросу "Конфиденциальные данные, включенные в проект Безопасности Contoso", векторная поисковая система понимает, что вы ищете конфиденциальные данные в этом конкретном проекте, а не просто совпадающие ключевые слова (конфиденциальные, данные, Contoso и т. д.), содержащиеся в поисковом запросе. С помощью поиска векторов можно запрашивать затронутые данные, чтобы найти все элементы данных, связанные с определенной темой, даже если ключевые слова отсутствуют.

Кроме того, оценка релевантности поиска автоматически назначается каждому возвращаемому элементу. Оценка релевантности поиска помогает быстро определить уровень достоверности связи между поиском и элементами, определенными векторным поиском.

Дополнительные сведения об основных понятиях поиска векторов см. в разделе Основные понятия статьи Векторы в Azure поиска ИИ.

Поиск с помощью ИИ (предварительная версия)

На основе векторного поиска поиск с помощью ИИ (предварительная версия) включает возможности расширенного создания (RAG) и оптимизирует модель результатов поиска. Эта функция включает поиск соответствующих элементов на основе типов файлов элементов, размеров, версий и многого другого.

Это расширение возможностей для векторного поиска также включает сводку поиска на основе отдельных элементов, возвращаемых в поиске, включая ссылки на конкретные примеры результатов поиска, чтобы помочь вам быстро оценить, соответствует ли поиск вашим потребностям.

Исследования по безопасности данных поиск с помощью ИИ (предварительная версия).

Категоризации

При нарушении безопасности вашей организации и выявлении затронутых данных следователям необходимо определить приоритеты данных, чтобы приступить к выявлению рисков безопасности. Исследования по безопасности данных классификация ускоряет исследования, автоматически группируя содержимое по рискам безопасности данных, которые вам важны, поэтому аналитики могут сузить тысячи файлов до небольшого набора приоритетных и значимых кластеров без проверки вручную.

Вы можете использовать Standard или расширенную классификацию на основе ИИ в Исследования по безопасности данных, чтобы быстрее провести анализ и определить приоритеты потенциально затронутых данных. Чтобы классифицировать данные, можно выбрать все или некоторые параметры категорий по умолчанию, использовать категории, предлагаемые ИИ на основе их исследования, или создать собственные пользовательские категории.

Вы также можете добавлять категории постепенно после завершения начального выполнения классификации. При добавлении новых категорий обрабатываются только чистые новые категории и сохраняются ранее классифицированные данные. Вы также можете изменить существующие категории между уровнями Standard и Расширенные уровни обработки.

Категории, созданные ИИ, дополнены дополнительными сведениями для содержимого на уровне темы в область:

  • Имя: имя категории или области на основе содержимого.
  • Сводка: краткое описание базового содержимого

В каждой категории можно использовать средства поиска и анализа векторов для любого содержимого.

Как классификация обрабатывает данные

Классификация предназначена для определения приоритета наиболее релевантного содержимого для каждой выбранной категории, а не для анализа каждого элемента в область исследования. При выполнении категоризации система использует ИИ для оценки содержимого по выбранным категориям, оценивает каждый сегмент контента по релевантности и сохраняет результаты с наивысшей достоверностью. Содержимое, которое не соответствует порогу релевантности для категории, не включается в результаты для этой категории.

Так как классификация оптимизирована для скорости и экономичности, учитывайте следующие факторы:

  • Результаты представляют приоритетное содержимое. Классификация отображает приоритетный подмножество наиболее релевантного содержимого для каждой категории, а не исчерпывающий анализ всех элементов в наборе данных.
  • Объем содержимого может повлиять на результаты. В больших наборах данных документы с обширным содержимым могут быть более строго представлены в результатах. Некоторые соответствующие элементы могут не отображаться, если они оцениваются ниже порогового значения релевантности.
  • Категории обрабатываются независимо: каждая выбранная категория оценивается отдельно. Количество категорий, которые вы выбираете, влияет на время обработки и затраты на единицу вычислений, но не влияет на то, как определяется релевантность для отдельных категорий.

При выборе Standard категоризации система группирует содержимое по выбранным категориям на основе оценки релевантности. При выборе расширенной классификации система выполняет дополнительную обработку для идентификации и организации содержимого по определенным разделам в каждой категории, предоставляя более детализированные группировки для более глубокого анализа.

Совет

Если для исследования требуется комплексный анализ всего содержимого в область, используйте средства проверки вместо классификации или в дополнение к ней. Классификация лучше всего подходит для быстрого определения приоритетов и рассмотрения больших наборов данных, в то время как проверка обеспечивает целевой анализ на уровне элементов для выбранных элементов.

Категории по умолчанию

Исследования по безопасности данных включает категории по умолчанию для классификации элементов в область исследования. При выполнении классификации можно выбрать все категории по умолчанию или только категории по умолчанию, которые применяются к область проверки. Анализ игнорирует не выбранные категории по умолчанию, и вы не сможете просмотреть результаты для этих категорий.

Обработка ИИ определяет начальные категории по умолчанию для элементов контента:

  • Бизнес-информация: общие бизнес-сведения. Эта категория обычно содержит большое количество элементов. Некоторые примеры областей в этой категории могут включать цифровое взаимодействие и анализ, пользовательские и человеческие ресурсы, рутинное административное взаимодействие, взаимодействие с клиентами и многое другое.
  • Записи о взаимодействии: общие сведения о коммуникации. Эта категория также обычно содержит большое количество элементов. Используйте эту категорию для просмотра исследований на основе областей коммуникации. Некоторые примеры областей в этой категории могут включать жалобы клиентов, приветствия с праздником, внутренние памятки, обновления проекта и многое другое.
  • Учетные данные и сведения о доступе: информация, связанная с доступом к ресурсам в ходе расследований. Эти сведения помогают выявлять потенциально опасные данные и сообщения в организации. Некоторые примеры областей в этой категории могут включать учетные данные пользователя, несанкционированный доступ к базе данных, подверженность данным и многое другое.
  • Сведения о клиентах: информация, предоставленная клиентам. Используйте эту категорию, чтобы понять, какие данные клиентов могут быть подвержены риску. Некоторые примеры областей в этой категории могут включать подтверждения оплаты, улучшение качества обслуживания клиентов, сведения о доставке и многое другое.
  • Сведения о пользователях. Сведения, связанные с пользователями в вашей организации. Эта категория также обычно содержит большое количество элементов. Некоторые примеры областей в этой категории могут включать сведения о занятости пользователей, стратегии удержания пользователей, членство в специализированных группах и многое другое.
  • Финансовая информация: финансовая информация в расследовании. Некоторые примеры областей в этой категории могут включать финансовое планирование, возможности предоставления грантов, бюджеты, финансовую отчетность и многое другое.
  • Сведения о работоспособности. Сведения о здоровье и медицинских элементах в исследовании. Некоторые примеры областей в этой категории могут включать в себя велнес-записи и медицинские записи, обновления протокола безопасности COVID-19, утверждения о работоспособности и отчеты об инцидентах и многое другое.
  • Сведения об инцидентах и расследованиях. Сведения об инцидентах и расследованиях в ходе расследования. К этой категории относятся инциденты безопасности и расследования в организации. Некоторые примеры областей в этой категории могут включать утечку данных, инциденты с записями работоспособности, мониторинг учетных записей клиентов с высоким риском и многое другое.
  • Интеллектуальная собственность: данные интеллектуальной собственности (IP) в ходе исследования. Некоторые примеры областей в этой категории могут включать будущие патентные заявки, исследования и разработки, метрики результатов экспериментов и многое другое.
  • Маркетинговые сведения. Маркетинговые данные в исследовании. Некоторые примеры областей в этой категории могут включать пресс-релизы, рекламные кампании, планы маркетинга и продаж, стратегии и многое другое.
  • Операционная информация. Операционные данные вашей организации. Некоторые примеры областей в этой категории могут включать логистику, доставку, инвентаризацию, соответствие требованиям, налоговые записи и многое другое.
  • Личные сведения. Группирование персональных данных и связанных элементов в расследовании. Некоторые примеры областей в этой категории могут включать списки гостей событий, сотрудники и учебные сеансы, личную информацию сотрудников и многое другое.
  • Регулируемые данные: регулируемые данные в исследовании. Некоторые примеры областей в этой категории могут включать регулирование, защиту данных, нормативные записи и многое другое.

Примечание.

В исследованиях, автоматически созданных с помощью упреждающей аналитики ИИ из Управление состоянием безопасности данных (DSPM), используются пять фиксированных категорий риска: учетные данные и информация для доступа, личная информация, финансовая информация, конфиденциальная информация и интеллектуальная собственность. Эти категории отделены от 13 категорий по умолчанию, перечисленных здесь, и не настраиваются в текущей предварительной версии.

Рекомендуемые категории

Исследования по безопасности данных также предоставляет предлагаемые категории, созданные искусственным интеллектом, на основе содержимого, проанализированного в область исследования. Эти предлагаемые категории автоматически помогают исследованиям проверять элементы, сгруппированные в непредвиденных или неизвестных областях. В зависимости от типа включенного содержимого предлагаемые категории различаются.

Если анализируемое содержимое в основном сосредоточено на определенной предметной области за пределами областей категорий по умолчанию, предлагаемые категории настраиваются для этой конкретной области содержимого. Например, если анализируемое содержимое сосредоточено на строго конфиденциальной теме с терминами и понятиями, характерными исключительно для вашей организации, предлагаемые категории автоматически создаются для этих областей. Эти категории уникальны для вашей организации и анализируемого содержимого.

Пользовательские категории

Исследования по безопасности данных позволяет вручную создавать пользовательские категории для процесса создания ИИ, который будет использоваться при анализе содержимого. Определив категории, которые наилучшим образом соответствуют потребностям исследования, можно сэкономить время и позволить процессу ИИ автоматически классифицировать элементы на основе этих пользовательских категорий.

Пользовательские категории могут быть конкретными словами или фразами, которые фиксируют конкретный характер содержимого, интересующего вас во время исследования. Например, пользовательские категории могут включать уязвимость безопасности, исправление ошибок, конкретные имена кодов проектов или настраиваемую интеллектуальную собственность, например R&D, связанную с конкретными лекарствами или лекарствами-кандидатами.

Некоторые дополнительные пользовательские категории, которые могут быть полезны в ваших исследованиях:

  • Коды доступа
  • Документация по доступу к API
  • Ключи проверки подлинности API
  • Маркеры API
  • Файлы конфигурации приложений
  • Сведения о центре сертификации (ЦС)
  • Сертификаты
  • Учетные данные базы данных
  • Цифровые сертификаты
  • Планы аварийного восстановления
  • Данные о расположении сотрудников
  • Ключи шифрования
  • Файлы конфигурации среды
  • Журналы управления инцидентами
  • Маркеры интеграции
  • Токены JWT
  • Политики управления ключами
  • Коды резервного копирования многофакторной проверки подлинности (MFA)
  • Личные идентификационные номера (ПИН-коды)
  • Сведения о привилегированной учетной записи
  • Безопасные строки
  • Журналы безопасности.
  • Политики безопасности
  • Сеанс
  • Закрытые ключи SSH
  • Сторонние секреты API
  • Учетные данные пользователя
  • Оценки уязвимостей

Экспертизы

При определении элементов, требующих более глубокого анализа, Исследования по безопасности данных предоставляет возможности проверки на основе ИИ, помогающие сосредоточиться на ключевых рисках безопасности и конфиденциальных данных.

  • Учетные данные. Используйте эту область проверки для сканирования и извлечения учетных данных из всех выбранных элементов в область исследования. Эта информация позволяет следователям быстро понять, какие учетные записи и учетные данные связаны с инцидентом безопасности, а какие могут быть потенциально эксфильтрованы.

  • Риск. Используйте эту область исследования для оценки всех областей риска в выбранных файлах, чтобы помочь следователям сосредоточиться и приоритизировать расследования. Это средство обеспечивает общий риск для каждого элемента, если элемент является привилегированным содержимым, и другие конкретные риски для элемента.

    Типы областей риска:

    • Идентификаторы ресурсов
    • Учетные данные и секреты
    • Доказательства субъектов угроз и обсуждения нарушений
    • Срочные инциденты безопасности
    • Гигиена уязвимостей и безопасности
    • Личное и конфиденциальное содержимое
    • Сведения о сети и доступе
    • Соответствие политике и защита данных
    • Сведения об инфраструктуре
    • Сведения о клиенте
    • Информация для государственных организаций
    • Привилегированные сведения
    • Торговые секреты
  • Устранение рисков. Используйте эту область, чтобы оценить риск для выбранных файлов и включить Исследования по безопасности данных, чтобы предоставить вам инструкции по устранению последствий для дальнейших действий. Выбранные файлы получают оценку риска, сводку по рискам и подробные рекомендации по устранению рисков, чтобы предотвратить дополнительный ущерб от нарушения контента.

  • Персональные данные. Используйте эту область проверки для выявления и извлечения персональных данных из выбранных элементов в область исследования. Эта информация позволяет следователям быстро понять, какие типы персональных данных присутствуют в данных, связанных с инцидентом безопасности, включая имена, адреса электронной почты, идентификаторы сотрудников, IP-адреса и другие личные данные.

  • Пользовательский. Используйте эту область проверки для определения пользовательского анализа с помощью запроса на естественном языке. Опишите, что ИИ будет искать в выбранных элементах (до 2000 символов). Пользовательские осмотры дают те же структурированные результаты, что и встроенные области фокуса, с результатами, проверенными защитными ограждениями. Дополнительные сведения о создании пользовательских экзаменов см. в статье Создание пользовательской проверки.

Рекомендации по анализу ИИ

В следующей таблице приведены рекомендации, примеры сценариев и рекомендации по использованию средств анализа ИИ в Исследования по безопасности данных.

Рекомендации Поиск векторов Категоризации Экспертизы
Когда использовать Найдите примеры конкретных элементов в векторизованном наборе данных (счета, исправления ошибок и многое другое), чтобы подтвердить гипотезы и продолжить исследование.

Используйте поиск векторов для быстрого интерактивного анализа, результаты быстро заполняются.
Быстро определите приоритеты больших объемов данных в категориях по умолчанию, пользовательских или созданных ИИ категориях по степени конфиденциальности и серьезности. Классификация предоставляет наиболее релевантный контент для каждой категории, а не анализ каждого элемента.

В зависимости от размера набора данных классификация может занять некоторое время.
Комплексный целевой анализ на уровне элементов для всех выбранных элементов данных. Помогает извлекать подробные аналитические сведения из подтвержденных ресурсов данных для дальнейших действий.

Используйте проверку для выявления элементов для устранения рисков.
Пример сценария Оценка потенциально мошеннических действий. Определение приоритетов элементов для анализа после большого нарушения. Извлечение учетных данных и персональных данных из проверенного набора данных и рекомендуемые действия по устранению рисков.
Анализ область Все векторизированное содержимое в область исследования. Приоритетные подмножества наиболее релевантного содержимого для каждой выбранной категории. Все выбранные элементы в область исследования.
Лучшие методики Выполните поиск по всему векторизованному содержимому по интересующим элементам, чтобы создать более значимые категории, предлагаемые ИИ. Выберите одну или несколько категорий и используйте поиск векторов для поиска в категории.

Просмотрите области, созданные ИИ, в каждой категории, чтобы понять определенное содержимое в наборе данных.
Используйте обследование для детализации определенных элементов с высокой чувствительностью, чтобы получить индивидуальные оценки и результаты.

Готовы приступить к работе?