Классификация данных

На этой странице описывается, как использовать классификацию данных Databricks в каталоге Unity для автоматического классификации конфиденциальных данных и тегов в каталоге.

Каталоги данных могут содержать огромный объем данных, часто содержащий известные и неизвестные конфиденциальные данные. Очень важно, чтобы команды данных понимали, какой тип конфиденциальных данных существует в каждой таблице, чтобы они могли управлять и демократизировать доступ к этим данным.

Для решения этой проблемы классификация данных Databricks использует агент ИИ для автоматической классификации и тегов таблиц в каталоге. Это позволяет обнаруживать конфиденциальные данные и применять средства управления над результатами, используя такие средства, как управление доступом на основе атрибутов в каталоге Unity. Список поддерживаемых тегов см. в разделе "Поддерживаемые теги классификации".

С помощью этой функции можно:

Классифицировать данные: подсистема использует агентическую систему ИИ для автоматического классификации и добавления тегов к любым таблицам в каталоге Unity.
Оптимизируйте затраты с помощью интеллектуального сканирования: система интеллектуально определяет, когда следует сканировать данные, используя каталог Unity и подсистему аналитики данных. Это означает, что сканирование увеличивается и оптимизировано для обеспечения классификации всех новых данных без ручной настройки.
Просмотр конфиденциальных данных и защита конфиденциальных данных: результаты отображаются для просмотра результатов классификации и защиты конфиденциальных данных путем добавления тегов и создания политик управления доступом для каждого класса.

Это важно

Классификация данных Databricks использует хранилище по умолчанию для хранения результатов классификации. Плата за хранение не взимается.

Классификация данных Databricks использует большую языковую модель (LLM) для поддержки классификации.

Требования

Замечание

Классификация данных — это функция предварительной версии на уровне рабочей области, которая может управляться только администратором рабочей области или учетной записи. Инструкции см. в разделе Manage Azure Databricks previews.

Рабочая область должна иметь бессерверные вычислительные ресурсы (включена по умолчанию в рабочих областях с каталогом Unity).
Чтобы включить классификацию данных, вы должны владеть каталогом или иметь на него USE CATALOG права и MANAGE привилегии.
Чтобы включить автоматическую маркировку для каталога, необходимо иметь USE CATALOG в каталоге, APPLY TAG в каталоге и ASSIGN в примененном теге.
Чтобы просмотреть результаты классификации в пользовательском интерфейсе, необходимо иметь USE CATALOG или MANAGE (SELECT + USE SCHEMA) в каталоге. Чтобы просмотреть примеры значений, связанных с обнаружениями, необходимо иметь SELECT в таблице результатов системы.

Замечание

По умолчанию только администраторы учетных записей имеют MANAGE и ASSIGN разрешения на теги, управляемые системой классификации данных. Администраторы учетных записей могут предоставлять MANAGE и ASSIGN для отдельных управляемых тегов другим пользователям, субъектам-службам или группам. См. раздел "Управление разрешениями" для управляемых тегов.

Использование классификации данных

Вы можете включить классификацию данных для нескольких каталогов одновременно на странице результатов или настроить отдельные каталоги с более детальным элементом управления на уровне схемы.

Включение нескольких каталогов

На странице результатов классификации данных нажмите кнопку "Настроить".
Выберите каталоги, которые вы хотите включить, или выберите все доступные каталоги в рабочей области.
Нажмите кнопку "Включить".

Включение всех доступных каталогов не включает автоматически будущие каталоги. Чтобы классифицировать новый каталог, вернитесь в диалоговое окно "Настройка " и включите его.

Включение одного каталога с выбором схемы

Чтобы выбрать определенные схемы в каталоге, выполните указанные действия.

Перейдите к каталогу и перейдите на вкладку "Сведения ".
Рядом с классификацией данных нажмите кнопку "Включить ".
Откроется диалоговое окно "Классификация данных ". По умолчанию все схемы включаются. Чтобы включить только некоторые схемы, выберите их в раскрывающемся меню Схемы для включения. Вы также можете выбрать политику использования
Нажмите кнопку Сохранить.

Это создает фоновое задание, которое добавочно сканирует все таблицы в каталоге или выбранных схемах.

Подсистема классификации использует интеллектуальную проверку, чтобы определить, когда следует сканировать таблицу. Новые таблицы и столбцы в каталоге обычно сканируются в течение 24 часов после создания.

Просмотр результатов классификации

Чтобы просмотреть результаты классификации, нажмите кнопку Просмотреть результаты рядом с параметром классификации данных .

Кнопка

Откроется пользовательский интерфейс классификации данных для каталога. Для просмотра результатов классификации требуется бессерверное хранилище SQL.

Вы также можете просматривать агрегированные результаты во всех классифицированных каталогах в хранилище метаданных с помощью селектора каталога в левом верхнем углу. Выберите все каталоги из раскрывающегося меню.

Для каждого типа классификации в таблице показано:

Обнаруженные столбцы: количество столбцов, в которых обнаружена классификация.
Автоматическое добавление тегов: состояние тегов для этой классификации — активный или неактивный. В представлении хранилища метаданных состояние частично активно указывает, что тег включен в некоторых, но не во всех каталогах.
Доступ пользователей (последние 7d): количество отдельных пользователей, которые обращаются к немаскированных и маскированных данных этой классификации за последние 7 дней. Используйте это для оценки воздействия конфиденциальных данных в вашей организации.

Страница результатов с таблицей обнаруженных классов.

Обзор обнаружений

Чтобы просмотреть результаты для определенного типа классификации, нажмите кнопку "Проверить " в самом правом столбце. Откроется панель с двумя вкладками:

Обнаруженные столбцы: отображает столбцы, в которых обнаружен тег классификации с высокой степенью достоверности, упорядоченные по последнему обнаружению. Также включает в себя диаграмму обнаружения с течением времени и список обнаруженных столбцов с примерами значений. Щелкните любую линейку на диаграмме, чтобы просмотреть определенные обнаружения для этой даты. Примеры значений отображаются только в том случае, если у вас есть необходимые разрешения для просмотра результатов классификации.
Доступ пользователей: выводит список всех пользователей, которые получили доступ к столбцам с этим тегом классификации, отображая их электронную почту и имя пользователя, а также тип доступа: маскированный или немаскированный. Также показаны все политики управления доступом на основе атрибутов (ABAC), назначенные этому тегу классификации. При просмотре результатов для одного каталога можно создать новую политику ABAC непосредственно на панели.

Результаты, показывающие столбцы с обнаруженными классификациями.

Если обнаруженные столбцы неверны, щелкните значок "Исключить " справа от записи. См. Исключить обнаружения.

Включение автоматического добавления тегов

Если определенные столбцы соответствуют вашим ожиданиям, можно включить автоматическую маркировку тега классификации. Если включена автоматическая маркировка, все существующие и будущие обнаружения этой классификации помечены.

Вы можете настроить автоматическое добавление тегов на двух уровнях:

Уровень хранилища метаданных: включение или отключение всех каталогов одновременно. Необходимо быть администратором хранилища метаданных и иметь ASSIGN на применяемый тег.
Уровень каталога: включение или отключение только для текущего каталога. Параметры уровня каталога имеют приоритет над параметром уровня хранилища метаданных. Необходимо иметь USE CATALOG и APPLY TAG в каталоге, а также ASSIGN на теге, к которому применяется.

На уровне каталога автоматический тег имеет три состояния:

По умолчанию (наследуется): каталог наследует параметр тегов от уровня хранилища метаданных.
Активный: тег явно включен для этого каталога независимо от параметра уровня хранилища метаданных.
Неактивный: тег явно отключен для этого каталога независимо от параметра уровня хранилища метаданных.

При отключении тегов будущие теги не применяются, но существующие теги не удаляются.

Замечание

При включении автоматического добавления тегов теги не заполняются немедленно. Они будут заполнены при следующем сканировании, которое должно вступить в силу в течение 24 часов. Последующие классификации будут помечены немедленно.

Исключить обнаружения

Это важно

Исключения обнаружения и их использование для повышения точности будущих классификаций находятся в бета-версии.

На панели проверки можно исключить отдельные обнаружения столбцов. Исключение обнаружения:

Удаляет любой существующий тег классификации из этого столбца.
Предотвращает повторное применение тега к этому столбцу в будущем.
Предоставляет отзывы, которые повышают точность будущих результатов классификации.

Чтобы исключить обнаружение, щелкните значок "Исключить " для соответствующего столбца на панели проверки. Чтобы повторно включить обнаружение, снова щелкните значок.

Исключение отдельного столбца из процесса обнаружения.

Таблица системы результатов

Классификация данных создает системную таблицу с именем system.data_classification.results для хранения результатов, которые по умолчанию доступны только администратору учетной записи. Администратор учетной записи может предоставить общий доступ к этой таблице. Таблица доступна только при использовании бессерверных вычислений. Дополнительные сведения об этой таблице см. в справочнике по системной таблице классификации данных.

Это важно

Таблица результатов system.data_classification.results содержит все результаты классификации во всем хранилище метаданных и включает примеры значений из таблиц в каждом каталоге. Эту таблицу следует предоставлять пользователям, которым разрешено просматривать результаты классификации на уровне хранилища метаданных, включая примеры значений.

Пользователи с SELECT доступом к этой таблице также могут видеть примеры значений, связанных с обнаружением на странице результатов классификации данных.

Настройка элементов управления на основе результатов классификации данных

Маскирование конфиденциальных данных с помощью политики ABAC

Databricks рекомендует использовать управление доступом на основе атрибутов в каталоге Unity для создания элементов управления на основе результатов классификации данных.

Чтобы создать политику на странице результатов классификации данных, нажмите кнопку "Проверить для тега классификации", откройте вкладку "Доступ пользователей" и нажмите кнопку "Создать политику". Форма политики предварительно заполнена для маскирования столбцов с проверяемым тегом классификации. Чтобы маскировать данные, укажите любую функцию маскирования, зарегистрированную в каталоге Unity, и нажмите кнопку "Сохранить".

Вы также можете создать политику, которая охватывает несколько тегов классификации, изменив Когда столбец на соответствует условию и предоставив несколько тегов.

Например, чтобы создать политику с именем "Конфиденциально", которая маскирует любое имя, адрес электронной почты или номер телефона, установите условие на has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number").

В этом примере записной книжки показано, как использовать классификацию данных, чтобы помочь в обнаружении и удалении данных для соответствия GDPR.

Получите ноутбук

Обработка неправильных тегов

Если классификация неправильная, исключите детектирование из обзорной панели. Исключение обнаружения удаляет тег, предотвращает его повторное применение и повышает точность будущих проверок. См. Исключить обнаружения.

Ошибки сканирования

Если во время сканирования возникают какие-либо ошибки, кнопка "Ошибки " появится в правом верхнем углу таблицы результатов.

Нажмите кнопку, чтобы отобразить таблицы, которые не прошли проверку, и соответствующее сообщение об ошибках.

Ошибки сканирования таблицы классификации данных.

По умолчанию ошибки, возникшие для отдельных таблиц, пропускаются и извлекаются на следующий день.

Просмотр расходов на классификацию данных

Сведения о выставлении счетов за классификацию данных см. на странице цен. Затраты, связанные с классификацией данных, можно просмотреть, выполнив запрос или просмотр панели мониторинга использования.

Замечание

Начальное сканирование является более дорогостоящим, чем последующие проверки в том же каталоге, так как эти проверки являются добавочными и обычно влечет за собой более низкие затраты.

Просмотр использования из системной таблицы `system.billing.usage`

Вы можете запросить расходы на классификацию данных из system.billing.usage. Поля created_by и catalog_id можно использовать при необходимости для разбиения затрат:

created_by: включите сведения о затратах, связанных с пользователем, который активировал использование.
catalog_id: включите, чтобы увидеть затраты по каталогу. Идентификатор каталога отображается в system.data_classification.results таблице.

Пример запроса за последние 30 дней:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Чтобы вычислить общую стоимость доллара, присоединитесь к system.billing.list_prices. В следующем примере запроса именованный параметр :add_on_rate используется как множитель цены списка. Задайте для него 1 значение, чтобы использовать цену по списку напрямую или значение меньше, чем 1 для отражения согласованной скидки (например, 0.9 для скидки на 10%).

Пример запроса на общую стоимость доллара за последние 30 дней:

SELECT
  u.usage_date,
  SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
    AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
  ON lp.sku_name = u.sku_name
WHERE
  u.billing_origin_product = 'DATA_CLASSIFICATION'
  AND u.usage_end_time >= lp.price_start_time
  AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
  AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
  u.usage_date
ORDER BY
  u.usage_date DESC;

Просмотр данных с панели мониторинга использования

Если в рабочей области уже настроена панель мониторинга использования, ее можно использовать для фильтрации использования, выбрав источник выставления счетов Project с меткой "Классификация данных". Если у вас нет панели мониторинга использования, можно импортировать ее и применить ту же фильтрацию. Дополнительные сведения см. в разделе "Панели мониторинга использования".

Поддерживаемые теги классификации

Полный список поддерживаемых тегов, организованных глобальными тегами, региональными тегами и платформами соответствия требованиям (PII, GDPR, HIPAA, DPDPA), см. в разделе Поддерживаемые теги классификации.

Ограничения

Виды и виды метрик не поддерживаются. Если представление основано на существующих таблицах, Databricks рекомендует классифицировать базовые таблицы, чтобы узнать, содержат ли они конфиденциальные данные.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-28

Классификация данных

Требования

Использование классификации данных

Включение нескольких каталогов

Включение одного каталога с выбором схемы

Просмотр результатов классификации

Обзор обнаружений

Включение автоматического добавления тегов

Исключить обнаружения

Таблица системы результатов

Настройка элементов управления на основе результатов классификации данных

Маскирование конфиденциальных данных с помощью политики ABAC

Обнаружение и удаление данных в соответствии с GDPR

Обнаружение и удаление данных в соответствии с GDPR с помощью записной книжки для классификации данных

Обработка неправильных тегов

Ошибки сканирования

Просмотр расходов на классификацию данных

Просмотр использования из системной таблицы system.billing.usage

Просмотр данных с панели мониторинга использования

Поддерживаемые теги классификации

Ограничения

Обратная связь

Дополнительные ресурсы

Просмотр использования из системной таблицы `system.billing.usage`