Поделиться через


Создание связей на основе терминов

Область применения:SQL Server

Это важно

Службы качества данных (DQS) удаляются в SQL Server 2025 (17.x). Мы продолжаем поддерживать DQS в SQL Server 2022 (16.x) и более ранних версиях.

В этом разделе описывается создание отношений на основе терминов для домена в службах качества данных (DQS). Отношение на основе термина (TBR) позволяет вам исправить термин, который является частью значения в предметной области. Это позволяет считать идентичными синонимами несколько значений, идентичных по написанию во всем, кроме отдельных частей. Например, можно настроить отношение на основе терминов, которое изменяет термин "Inc." на "Инкорпорейтед". Термин «Inc.» будет меняться каждый раз, когда он встречается в домене. Экземпляры "Contoso, Inc." будут изменены на "Contoso, Incorporated", а эти два значения будут считаться точными синонимами.

Чтобы использовать отношения на основе терминов, вы создадите список пар value/Correct To, таких как "Inc". и "Включено", или "Старший" и "Sr.". Использование связи на основе термина позволяет заменять термин по всему домену, не задавая вручную отдельные значения домена как синонимы. Вы можете указать, чтобы значение было исправлено, даже если его ранее не выявили в процессе поиска знаний. Если преобразование связи на основе термина делает два значения идентичными, то службы DQS создадут между ними синонимическую связь (в процессе обнаружения знаний), связь исправления (в процессе исправления данных) или точное соответствие (в сочетании).

И преобразование с помощью связей на основе термина, и преобразование символов (в котором специальные символы заменяются пробелом или значением NULL) выполняются на стадии предварительной обработки перед анализом. Если требуется синтаксический анализ составного домена, то он выполняется перед этими двумя преобразованиями, поскольку для синтаксического анализа по разделителям требуются символы. Другие операции, такие как изменение правил и значений домена, выполняются после этих преобразований. Если выполняется сопоставление, связи, основанные на терминах, применяются к исходным данным до действия сопоставления, независимо от выполнения очистки.

Связи на основе термина и управление доменами

Если связь на основе термина применяется в управлении доменами, службы DQS применяют изменения в процессах обнаружения знаний, очистки и сопоставления, но не изменяют само значение домена в соответствии со связью на основе термина. Иными словами, если ввести и принять связь на основе термина на вкладке Связи на основе термина на странице Управление доменами , никакого изменения на вкладке Значения домена этой страницы не происходит. Это позволяет впоследствии изменить TBR.

Терминологические связи и очистка данных

Если вы применяете отношение на основе термина в домене, а затем выполняете процесс очистки данных, DQS внедряет изменения во время очистки, но не применяет их к терминам в базе знаний.

  • Если значение, измененное связью на основе термина, находится в домене, но не является синонимом, оно будет отображаться в столбце Исправить на вкладки Исправлено на странице Управление результатами и просмотр результатов , а в качестве причины будет указана связь на основе термина.

  • Если значение, измененное терминологической связью, не находится в домене и система DQS находит соответствующее значение, оно будет исправлено на найденное и появится на вкладке «Исправлено» или «Предложено» в зависимости от уровня доверия. Если пара не найдена, значение появится под названием «Новое» с TBR-коррекцией. Это делается потому, что даже если исправить TBR, это не значит, что значение правильно.

  • Если значение, измененное связью на основе термина, находится в домене, но ошибочно или недопустимо с существующим исправлением, это значение появится на вкладке «Исправлено» с исправлением, а в качестве причины будет указано значение домена.

  • Если значение, измененное связью на основе термина, находится в домене, но ошибочно или недопустимо без изменения, это значение появится на вкладке «Недопустимо», а в качестве причины будет указано значение домена.

Связи на основе термина и обнаружение знаний

Если применяется связь на основе термина, а затем выполняется процесс обнаружения знаний, любое значение, соответствующее TBR, останется без изменения и будет считаться правильным. Любое значение, измененное TBR, будет импортировано как корректное и будет считаться синонимом значения, соответствующего TBR.

Связи на основе терминов и импорт значений для очистки в домен

Если вы импортируете в домен знания о качестве данных, собранные в процессе очистки, то значения, измененные заменой на основе термина (TBR), будут импортированы как правильные.

Перед началом

Требуемые предварительные условия

Для создания связей на основе термина необходимо открыть домен в действии «Управление доменами».

Безопасность

Разрешения

Для создания связей на основе термина необходимо иметь роль dqs_kb_editor или dqs_administrator в базе данных DQS_MAIN.

Создание связей на основе терминов

  1. Запустите приложение Data Quality. Для получения дополнительной информации см. в разделе "Запуск клиентского приложения качества данных".

  2. На домашнем экране клиента качества данных откройте или создайте база знаний. Выберите операцию Управление доменами , а затем нажмите кнопку Открыть или Создать. Дополнительные сведения см. в разделе Создание базы знаний или Открытие базы знаний.

    Примечание.

    Управление доменами осуществляется на странице клиента службы Data Quality Services, которая содержит пять вкладок для отдельных операций управления доменом. Это не процесс, управляемый мастером; любая операция управления может быть выполнена отдельно.

  3. В области Список доменов страницы Управление доменами выберите домен, для которого необходимо создать правило домена, или создайте новый домен. Если нужно создать новый домен, см. раздел Создать домен.

  4. Нажмите на вкладку Терминологические связи.

  5. Создайте связи на основе терминов, как указано ниже:

    1. Нажмите кнопку Добавить новое отношение , чтобы добавить строку к таблице «Связи».

    2. В столбце Значение добавленной строки введите термин, который требуется заменять при каждом его обнаружении в значении из выбранного домена.

      Примечание.

      Появится ошибка, если термин есть в домене как целое значение или если он уже существует в домене как значение исправления.

    3. В столбце Исправить на введите термин, которым необходимо заменять термин в столбце Значение .

    4. Снова щелкните Добавить новые связи , чтобы добавить еще одну связь на основе термина.

    5. Щелкните Удалить выбранные связи , чтобы удалить одну или несколько выбранных строк из таблицы «Связи». Вы можете выбрать несколько строк, удерживая нажатой клавишу Ctrl и щелкая невыбранные строки.

    6. Поиск значения в таблице «Связи» путем ввода одной или нескольких цифр в текстовом поле Найти . Совпадения для строки будут выделены. Используйте стрелки вверх и вниз для перехода к различным экземплярам строки в таблице.

    7. Проверка орфографии: Если значение в столбце Значение или Исправить на имеет волнистое красное подчеркивание, проверка орфографии предлагает исправление. Щелкните правой кнопкой мыши значение с нижним подчеркиванием и выберите одно из значений, рекомендуемых средством проверки орфографии. Также можно щелкнуть Добавить в контекстном меню, чтобы сохранить исходное значение. Дополнительные сведения см. в разделах Use the DQS Speller и Set Domain Properties.

      Примечание.

      Для использования средства проверки орфографии включите его на странице Свойства домена либо, если оно отключено на странице Свойства домена , щелкните значок Включить или отключить средство проверки орфографии на странице Связи на основе термина , чтобы включить его на этой странице.

  6. Нажмите Применить изменения, чтобы применить терминологические связи к домену.

  7. Нажмите кнопку Готово , чтобы завершить операцию управления доменами, как описано в разделе Завершение операции по управлению доменами.

Продолжение: После создания связей на основе терминов

После создания связей на основе терминов, вы можете выполнить другие задачи управления доменами, провести обнаружение знаний для добавления информации в домен или добавить политику сопоставления к домену. Дополнительные сведения см. в разделах Обнаружение набора знаний, Управление доменом и Создание политики сопоставления.