Поделиться через


Запуск проекта сопоставления

Область применения:SQL Server

Внимание

Службы качества данных (DQS) удаляются в предварительной версии SQL Server 2025 (17.x). Мы продолжаем поддерживать DQS в SQL Server 2022 (16.x) и более ранних версиях.

В этом разделе описывается, как выполнять сопоставление данных в службах качества данных (DQS). В процессе сопоставления выявляются кластеры соответствующих друг другу записей согласно правилам сопоставления в политике сопоставления, одна запись из каждого кластера обозначается как «выжившая» согласно правилу выживания, и результаты экспортируются. Процесс сопоставления, выполняемый с помощью служб DQS и называемый также удалением дубликатов, осуществляется с компьютерной поддержкой, но вы можете интерактивно создавать правила сопоставления и выбирать правило выживания из нескольких вариантов, так что вы управляете процессом сопоставления.

Сопоставление выполняется в три этапа: сначала производится сопоставление, в ходе которого вы определяете источник данных и сопоставляете с ним домены; затем выполняется процесс анализа соответствия; и, наконец, осуществляется этап выживаемости и экспорта, в ходе которого вы указываете правило выживаемости и экспортируете результаты сопоставления. Каждый из этих процессов выполняется на отдельной странице мастера действия «Сопоставление», что позволяет переходить вперед и назад по различным страницам, повторно запускать процесс и завершать конкретный процесс сопоставления, а затем возвращаться к одной и той же стадии процесса. Служба DQS предоставляет статистические данные об исходных данных, правилах сопоставления и результатах сопоставления, которые позволяют принимать информированные решения о сопоставлении и оптимизировать процесс сопоставления.

Необходимо подготовиться к сопоставлению путем создания политики сопоставления с одним или несколькими правилами сопоставления, затем запустить политику с образцом данных. Процесс сопоставления проекта выполняется отдельно от процесса политики сопоставления, и база знаний не заполняется сопоставленным набором знаний, полученным из сопоставленного проекта. Дополнительные сведения о создании политики сопоставления см. в разделе Create a Matching Policy.

Перед началом

Предварительные условия

  • Вам необходимо создать базу знаний с политикой сопоставления, состоящей из одного или нескольких правил сопоставления.

  • Microsoft Excel должен быть установлен на компьютере с клиентом Data Quality, если исходные данные содержатся в файле Excel. В противном случае на стадии сопоставления невозможно будет выбрать файл Excel. Файлы, созданные Microsoft Excel, могут иметь расширение XLSX, XLS или CSV. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003 (.xls), файлы Excel 2007 и 2010 (.xlsx) не поддерживаются. При использовании 64-разрядной версии Excel 2007 или 2010 сохраните файл как XLS- или CSV-файл либо вместо этого установите 32-разрядную версию Excel.

Безопасность

Разрешения

Для запуска проекта сопоставления необходимо иметь роль dqs_administrator или dqs_kb_editor в базе данных DQS_MAIN.

Первый шаг. Запуск проекта сопоставления

Вы выполняете действие сопоставления в проекте по обеспечению качества данных, который вы создаёте в клиентском приложении DQS.

  1. Запустите клиент качества данных. Сведения об этом см. в разделе Запуск приложения клиентского качества данных.

  2. На домашнем экране клиента качества данных щелкните новый проект качества данных, чтобы выполнить сопоставление в новом проекте качества данных. Введите имя для проекта по качеству данных, введите описание и выберите базу знаний, которую вы хотите использовать для сопоставления в разделе Использовать базу знаний. Нажмите кнопку Сопоставление для действия. Чтобы перейти к этапу сопоставления, нажмите кнопку Далее .

  3. Нажмите Открыть проект качества данных, чтобы выполнить сопоставление в существующем проекте качества данных. Выберите проект и нажмите кнопку Далее. (Или вы можете щелкнуть проект в разделе Недавний проект качества данных.) Если вы открываете соответствующий проект, который был закрыт, перейдите к этапу закрытия соответствующего действия проекта (как указано в столбце State в таблице проекта или в имени проекта в разделе "Недавний проект качества данных"). Если открыть завершенный проект сопоставления, отобразится страница Экспорт (на предыдущие экраны попасть нельзя).

Стадия сопоставления

На стадии сопоставления определяется источник данных, для которого запускается анализ сопоставления, а исходные столбцы сопоставляются с доменами, чтобы сделать домены доступными для действия сопоставления.

  1. Чтобы запустить сопоставление для базы данных на странице Сопоставление , оставьте в поле Источник данных значение SQL Server, выберите базу данных, для которой нужно запустить сопоставление, и выберите таблицу. База данных-источник должна находиться на том же экземпляре SQL Server, где находится сервер служб DQS. В противном случае она не появится в раскрывающемся списке.

  2. Чтобы запустить сопоставление для данных в электронной таблице Excel, выберите Файл Excel для Источника данных, нажмите кнопку Обзор и выберите файл Excel. При необходимости оставьте выбранным поле Использовать первую строку в качестве заголовка . В поле Листвыберите лист в файле Excel, который будет источником данных. Для выбора файла Excel необходимо установить Excel на компьютере клиента с приложением для обеспечения качества данных. Если Excel не установлен на компьютере клиента управления качеством данных, кнопка "Обзор" не будет доступна, и под этим текстовым полем вы получите уведомление, что Excel не установлен.

  3. В пункте Сопоставлениявыберите поле в источнике данных для Исходного столбца, а затем выберите соответствующий домен. Повторите действия для всех доменов, используемых в процессе сопоставления. Каждый домен, определенный в политике сопоставления, должен быть сопоставлен с соответствующим исходным столбцом. На странице «Сопоставление» отображаются домены, определенные в политике сопоставления, и правила в политике сопоставления на панели справа.

    Примечание.

    Сопоставить исходные данные с доменом служб DQS возможно, только если исходный тип данных поддерживается службами DQS и совпадает с типом данных домена DQS. Сведения о поддерживаемых службами DQS типах данных см. в разделе Типы данных SQL Server и службы SSIS, поддерживаемые для доменов DQS.

  4. Для добавления строки в таблицу "Сопоставления" щелкните значок плюс (+), а для удаления строки — значок минус (–).

  5. Щелкните значок Предварительный просмотр источника данных для просмотра данных в таблице SQL Server, в выбранных представлениях или в выбранных листах Excel.

  6. Для просмотра списка составных доменов, доступных в базе знаний и выбранных для сопоставления, нажмите кнопку Просмотр/выбор составных доменов .

  7. Чтобы перейти к этапу сопоставления, нажмите кнопку Далее .

    Примечание.

    Нажмите кнопку Закрыть , чтобы сохранить стадию сопоставления проекта и вернуться на домашнюю страницу DQS. При следующем открытии этого проекта он начнётся с того же этапа. Нажмите кнопку Отмена , чтобы завершить действие сопоставления, отменить результаты работы и вернуться на домашнюю страницу DQS.

Стадия определения соответствия

На этом этапе выполняется автоматизированный процесс сопоставления, который показывает, сколько соответствий имеется в источнике данных при данных правилах сопоставления. На выходе этого процесса формируется таблица результатов сопоставления, показывающая кластеры, выявленные службами DQS — у каждой записи в кластере будет свой идентификатор и показатель сопоставления, а также начальная старшая запись для кластера. Старшая запись в кластере выбирается случайным образом. Вы определяете выживающую запись, выбирая правило выживания на странице Экспорт при запуске проекта сопоставления. Каждая дополнительная строка в кластере считается сопоставлением. Ее показатель сопоставления (по сравнению со старшей записью) приводится в таблице результатов. Номер кластера совпадает с идентификатором старшей записи в кластере.

В результатах сопоставления вы можете отфильтровывать нужные данные, отбрасывая ненужные сопоставления. Также вы можете отобразить данные профилирования для процесса сопоставления в целом, индивидуальные условия применяемых правил сопоставления и статистику результатов сопоставления в целом. Процесс сопоставления позволяет выявлять перекрывающиеся или неперекрывающиеся кластеры, а при многократном запуске его можно применять как к вновь скопированным и повторно индексированным данным из источника, так и к прежним данным.

  1. На странице Сопоставлениевыберите из раскрывающегося списка пункт Перекрывающиеся кластеры для отображения сводных записей и следующих записей для всех кластеров при выполнении сопоставления, даже если группы кластеров имеют общие записи. Для отображения кластеров, которые имеют общие записи, в качестве единого кластера при выполнении сопоставления выберите пункт Неперекрывающиеся кластеры .

  2. Для копирования данных из источника данных в промежуточную таблицу и их повторной индексации при выполнении проекта сопоставления щелкните Перезагрузить данные из источника (по умолчанию). Чтобы запустить проект сопоставления без копирования данных в промежуточную таблицу и повторной индексации данных, щелкните Выполнить на предыдущих данных. Опция Выполнить на предыдущих данных отключена для первого запуска проекта сопоставления или если вы измените сопоставление на странице Сопоставление и затем нажмёте Да во всплывающем окне. В обоих этих случаях необходимо произвести повторную индексацию. Нет необходимости в выполнении повторной индексации, если проект сопоставления не был изменен. Использование предыдущих данных может повысить производительность.

  3. Нажмите кнопку Пуск , чтобы запустить сопоставление для выбранного источника данных.

  4. Нажмите кнопку Остановить , если нужно остановить проект сопоставления и отменить результаты.

  5. После завершения процесса сопоставления проверьте правильность кластеров в таблице Результаты сопоставления , затем просмотрите статистику на вкладках Профилировщик и Результаты сопоставления , чтобы убедиться, что получены требуемые результаты. Просмотрите сопоставленные записи, выбрав Сопоставленные в области Фильтр , либо просмотрите несопоставленные записи, выбрав Несопоставленные.

  6. Если в политике сопоставления задано несколько правил сопоставления, щелкните вкладку Правила сопоставления , чтобы задать значок для каждого правила, затем просмотрите, какое правило определило ту или иную запись в качестве сопоставления, определив правило в столбце Правило таблицы Результаты сопоставления .

  7. Если выбрать неопорную запись в таблице и щелкнуть значок Просмотреть подробные сведения (или дважды щелкнуть запись), службы DQS отобразят всплывающее окно Подробные сведения о показателе сопоставления, в котором отображается запись, на которой произведён двойной щелчок, и её опорная запись (со значениями во всех их полях), показатель сопоставления между ними и разбор вклада каждого поля в общий показатель сопоставления. Двойной щелчок сводной записи не приводит к отображению всплывающего меню.

  8. Щелкните значок Свернуть все , чтобы свернуть записи в таблице Результаты сопоставления . Будет отображаться только сводная запись, без повторяющихся записей. Щелкните значок Развернуть все , чтобы развернуть записи в таблице «Результаты сопоставления», включая все повторяющиеся записи.

  9. Чтобы убрать запись из результатов сопоставления, установите флажок Отклонено для записи.

  10. Чтобы изменить минимальный показатель сопоставления, который определяет уровень сопоставления, необходимый для отображения записи, выберите значок Минимальный показатель сопоставления в верхней правой части таблицы, затем введите число. Минимальный показатель сопоставления по умолчанию составляет 80%. Нажмите кнопку Обновить , чтобы изменить содержание таблицы.

  11. После завершения анализа данных кнопка Пуск преобразуется в кнопку Перезапустить . Нажмите кнопку Перезапустить для повторного запуска проекта анализа. Однако если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить ранее полученные данные теряются. Чтобы продолжить нажмите кнопку Да во всплывающем меню. Во время выполнения анализа не уходите с этой страницы, поскольку процесс анализа будет прекращен.

  12. Нажмите кнопку Далее , чтобы перейти к этапу выживания и экспорта.

Стадия выживания и экспорта

В процессе определения выживших Data Quality Services определяют для каждого кластера выжившую запись, которая заменит другие, совпадающие с ним записи в кластере. Затем экспортируются результаты сопоставления и/или выживания в таблицу в базе данных SQL Server, в CSV-файл или файл Excel.

Выживание является необязательным. Вы можете экспортировать результаты без запуска выживания, и в этом случае службы DQS будут использовать сводную запись, определенную в ходе анализа сопоставления. Если правилу выживания соответствуют в кластере две записи или более, то процесс выживания выберет из конфликтующих записей в качестве выжившей запись с меньшим идентификатором. Вы можете экспортировать выжившие данные в различные файлы или таблицы с помощью разных правил выживания.

  1. На странице Экспорт выберите в области Тип назначенияназначение, куда следует экспортировать данные сопоставления: SQL Server, CSV-файлили Файл Excel.

    Внимание

    Если используется 64-разрядная версия Excel, то нельзя экспортировать совпадающие данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.

  2. Если выбран SQL Server как Тип назначения, выберите базу данных для экспорта результатов в поле Имя базы данных.

    Внимание

    Целевая база данных должна находиться на том же экземпляре SQL Server, где находится сервер служб DQS. В противном случае она не появится в раскрывающемся списке.

  3. Установите флажок Результаты сопоставления для экспорта результатов сопоставления (см. объяснение выше) для указанной таблицы в базе данных SQL Server, либо для указанного CSV-файла или файла Excel. Установите флажок Результаты выживания для экспорта результатов выживания (см. объяснение выше) для указанной таблицы в базе данных SQL Server, либо для указанного CSV-файла или файла Excel.

    В качестве результатов сопоставления будут экспортированы следующие данные:

    • Список кластеров и сопоставленных записей в каждом кластере, в том числе имя правила и показатель сопоставления. Сводная запись будет отмечена как "Сводная". Кластеры будут отображаться в списке экспорта первыми.

    • Список несопоставленных записей со значением NULL в столбцах "Показатель" и "Имя правила". Эти записи будут присоединены к списку экспорта после кластеров.

    Будут экспортированы следующие данные для анализа выживаемости:

    • Список записей выживших, определенных в процессе отбора согласно правилу отбора. Эти записи отображаются в списке экспорта первыми.

    • Список несопоставленных записей, не включенных в кластеры сопоставленных записей. Эти записи присоединяются после результатов выживших.

  4. Если выбран SQL Server как Тип назначения, введите имена таблиц для экспорта результатов в поле Имя таблицы. Если экспортируются и результаты сопоставления, и результаты выживания, то у целевых таблиц должны быть разные имена, уникальные в базе данных.

  5. Если вы выбрали CSV-файл для Типа назначения, введите имя и путь к CSV-файлу, который вы хотите экспортировать, в Имя CSV-файла.

  6. Если выбран Файл Excel как Тип назначения, введите имя и путь к файлу Excel для экспорта в поле Имя файла Excel. Нельзя экспортировать в файл Excel, если используется 64-разрядная версия Excel.

  7. Выберите правило выживания следующим образом:

    • Выберите Сводная запись (по умолчанию) для определения оставшейся записи в качестве первоначальной сводной записи, выбранной DQS.

    • Выберите вариант Наиболее полная и самая длинная запись , чтобы определить выжившую запись как запись с самым большим количеством заполненных полей, а также максимальным количеством терминов в каждом поле. Проверяются все исходные поля, даже те, что не были сопоставлены с доменом на странице Сопоставление .

    • Выберите вариант Наиболее полная запись , чтобы определить выжившую запись как запись с самым большим количеством заполненных полей. В заполненном поле должно быть хотя бы одно значение (строковое, числовое или то и другое). Проверяются все исходные поля, даже те поля, которые не были сопоставлены с доменом на странице отображения. В заполненном поле должно быть хотя бы одно значение (строковое, числовое или то и другое).

    • Выберите вариант Самая длинная запись , чтобы определить выжившую запись как запись с самым большим количеством терминов в исходных полях. Чтобы определить длину каждой записи, службы DQS проверяют длину терминов во всех исходных полях, даже в тех полях, что не были сопоставлены с доменом на странице Сопоставление .

  8. Просмотрите статистику на вкладке Профилировщик , чтобы проверить правильность полученного результата.

  9. Нажмите кнопку Экспорт , чтобы экспортировать результаты. В этом диалоговом окне «Экспорт сопоставления» отображается ход процесса экспорта, после чего показываются его результаты.

    • Если в качестве назначения для данных был выбран вариант SQL Server , то в выбранной базе данных будет создана новая таблица с указанным именем.

    • Если вы выбрали CSV-файл в качестве назначения данных, файл .csv будет создан в указанном вами месте на компьютере сервера качества данных, с именем файла, которое вы указали ранее в поле имени CSV-файла.

    • Если в качестве назначения данных выбран файл Excel , то файл .xlsx будет создан в расположении на компьютере сервера качества данных с именем файла, указанным ранее в поле имени файла Excel.

  10. Убедитесь, что экспорт завершен успешно, и нажмите кнопку Закрыть.

  11. Для завершения проекта сопоставления нажмите кнопку Готово .

    Примечание.

    Если вы завершите проект согласования, а затем воспользуетесь им снова, в нём будет использоваться база знаний, существовавшая на момент публикации. Какие-либо изменения, внесенные в базу знаний после завершения проекта, не будут использоваться. Чтобы использовать эти изменения, либо использовать новую базу знаний, придется создать новый проект сопоставления. С другой стороны, если вы создали проект сопоставления, но не завершили его, любые изменения, опубликованные в политике сопоставления, будут использоваться при запуске сопоставления в этом проекте.

Дальнейшие действия. После запуска проекта сопоставления

После запуска проекта сопоставления вы можете изменить политику сопоставления в базе знаний, затем создать и запустить еще один проект сопоставления на основе обновленной политики сопоставления. Дополнительные сведения см. в статье Create a Matching Policy.

Вкладки профайлера и результатов

На вкладках «Профилировщик» и «Результаты» находятся статистические данные по процессу сопоставления.

Вкладка «Профилировщик»

Перейдите на вкладку Профилировщик , чтобы отобразить статистические данные для базы данных-источника и для каждого поля, входящего в правило политики. Статистические данные будут обновляться по мере выполнения правила политики. Профилирование поможет оценить эффективность действия по удалению дублирующихся записей, что позволяет определить, в какой степени процесс может способствовать улучшению качества данных. Точность профилирования не важна для проекта сопоставления.

К статистическим данным базы данных-источника относятся следующие данные.

  • Записи. Общее количество записей в базе данных.

  • Всего значений. Общее число значений в полях.

  • Новые значения. Общее число значений, которые являются новыми после предыдущего запуска, и их процент от целого.

  • Уникальные значения. Общее количество уникальных значений в полях и их процент от целого.

  • Новые уникальные значения. Общее количество уникальных значений, которые являются новыми в полях, и их процент от целого.

Статистические данные полей включают следующее:

  • Поле. Имя поля, которое было включено в сопоставления.

  • Домен. Имя домена, который был сопоставлен с полем.

  • Новые: Количество новых совпадений и их процентная доля от общего количества.

  • Уникальные: количество уникальных записей в поле и их процент от общего числа

  • Полнота. Процентная доля завершения выполнения правила.

Уведомления о политике соответствия

Следующие условия для действия политики сопоставления приводят к уведомлениям.

  • Поле не заполнено во всех записях. Рекомендуется исключить его из сопоставления.

  • Показатель полноты поля очень низкий. Может потребоваться исключение этого поля из сопоставления.

  • Все значения в поле являются недопустимыми. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.

  • В этом поле низкий уровень допустимых значений. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.

  • В этом поле высокий уровень уникальности. С помощью этого поля в политике сопоставления можно уменьшить количество результатов сопоставления.

Вкладка «Правила сопоставления»

Щелкните эту вкладку, чтобы отобразить список правил в политике сопоставления и условиях правила.

Список правил
Отображает список всех правил сопоставления в политике сопоставления. Выберите одно из правил, чтобы отобразить условия для правила сопоставления в таблице правил сопоставления.

Таблица правил сопоставления
Отображает каждое условие выбранного правила, в том числе домен, значение подобия, вес и выбор необходимого условия.

Вкладка «Результаты сопоставления»

Щелкните вкладку Результаты сопоставления , чтобы просмотреть статистику анализа источника данных с использованием набора знаний, выбранных для проекта, и правил сопоставления в этой базе знаний. К статистическим данным относятся следующие данные.

  • Общее количество записей в базе данных

  • Общее количество записей сопоставления в базе данных

  • Количество записей в базе данных, которые не считаются повторяющимися

  • Количество обнаруженных кластеров

  • Средний размер кластера (количество повторяющихся записей, деленное на количество кластеров)

  • Наименьшее число дубликатов в кластере

  • Наибольшее число дубликатов в кластере