Поделиться через


Выполнять извлечение знаний

Область применения:SQL Server

Это важно

Службы качества данных (DQS) удаляются в предварительной версии SQL Server 2025 (17.x). Мы продолжаем поддерживать DQS в SQL Server 2022 (16.x) и более ранних версиях.

В этом разделе описывается создание базы знаний посредством обнаружения набора знаний. В процессе обнаружения Службы качества данных (DQS) анализирует данные в образце источника данных с помощью процесса с компьютерной поддержкой и добавляет знания, которые он получает от анализа данных, в базу знаний. Эти наборы знаний можно изменять и расширять на шаге Управление значениями домена действия обнаружения набора знаний или в действии управления доменами.

Обнаружение знаний — это управляемый мастером процесс из трех шагов, каждый из которых обязателен для выполнения.

Перед началом

Предварительные условия

Microsoft Excel должен быть установлен на клиентском компьютере, предназначенном для проверки качества данных, если исходные данные для обнаружения находятся в файле Excel. В противном случае на стадии сопоставления невозможно будет выбрать файл Excel. Файлы, созданные Microsoft Excel, могут иметь расширение XLSX, XLS или CSV. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003 (.xls), файлы Excel 2007 и 2010 (.xlsx) не поддерживаются. При использовании 64-разрядной версии Excel 2007 или 2010 сохраните файл как XLS- или CSV-файл либо вместо этого установите 32-разрядную версию Excel.

Безопасность

Разрешения

Для создания базы знаний необходима роль dqs_kb_editor или dqs_administrator в базе данных DQS_MAIN.

Первый шаг. Запуск обнаружения знаний

  1. Запустите клиент проверки качества данных. Сведения об этом см. в разделе "Запуск клиентского приложения для обеспечения качества данных".

  2. Если необходимо выполнить обнаружение набора знаний в новой базе знаний, нажмите кнопку Создать базу знаний, введите имя и описание и укажите, на основе чего создается база знаний (если это применимо). Если обнаружение набора знаний необходимо выполнить в существующей базе знаний, нажмите кнопку Открыть базу знанийи выберите базу знаний.

  3. Выберите действие Обнаружение знаний и нажмите кнопку Создать , чтобы создать новую базу знаний, или нажмите кнопку Открыть , чтобы открыть существующую базу знаний.

Этап картирования

  1. В поле Источник данных выберите SQL Server (по умолчанию) или Файл Excel.

    Примечание.

    На этой странице устанавливается соединение с сервером SQL Server или источником данных Excel, а затем сопоставляются столбцы источника данных с доменом в базе знаний. В таблице «Сопоставления» отображаются все столбцы в базе данных-источнике, которые будут проанализированы для добавления набора знаний в соответствующие домены. Сопоставление производится между столбцами источника данных и доменом в базе знаний.

  2. Если используется источник данных SQL Server, выполните следующие действия.

    1. В поле База данных выберите базу данных-источник, которую необходимо проанализировать для создания базы знаний. В текстовом поле с раскрывающимся списком содержится список доступных баз данных. Исходная база данных должна присутствовать в том же экземпляре SQL Server, что и сервер качества данных. В противном случае она не появится в раскрывающемся списке.

    2. В поле Таблица или представление выберите таблицу или представление, которые необходимо проанализировать для создания базы знаний. Таблица или представление должны быть образцом данных, а не всей базой данных-источником, в которой выполняется очистка или сопоставление. В текстовом поле с раскрывающимся списком отображается список таблиц и представлений, доступных в выбранной базе данных.

  3. Если используется источник данных Excel, выполните следующие действия.

    1. Нажмите кнопку Обзор и выберите файл Excel, который необходимо проанализировать для создания базы знаний. Для выбора файла Excel необходимо установить Excel на клиентский компьютер Data Quality. Если Excel не установлен на клиентском компьютере Data Quality, кнопка "Обзор" будет недоступна, и вы получите уведомление под этим текстовым полем о том, что Excel не установлен.

    2. Установите флажок Использовать первую строку в качестве заголовка , если первая строка файла Excel содержит данные заголовков.

  4. В таблице Сопоставления сопоставьте каждый из исходных столбцов, в которых необходимо провести обнаружение наборов знаний, с доменами в базе знаний, как описано ниже.

    1. Создайте сопоставление, выбрав исходный столбец из раскрывающегося списка для столбца Исходный столбец пустой строки, а затем выбрав домен из раскрывающегося списка в столбце Домен той же строки, если домен существует. Если домен не существует, нажмите кнопку Создать домен или Создать составной домен , чтобы создать домен. Дополнительные сведения см. в разделе Create a Domain Rule или Create a Composite Domain.

    2. Повторите предыдущий шаг для каждого сопоставления. Чтобы изменить число строк в таблице, нажмите кнопку Добавить сопоставление столбцовили выберите строку и нажмите кнопку Удалить выбранное сопоставление столбцов. Если нажать кнопку Удалить выбранное сопоставление столбцов при выбранной заполненной строке, эта заполненная строка будет удалена даже при наличии другой незаполненной строки.

      Примечание.

      Вы можете сопоставить исходные данные с доменом служб DQS для проведения обнаружения набора знаний, только если исходный тип данных поддерживается службами DQS и совпадает с типом данных домена служб DQS. Дополнительные сведения о поддерживаемых типах данных см. в разделе Типы данных SQL Server и службы SSIS, поддерживаемые для доменов DQS.

    3. Нажмите кнопку Просмотр/выбор составных доменов для отображения определенных составных доменов. Если составные домены не определены, элемент управления будет недоступен.

    4. Нажмите кнопку Предварительный просмотр источника данных , чтобы просмотреть во всплывающем окне все данные из источника данных, выбранного в текстовом поле Таблица или представление или Файл Excel .

  5. Нажмите кнопку Далее , чтобы перейти на страницу Обнаружение мастера обнаружения набора знаний. Также вы можете выбрать следующие действия.

    • Нажмите Отмена, чтобы прекратить процесс обнаружения знаний, потеряв данные, и вернуться на домашнюю страницу DQS.

    • Нажмите кнопку Закрыть , чтобы вернуться на домашнюю страницу DQS с сохранением результатов работы. База знаний будет заблокирована для вас, а в таблице баз знаний на экране Открытие базы знаний её состояние будет Обнаружение — сопоставление. После нажатия кнопки Закрытьдля выполнения действий управления доменами потребуется нажать кнопку Обнаружение знаний на экране Открыть базу знаний , перейти на экран Управление базами знаний: управление терминами доменов , нажать кнопку Готово, а затем кнопку Да , чтобы опубликовать базу знаний, или Нет , чтобы сохранить работу в базе знаний и выйти.

Этап обнаружения

  1. Нажмите кнопку Запустить для анализа источника данных.

    Примечание.

    Обнаружение выполняется для столбцов, заданных в таблице Сопоставления на странице Карта . Домены, сопоставленные с каждым из столбцов, будут заполняться знаниями, полученными в ходе обнаружения. Если домен является составным, то набор знаний будут добавлены в отдельные домены, входящие в составной домен.

  2. По мере выполнения процесса обнаружения проверяйте состояние завершения каждого из шагов обнаружения: Предварительная обработка записей, Выполнение правил доменаи Выполнение обнаружения. Для каждого из этих этапов отображаются процент завершения и состояние завершения.

  3. После завершения анализа убедитесь, что строка состояния под статистическими показателями выполнения содержит сообщение об успешном завершении.

    Примечание.

    Если покинуть экран до загрузки файла, процесс загрузки файла будет прерван.

  4. После завершения анализа проверьте статистические показатели на вкладке «Профилировщик» , чтобы определить состояние данных. Дополнительные сведения см. в разделе Профилирование данных и уведомления в DQS.

  5. После завершения анализа данных кнопка Пуск преобразуется в кнопку Перезапустить . Нажмите кнопку Перезапуск для повторного запуска процесса анализа. Однако если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить ранее полученные данные теряются. Чтобы продолжить нажмите кнопку Да во всплывающем меню. Во время выполнения анализа не уходите с этой страницы, поскольку процесс анализа будет прекращен.

  6. Нажмите кнопку Далее , чтобы перейти на страницу Управление значениями домена мастера обнаружения набора знаний. На этой странице вы можете изменить знания, добавленные в домены базы знаний. Также вы можете выбрать следующие действия.

    • Нажмите Отмена, чтобы прекратить процесс обнаружения знаний, потеряв данные, и вернуться на домашнюю страницу DQS.

    • Нажмите кнопку Закрыть , чтобы вернуться на домашнюю страницу DQS с сохранением результатов работы. База знаний станет недоступной для вас, и в таблице баз знаний на экране Открытие базы знаний эта база знаний перейдет в состояние Режим обнаружения. После нажатия кнопки Закрытьдля выполнения действий управления доменами потребуется нажать кнопку Обнаружение знаний на экране Открыть базу знаний , перейти на экран Управление базами знаний: управление терминами доменов , нажать кнопку Готово, а затем кнопку Да , чтобы опубликовать базу знаний, или Нет , чтобы сохранить работу в базе знаний и выйти.

    • Щелкните, чтобы вернуться на страницу Обнаружение .

Этап управления результатами обнаружения данных

После выполнения действия обнаружения знаний можно изменять значения следующими способами.

  • Добавить значение домена в список значений или выбрать значение и удалить его из списка.

  • Изменить статус значения домена с того, который обозначен процессом обнаружения DQS, на один из следующих: «корректный», «с ошибкой» или «невалидный».

  • Ввод значения для замены ошибочного или недопустимого значения

  • Задать два значения или несколько в качестве синонимов и изменить ведущее значение, назначенное в процессе обнаружения, в результате чего ведущее значение заменяет значение синонима, если при создании домена было установлено свойство Использование ведущего значения

  • Импорт значений домена из файла Excel.

В таблице Значение отображаются знания, добавленные в базу знаний для отдельного домена. Домен выбирается в списке доменов на панели слева. Поле содержит следующие столбцы.

  • Столбец Значение отображает все значения, добавленные процессом обнаружения к выбранному домену из поля в образце данных. Любое значение, рассматриваемое как ошибочное, будет показано в качестве синонима для значения, рассматриваемого как верное.

  • Столбец Частота отображает число вхождений значения в поле примеров базы данных, с которым сопоставлен домен. Для составного домена отображаются только значения с частотой, большей или равной 20. Сведения о частоте доступны благодаря тому, что процесс обнаружения набора знаний все еще сохраняет соединение с образцом базы данных. Сведения о частоте недоступны в таблице доменов на вкладке «Значения домена» экрана «Управление доменами», поскольку у процесса управления доменами нет соединения с образцом базы данных.

  • Столбец Тип отображает состояние значения, определенное процессом обнаружения. Зеленый флажок указывает, что значение верно или исправлено; красный крест — что значение ошибочно, а оранжевый треугольник с восклицательным знаком — что значение недопустимо. Недопустимое значение не соответствует требованиям к данным для домена. Ошибочное значение может быть допустимым, но неправильным по причинам, связанным с данными.

  • В столбце Исправить на показано правильное значение, на которое изменяется исходное значение, отмеченное как ошибочное или недопустимое. По результатам процесса обнаружения служба DQS может предложить правильное значение.

Управление результатами обнаружения производится следующим образом.

  1. На панели Список доменов в левой части экрана выберите домен, для которого следует задать значения домена. Для изменения отображаемых значений вы можете выполнить следующие действия.

    • Отображение требуемых результатов в таблице на основе их состояния, выбранного в списке Фильтр .

    • Найдите данные, которые вы хотите проверить или изменить, вводя дополнительные буквы для поиска в поле ввода "Найти". В результате эти буквы будут выделяться всегда, когда они встречаются в любом отображаемом значении.

    • Выберите Показывать только новые , чтобы отображать в таблице только значения, обнаруженные только в текущем сеансе.

    • Нажмите кнопку Развернуть все, чтобы отображать все значения в любой группе синонимов, когда текущее состояние свернуто, или кнопку Свернуть все, чтобы скрыть все, кроме ведущего значения, в любой группе синонимов, когда текущее состояние развернуто.

    • Нажмите кнопку Показать или скрыть панель журнала изменений значений домена , чтобы отобразить всплывающее окно предварительного вида в нижней части таблицы значений, которое показывает недавние изменения в наборе значений домена.

  2. Чтобы найти исправления, предлагаемые службами Data Quality Services, установите в поле Фильтр значение Ошибка. Убедитесь, что значение действительно ошибочно, а значение в столбце Исправить на подходящее.

  3. Выберите в поле Фильтр значение Все значения и убедитесь, что состояния значений допустимы. Чтобы изменить состояние значения, выберите значение и нажмите кнопку Задать выбранные значения домена как исправленные (с изображением галочки), Задать выбранные значения домена как ошибки (с крестиком) или Задать выбранные значения домена как недопустимые (с треугольником).

  4. Чтобы изменить состояние значения, необходимо выполните следующие действия:

    1. Обозначить выбранные значения домена как исправленные. Чтобы изменить состояние значения с ошибочного или недопустимого на исправленное, выберите значение и щелкните пункт Обозначить выбранные значения домена как исправленные (галочка) в меню направленной вниз стрелки на панели значков или в раскрывающемся списке "Тип". Если ошибочное или недопустимое значение сгруппировано с правильным значением, удалите это значение после операции.

    2. Обозначить выбранные значения домена как ошибки. Чтобы изменить состояние значения с верного или недопустимого на ошибочное, выберите значение и щелкните пункт Обозначить выбранные значения домена как ошибки (крестик) в меню направленной вниз стрелки на панели значков или в раскрывающемся списке "Тип". Вы можете ввести исправление в столбце Исправить на или оставить его пустым.

    3. Обозначить выбранные значения домена как недопустимые. Чтобы изменить состояние значения с верного или ошибочного на недопустимое, выберите значение и щелкните пункт Обозначить выбранные значения домена как недопустимые (треугольник) в меню направленной вниз стрелки на панели значков или в раскрывающемся списке "Тип". Вы можете ввести исправление в столбце Исправить на или оставить его пустым.

    4. Исправить на. После задания значения как ошибочного или недопустимого введите новое значение в столбец Исправить на . DQS добавит новую строку для замещающего значения, назначит его правильным и затем сгруппирует оба значения. Новое значение будет показано как ведущее значение, ведущее значение выделено полужирным шрифтом, а ошибочное или недопустимое значение показано с отступами.

  5. Чтобы определить значения как группы синонимов, выберите несколько значений, которые являются правильными, а затем выполните следующие действия.

    • Установить выбранные значения домена в качестве синонимов. Щелкните для установки выбранных значений в качестве синонимов. DQS выберет одно из значений в качестве ведущего, которым будут заменяться другие значения.

      Примечание.

      Если вы выберете два или более значений в группе и еще одно значение вне группы, а затем назначите их синонимами, вы получите неверное сообщение об ошибке. После закрытия всплывающего сообщения об ошибке значения будут правильно назначены синонимами.

    • Разорвать отношение между выбранными синонимами: щелкните для отмены назначения синонима.

    • Установить выбранное значение домена в качестве ведущего значения своей группы. Чтобы изменить ведущее значение группы, выберите в группе значение, не назначенное ведущим, и нажмите кнопку Установить выбранное значение домена в качестве ведущего значения своей группы .

  6. Программа проверки орфографии. Если средство проверки орфографии включено на странице «Свойства домена», то обратите внимание на все значения с волнистым подчеркиванием красным цветом: это означает, что средство проверки орфографии предлагает исправить значение. Щелкните правой кнопкой мыши подчеркнутое значение и выберите одно из исправлений, если оно применимо. Тип значения становится ошибочным (или остается таковым), а исправление добавляется в столбец Исправить на . Щелкните стрелку «вниз» для просмотра дополнительных предложенных исправлений. Введите исправление вручную, чтобы добавить его в словарь средства проверки орфографии и иметь возможность выбирать это исправление. Дополнительные сведения см. в разделах Use the DQS Speller и Set Domain Properties.

    Примечание.

    Для использования средства проверки орфографии вы можете либо включить его на странице Свойства домена , либо, если оно отключено на странице Свойства домена , щелкнуть значок Включить/отключить средство проверки орфографии на странице Управление результатами обнаружения набора знаний , чтобы включить его на этой странице.

  7. Добавить новое значение домена. Добавьте новое значение в домен, нажав кнопку Добавить новое значение домена для добавления строки в конец таблицы. После ввода значения строка будет перемещена с учетом алфавитного порядка.

  8. Импорт значений домена из Excel. Чтобы добавить новые значения из электронной таблицы Excel, щелкните стрелку «вниз» для значка Импортировать значения и выберите Импорт значений домена из Excel. Введите имя файла, выберите Использовать первую строку в качестве заголовка , если это возможно, и нажмите кнопку ОК. Дополнительные сведения см. в статье Импорт значений из файла Excel в домен.

  9. Импорт значений проекта: Чтобы добавить новые значения из Проекта по обеспечению качества данных, нажмите на стрелку вниз для значка Импортировать значения и выберите Импорт значений проекта. Введите имя файла, выберите Использовать первую строку в качестве заголовка , если это возможно, и нажмите кнопку ОК. Выберите проект, из которого нужно импортировать значения, и нажмите кнопку ОК. Будут отображены импортированные значения. Нажмите кнопку Готово. Дополнительные сведения см. в разделе «Импорт значений проекта в домен».

  10. Удалить выбранные значения домена. Удалите одно или несколько существующих значений из домена, выбрав значения и нажав кнопку Удалить выбранные значения домена . Удалить элемент DQS_NULL нельзя, поэтому, если удаляется несколько значений, одно из которых — элемент DQS_NULL, операция завершится ошибкой.

  11. Нажмите Готово, чтобы завершить деятельность по обнаружению знаний. Если просмотрены не все домены, отобразится всплывающее сообщение. Нажмите кнопку Да для дальнейшего просмотра или Нет , чтобы продолжить работу. При нажатии кнопки «Нет» отобразится другое всплывающее сообщение, позволяющее выбрать один из следующих вариантов.

    1. Опубликовать. База знаний будет опубликована и доступна для использования текущим пользователем или другими пользователями. База знаний не будет заблокирована, ее состояние (в таблице баз знаний) будет пустым. Будут доступны как операция управления доменами, так и операция обнаружения набора знаний. Вы будете возвращены на домашнюю страницу. Для завершения процесса нажмите во всплывающем сообщении кнопку Да .

    2. Нет. Работа сохраняется, база знаний остается заблокированной, а ее состояние отображается как «В работе». Будут доступны как операция управления доменами, так и операция обнаружения знаний. Вы будете возвращены на домашнюю страницу.

    3. Отмена. Всплывающее окно закрывается, и экран возвращается на страницу Управление значениями домена .

  12. Также вы можете нажать одну из следующих кнопок:

    • Отмена — чтобы завершить действие по обнаружению знаний, что приведет к потере вашей работы, и вернуться на домашнюю страницу DQS.

    • Закрыть — чтобы вернуться на домашнюю страницу DQS с сохранением результатов работы. База знаний будет заблокирована для вас, а в таблице баз знаний на экране Открытая база знаний выведется состояние Обнаружение — Управление значениями.

    • Нажмите кнопку Назад , чтобы вернуться на страницу Обнаружение . После нажатия кнопки Закрытьдля выполнения действий управления доменами потребуется нажать кнопку Обнаружение знаний на экране Открыть базу знаний , перейти на экран Управление базами знаний: управление терминами доменов , нажать кнопку Готово, а затем кнопку Да , чтобы опубликовать базу знаний, или Нет , чтобы сохранить работу в базе знаний и выйти.

Контрольные действия: После выполнения обнаружения знаний

После того как вы добавили знания в базу знаний в процессе компьютерного автоматизированного обнаружения знаний, вы можете либо немедленно использовать базу знаний для проекта очистки, либо произвести управление доменами до начала очистки. Дополнительные сведения об очистке данных и управлении доменами см. в разделах Очистка данных и Управление доменом.

Смысл правильного, ошибочного и недопустимого значений

Каждому значению в таблице Значение на странице Значения домена назначается параметр ТипПравильно, Ошибкаили Недопустимо. Тип значения первоначально назначается операцией обнаружения знаний, и его вы можете изменить по своему усмотрению. Последний тип, основанный на обнаружении и интерактивных изменениях, формируется операцией очистки. Эти значения имеют следующий смысл.

  • Правильно. Это значение принадлежит к домену и не имеет каких-либо синтаксических ошибок. Например, значение "Чикаго" в домене "Город" — правильное.

  • Ошибка. Это значение принадлежит домену, но является неверным. Например, "Шикаго" вместо "Чикаго" в домене "Город" — ошибка. Службы DQS обозначают значение как ошибочное, обнаружив синтаксическую ошибку и предложив связанное исправление в процессе обнаружения. Орфографические ошибки относятся к числу синтаксических ошибок.

  • Недопустимый. Это значение не принадлежит к домену и не имеет исправления. Например, значение "12345" в домене "Город" является недопустимым. Службы DQS определяют значение как недопустимое, если оно не соответствует правилу домена.

Тип значения вы можете изменить вручную на любое из двух других значений. DQS не применяет проверку правильности и семантики ошибок при ручных операциях. Исправление для недопустимого значения вы можете ввести без изменения его статуса. Вы можете объявить значение недопустимым, даже если оно не нарушает правила домена. Вы можете обозначить значение как ошибочное, даже если процесс обнаружения не указывает на наличие синтаксической ошибки. Вы можете также удалить исправление ошибочного значения, которое отмечено как правильное, без изменения его статуса.

При интерактивной очистке данных на странице Управление результатами и их просмотр операции Очистка как недопустимые, так и ошибочные значения представлены на вкладке Недопустимые на странице Управление результатами и их просмотр .

Как отобразить соответствующие значения

Вы можете изменять отображаемые сведения следующим образом.

  • Фильтровать результаты, которые нужно внести в таблицу, по их состоянию, выбирая состояние в раскрывающемся списке Фильтр .

  • Найти данные, которые нужно проверить или изменить, добавляя по одной букве для поиска в текстовое поле Найти . В результате эти буквы будут выделяться всегда, когда они встречаются в любом отображаемом значении.

  • Выберите Показывать только новые , чтобы отображать в таблице только значения, обнаруженные только в текущем сеансе.

  • Нажмите кнопку Развернуть все, чтобы отобразить все значения в любой группе синонимов, когда текущее состояние свернуто.

  • Нажмите кнопку Свернуть все, чтобы скрыть все значения, кроме ведущего, в любой группе синонимов, когда текущее состояние развернуто.

  • Нажмите кнопку Показать или скрыть панель журнала изменений значений домена , чтобы отобразить всплывающее окно предварительного вида в нижней части таблицы значений, которое показывает недавние изменения в наборе значений домена.

Статистика профилировщика

На вкладке «Профилировщик» представлены статистические данные, отражающие качество исходных данных. Эти статистические данные не измеряют качество базы знаний. Профилирование при обнаружении знаний дает сведения об их полноте и уникальности. Профилирование при обнаружении знаний не измеряет точность. Профилирование для управления знаниями помогает оценить ценность источника данных для построения и улучшения базы знаний.

На вкладке «Профилировщик» предоставлены следующие статистические данные для процесса обнаружения, упорядоченные по полям и доменам:

  • Записи. Число обнаруженных в образце данных записей.

  • Всего значений. Сколько всего значений найдено для каждого из полей и в целом.

  • Новые значения. Общее количество новых значений для каждого из полей и всех сопоставленных полей с момента последнего процесса обнаружения, а также их процентная доля в общем количестве значений.

  • Уникальные значения. Общее количество уникальных значений для каждого из полей и всех сопоставленных полей, а также их процентная доля в общем количестве значений.

  • Новые уникальные значения. Общее количество уникальных значений для каждого из полей и всех сопоставленных полей с момента последнего процесса обнаружения, а также их процентная доля в общем количестве значений.

  • Действительные значения в домене. Общее количество допустимых значений для каждого из полей и всех сопоставленных полей, а также их процентная доля в общем количестве значений.

Статистика поля включает следующие элементы:

  • Поле. Имя поля в базе данных-источнике.

  • Домен. Имя домена, который сопоставляется с полем.

  • Новые. Количество новых значений и процент новых значений по сравнению с существующими значениями в поле.

  • Уникальные: количество уникальных записей в поле и их процент от общего числа

  • Действительные в домене. Количество допустимых значений домена и их процент от общего количества.

  • Полнота: Полнота каждого поля-источника, которое сопоставляется в процессе сопоставления.

Профилирование при обнаружении знаний дает сведения о полноте данных. Если профилирование показывает, что поле является относительно неполным, вы можете захотеть удалить его из базы знаний проекта по обеспечению качества данных. Профилирование может не предоставлять надежных статистических данных по полноте для составных доменов. Если требуются статистические данные по полноте, используйте одиночные домены вместо составных. Если необходимо использовать составные домены, то, возможно, потребуется создать одну базу знаний с одиночными доменами для профилирования в целях определения полноты и другой домен с составным доменом для процесса очистки. Например, профилирование может показать полноту 95% для записей адреса в составном домене, но для одного из столбцов (например, столбца почтового индекса) уровень неполноты может оказаться гораздо больше. В этом примере может потребоваться измерить полноту столбца почтового индекса с помощью одиночного домена. Профилирование, вероятно, предоставит надежные статистические данные о точности для составных доменов, поскольку позволяет измерять точность для нескольких столбцов вместе. Значение этих данных находится в составном агрегате, поэтому может потребоваться измерить точность с помощью составного домена.

Статистика отображается на вкладке «Профилировщик» на следующих этапах:

  • На этапе Предварительная обработка записей DQS загружает данные и индексирует их. Обработка производится по одной записи или по одному пакету, поэтому ход выполнения может отображаться по количеству записей. Во время выполнения этого шага может формироваться большинство данных профилирования, за исключением значений Допустимых в домене .

  • На этапе Выполнение правил домена столбец Допустимых в домене заполняется, так как все правила домена выполняются как атомарные единицы для каждого из значений домена.

  • На этапе запуска обнаружения новые данные не обновляются на вкладке Профилировщика. Любые синтаксические ошибки, которые возникают, можно увидеть на следующем шаге мастера, этап управления значениями домена.

При действии обнаружения знаний уведомления возникают в следующих условиях:

  • В поле отсутствуют новые значения; рекомендуется исключить его из сопоставления.

  • В поле мало новых значений; возможно, его следует исключить из сопоставления.

  • Поле пусто; рекомендуется исключить его из сопоставления.

  • Показатель полноты поля очень низкий. Может потребоваться исключение этого поля из сопоставления.

  • Все значения в поле являются недопустимыми. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.

  • В этом поле низкий уровень допустимых значений. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.

Дополнительные сведения о профилировании см. в разделе Профилирование данных и уведомления в DQS.