Матрица классификации (Analysis Services — Data Mining)

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Это важно

Интеллектуальный анализ данных устарел в службах SQL Server 2017 Analysis Services и теперь прекращен в службах SQL Server 2022 Analysis Services. Документация не обновляется для устаревших и прекращённых функций. Дополнительные сведения см. в статье о обратной совместимости служб Analysis Services.

Матрица классификации сортирует все случаи из модели в категории, определяя, соответствует ли прогнозируемое значение фактическому значению. Затем учитываются все случаи в каждой категории, а итоговые данные отображаются в матрице. Матрица классификации является стандартным инструментом для оценки статистических моделей и иногда называется матрицей путаницы.

Диаграмма, созданная при выборе параметра "Матрица классификации ", сравнивает фактические значения с прогнозируемыми значениями для каждого указанного состояния. Строки в матрице представляют прогнозируемые значения для модели, а столбцы представляют фактические значения. Категории, используемые в анализе, являются ложными положительными, истинными положительными, ложными отрицательными и истинными отрицательными

Матрица классификации является важным инструментом для оценки результатов прогнозирования, так как это упрощает понимание и учет последствий неправильных прогнозов. Просмотрев количество и проценты в каждой ячейке этой матрицы, можно быстро увидеть, как часто модель прогнозировала точно.

В этом разделе объясняется, как создать матрицу классификации и интерпретировать результаты.

Общие сведения о матрице классификации

Рассмотрим модель, созданную вами в рамках учебного пособия по интеллектуальному анализу данных базового уровня. Модель [TM_DecisionTree] используется для создания целевой кампании рассылки и может использоваться для прогнозирования того, какие клиенты, скорее всего, купить велосипед. Для проверки ожидаемой полезности этой модели используется набор данных, для которого уже известны значения атрибута результата [Bike Buyer]. Как правило, используется тестовый набор данных, который был отложен в сторону при создании структуры интеллектуального анализа данных, используемой для обучения модели.

Существует только два возможных результата: да (клиент, скорее всего, купить велосипед), и нет (клиент, скорее всего, не приобретет велосипед). Поэтому результирующая матрица классификации относительно проста.

Интерпретация результатов

В следующей таблице показана матрица классификации для модели TM_DecisionTree. Помните, что для этого прогнозируемого атрибута 0 означает No и 1 означает "Да".

Спрогнозировано 0 (фактический) 1 (фактический)
0 362 144
1 121 373

Первая ячейка результата, содержащая значение 362, указывает количество истинных положительных значений для значения 0. Поскольку 0 указывает, что клиент не приобрел велосипед, эта статистика говорит вам, что модель предсказала правильное значение для не велосипед-покупателей в 362 случаях.

Ячейка непосредственно под той, которая содержит значение 121, сообщает вам количество ложных срабатываний, или сколько раз модель предсказала, что кто-то купит велосипед, когда на самом деле это не так.

Ячейка, содержащая значение 144, указывает количество ложных срабатываний для значения 1. Так как 1 означает, что клиент купил велосипед, эта статистика показывает, что в 144 случаях модель предсказала, что кто-то не купит велосипед, хотя на самом деле купили.

Наконец, ячейка, содержащая значение 373, указывает количество истинных положительных значений целевого значения 1. Другими словами, в 373 случаях модель правильно предсказала, что кто-то купит велосипед.

Суммируя значения в ячейках, расположенных по диагонали, можно определить общую точность модели. Одна диагонали указывает общее количество точных прогнозов, а другая диагонали указывает общее количество ошибочных прогнозов.

Использование нескольких прогнозируемых значений

Дело "Покупатель велосипедов" особенно легко интерпретировать, так как существует только два возможных значения. Если прогнозируемый атрибут имеет несколько возможных значений, матрица классификации добавляет новый столбец для каждого возможного фактического значения, а затем подсчитывает количество совпадений для каждого прогнозируемого значения. В следующей таблице показаны результаты для другой модели, где возможны три значения (0, 1, 2).

Спрогнозировано 0 (фактический) 1 (фактический) 2 (фактический)
0 111 3 5
1 2 123 17
2 19 0 20

Хотя добавление дополнительных столбцов делает отчет более сложным, дополнительные сведения могут оказаться очень полезными, если вы хотите оценить совокупные затраты на создание неправильного прогноза. Чтобы создать суммы по диагонали или сравнить результаты для различных сочетаний строк, можно нажать кнопку "Копировать ", указанную на вкладке "Матрица классификации " и вставить отчет в Excel. Кроме того, можно использовать клиент, например клиент интеллектуального анализа данных для Excel, который поддерживает SQL Server 2005 (9.x) и более поздних версий, чтобы создать отчет классификации непосредственно в Excel, который включает как количество, так и проценты. Дополнительные сведения см. в разделе "Интеллектуальный анализ данных SQL Server".

Ограничения матрицы классификации

Матрицу классификации можно использовать только с дискретными прогнозируемыми атрибутами.

Хотя можно добавить несколько моделей при выборе моделей на вкладке "Выбор входных данных" конструктора диаграмм точности интеллектуального анализа данных, вкладка "Матрица классификации" будет отображать отдельную матрицу для каждой модели.

В следующих разделах содержатся дополнительные сведения о том, как создавать и использовать матрицы классификации и другие диаграммы.

Темы Links
Объясняет связанные типы диаграмм. Лифт-чарт (службы анализа данных - Data Mining)

График прибыли (Службы аналитики — интеллектуальный анализ данных)

Точечная диаграмма (Analysis Services — дата-майнинг)
Описывает использование перекрестной проверки для моделей интеллектуального анализа данных и структур интеллектуального анализа данных. Кросс-валидация (службы аналитики - добыча данных)
Описывает шаги по созданию диаграмм лифта и других диаграмм точности. Задачи тестирования и проверки и инструкции (интеллектуальный анализ данных)

См. также

Тестирование и проверка (интеллектуальный анализ данных)