Тестирование и валидация (Data Mining)

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Это важно

Интеллектуальный анализ данных был признан устаревшим в службах SQL Server 2017 Analysis Services и теперь прекращён в службах SQL Server 2022 Analysis Services. Документация не обновляется для устаревших и прекращённых функций. Дополнительные сведения см. в статье о обратной совместимости служб Analysis Services.

Проверка — это процесс оценки того, насколько хорошо майнинговые модели работают с реальными данными. Важно валидировать ваши модели майнинга, чтобы понять их качество и характеристики перед развертыванием в рабочей среде.

В этом разделе представлены некоторые основные понятия, связанные с качеством модели, и описываются стратегии проверки модели, предоставляемые в Microsoft SQL Server Analysis Services. Общие сведения о том, как проверка модели вписывается в более крупный процесс интеллектуального анализа данных, см. в разделе "Решения интеллектуального анализа данных".

Методы тестирования и проверки моделей интеллектуального анализа данных

Существует множество подходов для оценки качества и характеристик модели интеллектуального анализа данных.

Используйте различные меры статистической действительности, чтобы определить, существуют ли проблемы в данных или в модели.
Разделите данные на наборы обучения и тестирования, чтобы проверить точность прогнозов.
Попросите бизнес-экспертов проверить результаты модели интеллектуального анализа данных, чтобы определить, имеют ли обнаруженные закономерности смысл в целевом бизнес-сценарии.

Все эти методы полезны в методологии интеллектуального анализа данных и используются итеративно при создании, тестировании и уточнении моделей для решения конкретной проблемы. Ни одно комплексное правило не может сказать вам, когда модель достаточно хороша или когда у вас достаточно данных.

Определение критериев валидации моделей интеллектуального анализа данных

Меры интеллектуального анализа данных обычно делятся на такие категории, как точность, надежность и полезность.

Точность — это мера того, насколько хорошо модель сопоставляет результат с атрибутами в предоставленных данных. Существуют различные меры точности, но все меры точности зависят от используемых данных. В действительности значения могут быть отсутствующими или приблизительными, или данные могут быть изменены несколькими процессами. Особенно в фазе изучения и разработки вы можете принять определенное количество ошибок в данных, особенно если данные довольно однородны в их характеристиках. Например, модель, прогнозирующая продажи для определенного магазина на основе прошлых продаж, может быть сильно коррелирована и очень точной, даже если это магазин последовательно использовал неправильный метод учета. Таким образом, измерения точности должны быть сбалансированы с помощью оценок надежности.

Надежность оценивает способ выполнения модели интеллектуального анализа данных на различных наборах данных. Модель интеллектуального анализа данных надежна, если она создает один и тот же тип прогнозов или находит одинаковые общие типы шаблонов независимо от предоставленных тестовых данных. Например, модель, созданная для магазина, который использовал неправильный метод учета, не будет хорошо обобщаться для других магазинов и поэтому не будет надежной.

Полезность включает различные метрики, которые говорят о том, предоставляет ли модель полезную информацию. Например, модель интеллектуального анализа данных, которая сопоставляет расположение магазина с продажами, может быть как точной, так и надежной, но не может быть полезной, так как вы не можете обобщить этот результат путем добавления дополнительных магазинов в одном расположении. Кроме того, он не отвечает на фундаментальный бизнес-вопрос о том, почему некоторые места имеют больше продаж. Вы также можете установить, что модель, которая кажется успешной, на самом деле не имеет смысла, так как она основана на перекрестных корреляциях в данных.

Средства тестирования и проверки моделей интеллектуального анализа данных

СЛУЖБЫ SQL Server Analysis Services поддерживают несколько подходов к проверке решений интеллектуального анализа данных, поддерживая все этапы методологии тестирования интеллектуального анализа данных.

Разделение данных на наборы для тестирования и обучения.
Фильтрация моделей для обучения и тестирования различных сочетаний одинаковых исходных данных.
Измерение лифта и усиления. Диаграмма лифта — это метод визуализации улучшения, которое вы получаете от использования модели интеллектуального анализа данных при сравнении с случайным предположением.
Выполнение перекрестной проверки наборов данных
Создание матриц классификации. Эти диаграммы сортируют хорошие и плохие угадывание в таблицу, чтобы быстро и легко оценить, насколько точно модель прогнозирует целевое значение.
Создание точечной диаграммы для оценки соответствия формулы регрессии.
Создание диаграмм прибыли, которые связывают финансовые выгоды или затраты с использованием модели добычи данных, чтобы оценить ценность рекомендаций.

Эти метрики не стремятся ответить на вопрос, отвечает ли модель интеллектуального анализа данных на ваш бизнес-вопрос; вместо этого эти метрики предоставляют объективные измерения, которые можно использовать для оценки надежности данных для прогнозной аналитики, а также для принятия решения о том, следует ли использовать конкретную итерацию в процессе разработки.

В разделах этого раздела представлен обзор каждого метода и описан процесс измерения точности моделей, создаваемых с помощью интеллектуального анализа данных SQL Server.

Темы	Links
Узнайте, как настроить тестовый набор данных с помощью мастера или команд DMX.	Обучающие и тестовые наборы данных
Узнайте, как протестировать распределение и репрезентативность данных в структуре данных для интеллектуального анализа.	Кросс-валидация (службы аналитики - добыча данных)
Узнайте о предоставленных типах диаграмм точности.	Лифт-чарт (службы анализа данных - Data Mining) График прибыли (Службы аналитики — интеллектуальный анализ данных) Точечная диаграмма (Analysis Services — дата-майнинг)
Узнайте, как создать матрицу классификации, иногда называемую матрицей путаницы, для оценки количества истинно положительных, ложно положительных, истинно отрицательных и ложно отрицательных результатов.	Матрица классификации (Analysis Services — интеллектуальный анализ данных)

См. также

Средства интеллектуального анализа данных
Решения для интеллектуального анализа данных
Задачи тестирования и проверки и инструкции (интеллектуальный анализ данных)

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-03