Поделиться через


Оценка модели ML.NET с помощью метрик

Общие сведения о метриках, используемых для оценки модели ML.NET.

Требуемые метрики оценки зависят от типа задачи машинного обучения, которую выполняет модель.

Например, для задачи классификации модель оценивается путем измерения того, насколько хорошо прогнозируемая категория соответствует фактической категории. А для кластеризации оценка зависит от того, насколько близкие кластеризованные элементы связаны друг с другом, а также насколько между кластерами существует разделение.

Метрики оценки для двоичной классификации

Метрики Описание Вы ищете
Точность Точность — это доля правильных прогнозов с набором тестовых данных. Это соотношение количества правильных прогнозов к общему количеству входных выборок. Он хорошо работает, если имеется аналогичное количество выборок, принадлежащих каждому классу. Чем ближе к 1.00, тем лучше. Но ровно 1.00 указывает на проблему (обычно: утечка целевых данных, переобучение или тестирование на обучающих данных). Если тестовые данные несбалансированные (где большинство экземпляров относится к одному из классов), набор данных мал или оценки приближаются к 0,00 или 1,00, то точность не отражает эффективность классификатора, и требуется использовать дополнительные метрики.
AUC aucROC или Область под кривой измеряет площадь под кривой, созданной изменением доли истинно положительных результатов по сравнению с долей ложноположительных результатов. Чем ближе к 1.00, тем лучше. Оно должно быть больше 0,50, чтобы модель была приемлемой. Модель со значением AUC 0,50 или ниже бесполезна.
AUCPR aucPR или Область под кривой Precision-Recall: полезная мера успеха прогнозирования, когда классы несбалансированы (сильно смещённые наборы данных). Чем ближе к 1.00, тем лучше. Высокие значения, близкие к 1.00, показывают, что классификатор возвращает точные результаты (высокая точность) и возвращает основную часть всех положительных результатов (высокий отзыв).
Метрика F1 Оценка F1, также известная как сбалансированная F-оценка или F-измерение. Это гармоническое среднее точности и полноты. Оценка F1 полезна, когда вы хотите найти баланс между точностью и полнотой. Чем ближе к 1.00, тем лучше. Оценка F1 достигает своего лучшего значения на 1,00 и худшего значения на 0,00. Он сообщает, насколько точен ваш классификатор.

Дополнительные сведения о метриках двоичной классификации см. в следующих статьях:

Метрики оценки для классификации нескольких классов и классификации текста

Метрики Описание Вы ищете
Микро-точность Микросредняя точность объединяет вклад всех классов в вычисление средней метрики. Это доля случаев, предсказанных правильно. Микросреднее не учитывает принадлежность к классу. В основном каждая пара классов выборки в равной степени способствует метрике точности. Чем ближе к 1.00, тем лучше. В задаче классификации с несколькими классами микро-точность предпочтительнее по сравнению с точностью макросов, если вы подозреваете, что имеется дисбаланс классов (т.е. у вас может быть много примеров одного класса, чем у других классов).
Макро-уровень точности Макро-средняя точность — это средняя точность на уровне класса. Точность для каждого класса вычисляется, а макро-точность — это среднее значение этих точностей. По сути, каждый класс в равной степени вносит вклад в метрику точности. Классы меньшинства получают равный вес, как и более крупные классы. Макро-средняя метрика дает одинаковый вес каждому классу, независимо от количества экземпляров этого класса, содержащихся в наборе данных. Чем ближе к 1.00, тем лучше. Он вычисляет метрику независимо для каждого класса, а затем принимает среднее значение (следовательно, обработка всех классов одинаково).
Логарифмическая потеря Логарифмическая потеря измеряет производительность модели классификации, где входные данные прогнозирования — это значение вероятности от 0,00 до 1,00. Логарифмическая потеря увеличивается с увеличением расхождения прогнозируемой вероятности с фактической меткой. Чем ближе к 0,00, тем лучше. Идеальная модель имела бы логарифмическую потерю 0,00. Цель моделей машинного обучения — свести к минимуму это значение.
сокращениеLog-Loss Снижение логарифмических потерь может быть интерпретировано как преимущество классификатора по сравнению со случайным прогнозированием. Диапазоны от -inf и 1.00, где 1.00 — идеальные прогнозы, а 0,00 — это средние прогнозы. Например, если значение равно 0,20, его можно интерпретировать как "вероятность правильного прогнозирования составляет 20% лучше случайного угадывание".

Микро-точность, как правило, лучше соответствует бизнес-потребностям прогнозов машинного обучения. Если вы хотите выбрать одну метрику для выбора качества задачи многоклассовой классификации, обычно она должна быть микро-точностью.

Например, для задачи классификации запросов в службу поддержки: (сопоставляет входящие запросы с поддерживающими командами)

  • Микро-точность— как часто входящий билет классифицируется в правильную команду?
  • Макрос-точность — для средней команды, как часто входящий билет правильный для своей команды?

Макро-точность дает повышенное значение небольшим командам в этом примере; небольшая команда, которая обрабатывает всего 10 заявок в год, оценивается так же высоко, как и большая команда с 10 тысячами заявок в год. Микро-точность в этом случае лучше коррелирует с бизнес-потребностью в том, "сколько времени/денег может сэкономить компания, автоматив процесс маршрутизации билетов".

Дополнительные сведения о метриках классификации с несколькими классами см. в разделе "Микро-среднее" и "Макрос", "Точность", "Отзыв" и "F-Score".

Метрики оценки для регрессии и рекомендаций

Как регрессия, так и задачи рекомендаций прогнозируют число. В случае регрессии число может быть любым выходным свойством, которое влияет на входные свойства. Для рекомендаций число обычно является значением оценки (от 1 до 5, например), или рекомендацией да/нет (представлено 1 и 0 соответственно).

Единица измерения Описание Вы ищете
R-Squared R-квадрат (R2) или коэффициент определения представляет прогнозную мощность модели в качестве значения между -inf и 1,00. 1.00 означает, что имеется идеальное соответствие, и соответствие может быть произвольно плохим, так что оценки могут быть отрицательными. Оценка 0,00 означает, что модель угадывает ожидаемое значение метки. Отрицательное значение R2 указывает, что соответствие не соответствует тренду данных, и модель работает хуже, чем случайное угадывание. Это возможно только с моделями нелинейной регрессии или ограниченной линейной регрессией. R2 измеряет, как близки фактические значения данных теста к прогнозируемым значениям. Чем ближе к 1.00, тем лучше качество. Однако иногда низкие значения R-квадрата (например, 0,50) могут быть полностью нормальными или достаточно хорошими для вашего сценария, и высокие значения R-квадрата не всегда хороши и подозрительны.
Абсолютная потеря Абсолютная потеря или средняя абсолютная ошибка (MAE) измеряет, насколько близки прогнозы к фактическим результатам. Это среднее значение всех ошибок модели, где ошибка модели является абсолютным расстоянием между прогнозируемым значением метки и правильным значением метки. Эта ошибка прогнозирования вычисляется для каждой записи тестового набора данных. Наконец, среднее значение вычисляется для всех записанных абсолютных ошибок. Чем ближе к 0,00, тем лучше качество. Средняя абсолютная ошибка использует тот же масштаб, что и измеряемые данные (не нормализованы для определенного диапазона). Абсолютная потеря, квадратная потеря и потери RMS можно использовать только для сравнения моделей для одного набора данных или набора данных с аналогичным распределением значений меток.
Квадратная потеря Квадратная потеря или средняя квадратная ошибка (MSE), также называемая среднее квадратное отклонение (MSD), сообщает о том, как близко линия регрессии состоит в наборе тестовых значений данных, принимая расстояния от точек до линии регрессии (эти расстояния являются ошибками E) и сужая их. Скваринг дает больше веса более крупным различиям. Это всегда не отрицательно, и значения ближе к 0,00 лучше. В зависимости от данных может быть невозможно получить очень небольшое значение для среднеквадратической ошибки.
Потеря RMS RMS-loss или Root Mean Squared Error (RMSE) ( также называемый корневым средним квадратным отклонением, RMSD), измеряет разницу между значениями, прогнозируемыми моделью и значениями, наблюдаемыми из моделиируемой среды. Потеря RMS — это квадратный корень квадратной потери и имеет те же величины, что и метка, как и абсолютная потеря, при этом больший вес придается большим отклонениям. Среднеквадратичная ошибка обычно используется в климатологии, прогнозировании и регрессионном анализе для подтверждения экспериментальных результатов. Это всегда не отрицательно, и значения ближе к 0,00 лучше. RMSD — это мера точности для сравнения ошибок прогнозирования различных моделей для определенного набора данных, а не между наборами данных, так как она зависит от масштабирования.

Дополнительные сведения о метриках регрессии см. в следующих статьях:

Метрики оценки для кластеризации

Единица измерения Описание Вы ищете
Среднее расстояние Среднее расстояние между точками данных и центром назначенного кластера. Среднее расстояние — это мера близости точек данных к центроидам кластера. Это мера того, насколько "жестко" связан кластер. Значения ближе к 0 лучше. Чем ближе к нулю среднее расстояние, тем больше кластеризованы данные. Обратите внимание, что эта метрика уменьшится, если число кластеров увеличивается, и в крайнем случае (где каждая отдельная точка данных является собственным кластером), она будет равна нулю.
Davies Bouldin Index Среднее соотношение расстояний внутри кластера к расстояниям между кластерами. Чем плотнее кластер, и чем дальше они друг от друга, тем ниже это значение. Значения ближе к 0 лучше. Кластеры, которые находятся дальше друг от друга и менее разбросаны, приводят к более эффективной оценке.
Нормализованная взаимная информация Можно использовать, когда обучающие данные, используемые для обучения модели кластеризации, также поставляются с истинными метками (т. е. контролируемой кластеризации). Метрика нормализованной взаимной информации измеряет, назначаются ли аналогичные точки данных одному кластеру, а разрозненные точки данных — разным кластерам. Нормализованная взаимная информация — это значение от 0 до 1. Значения ближе к 1 лучше.

Метрики оценки для ранжирования

Единица измерения Описание Вы ищете
Совокупные доходы с скидкой Дисконтированный кумулятивный прирост (DCG) является мерой качества ранжирования. Он является производным от двух предположений. Один из них: более релевантные элементы более полезны при отображении выше в порядке ранжирования. Два. Полезность отслеживает релевантность, т. е. чем выше релевантность, тем больше полезного элемента. Совокупный прирост с скидкой вычисляется для определенной позиции в порядке ранжирования. Он суммирует градуирование релевантности, деленное на логарифм рангового индекса до интересующей позиции. Вычисляется с помощью $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Оценки релевантности предоставляются алгоритму обучения ранжирования в качестве истинных меток. Одно значение DCG предоставляется для каждой позиции в таблице ранжирования, отсюда и название "дисконтированная кумулятивная выгода" Gains. Более высокие значения лучше.
Нормализованные совокупные прибыли с скидкой Нормализация DCG позволяет сравнивать метрики для ранжирования списков разных длин. Значения ближе к 1 лучше.

Метрики оценки для обнаружения аномалий

Единица измерения Описание Вы ищете
Область под кривой ROC Область под кривой оператора приемника измеряет, насколько хорошо модель отделяет аномальные и обычные точки данных. Значения ближе к 1 лучше. Только значения, превышающие 0,5, демонстрируют эффективность модели. Значения 0,5 или ниже указывают, что модель не лучше, чем случайным образом распределить входные данные в аномальные и обычные категории.
Скорость обнаружения с ложным положительным числом Коэффициент обнаружения при количестве ложных срабатываний — это соотношение числа правильно определенных аномалий к общему количеству аномалий в тестовом наборе, при этом учитывается каждое ложное срабатывание. То есть для каждого ложноположительного элемента имеется значение частоты обнаружения при определённом количестве ложных срабатываний. Значения ближе к 1 лучше. Если ложных срабатываний нет, это значение равно 1.

Метрики оценки для сходства предложений

Единица измерения Описание Вы ищете
Корреляция Пирсона Корреляция Пирсона, также известная как коэффициент корреляции, измеряет зависимость или связь между двумя наборами данных. Абсолютные значения ближе к 1 наиболее похожи. Эта метрика варьируется от -1 до 1. Абсолютное значение 1 означает, что наборы данных идентичны. Значение 0 означает, что между двумя наборами данных нет связи.