Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
После каждого эпизода обучения в AI Builder используется проверочный набор данных для оценки качества и соответствия новой модели. На странице сводки для модели отображается результат обучения модели. Эти результаты выражены в виде оценки производительности A, B, C или D.
После каждого обучения в AI Builder отображается категория, помогающая оценить точность модели. Решение о том, готова ли ваша модель к публикации, должно быть основано на уникальных потребностях и обстоятельствах. В AI Builder предусмотрены указанные ниже уровни производительности, которые помогут принять это решение.
Категория | Инструкция |
---|---|
а | По-прежнему можно улучшить модель, но это лучший уровень, который можно получить. |
Ж | Модель верна в большинстве случаев. Можно ли ее улучшить? Это зависит от уникальных условий, данных и требований. |
C | Модель работает чуть лучше, чем случайное предположение. Это может быть приемлемо для некоторых приложений, но в большинстве случаев это модель, которую стоит и далее настраивать и улучшать. |
D | Что-то пошло не так. Ваша модель либо работает хуже, чем мы ожидали, что произойдет случайное предположение (недообученная модель). Или он работает настолько хорошо (на 100% или близко), что у вас, вероятно, есть столбец данных, который напрямую коррелирует с результатом (переобученная модель). |
- Больше информации о недообученных моделях
- Больше информации о переобученных моделях
Если вы прогнозируете 2 или больше результатов, фактические показатели точности, соответствующие указанным выше уровням, могут различаться, в зависимости от распределения исторических данных. Различия учитывают тот факт, что улучшение относительно базового показателя изменяется вместе с этим базовым показателем.
Предположим, ваша модель прогнозирует, будет ли доставка выполнена вовремя. Если ваш исторический уровень своевременности доставки составляет 80%, оценка точности 92 будет соответствовать уровню B. Однако если ваш исторический уровень своевременности доставки составляет 50%, то оценка 92 будет соответствовать уровню A. Это обусловлено тем, что 92 % является гораздо более серьезным улучшением по сравнению с 50%, чем с 80%, и можно ожидать, что случайное предположение будет близко к этим показателям.
В этом примере показаны диапазоны точности для каждого уровня, когда исторические данные содержат разные показатели своевременности для двоичного прогнозирования.
Категория | Диапазон точности для исторического показателя в 25% своевременных доставок | Диапазон точности для исторического показателя в 50% своевременных доставок | Диапазон точности для исторического показателя в 80% своевременных доставок | Диапазон точности для исторического показателя в 95% своевременных доставок |
---|---|---|---|---|
а | 92,5 – <99,3% | 90 – 98% | 93 – <99% | 98,1 – <99,8% |
Б | 81,3 – <92,5% | 75 – <90% | 84 – <93% | 95,3 – <98,1% |
О | 66,3 – <81,3% | 55 – <75% | 71 – <84% | 91,5 – <95,3% |
D | <66,3% или ≥99,3% | <55% или ≥98% | <71% или ≥99% | <91,5% или ≥99,8% |
Точность, которая соответствует каждому классу, также может варьироваться, если вы прогнозируете более двух результатов. Допустим, ваша модель прогнозирует более двух вариантов доставки: рано, вовремя или поздно.
Диапазон точности для каждой оценки изменяется, когда изменяются ваши исторические показатели категории "Вовремя".
Категория | Досрочно (33,3%) | Досрочно (20%) | Досрочно (10%) |
---|---|---|---|
Вовремя (33,3%) | Вовремя (40%) | Вовремя (80%) | |
Поздно (33,4%) | Поздно (40%) | Поздно (10%) | |
а | 86,7 – <98,7% | 87,2 – <98,7% | 93,2 – <99,3% |
Б | 66,7 – <86,7% | 68,0 – <87,2% | 83,0 – <93,2% |
О | 40,0 – <66,7% | 42,4 – <68,0% | 69,4 – <83,0% |
D | 33,3 – <40,0% | 36,0 – <42,4% | 66,0 – <69,4% |
Для числового прогноза AI Builder использует статистическую меру R-квадрата для расчета класса точности ваших моделей. В следующей таблице приведены оценки, соответствующие каждому классу:
Категория | R-квадрат |
---|---|
а | 85% – <99% |
Б | 60% – <85% |
О | 10% – <60% |
D | ≥99% или <10% |
Чтобы получить дополнительные сведения об обучении, выберите команду Просмотреть подробные сведения в поле оценки модели. На вкладке Производительность доступны следующие сведения о производительности:
Примечание
Сведения о дополнительных функциях, запланированных для этой области, см. в разделе Планы выпуска.
- Оценка точности
- R-квадрат
AI Builder вычисляет оценку точности для модели на основе результатов прогноза для проверочного набора данных. Перед обучением в AI Builder набор данных разделяется на обучающие данные и проверочные наборы данных. После обучения AI Builder применяет модель ИИ к проверочному набору данных, а затем вычисляет оценку точности. Например: если ваш тестовый набор данных имеет 200 строк и AI Builder правильно предсказывает 192 из них, AI Builder показывает показатель точности 96 процентов.
Дополнительные сведения см. в разделе Оценка модели.
Для числового прогноза AI Builder вычисляет показатель R-квадрата после каждого обучения. Эта оценка измеряет "пригодность" вашей модели и используется для определения оценки производительности вашей модели.
Предположим, вы прогнозируете количество дней, которое займет формирование, отправка и доставка заказа. Модель прогнозирует набор чисел. Значение R-квадрат показывает расстояния между спрогнозированными значениями и фактическими значениями в обучающих данных. Она выражается в виде числа от 0 до 100%, причем чем выше значение, тем ближе спрогнозированное значение к фактическому. Как правило, более высокая оценка означает лучшую эффективность модели. Однако учтите, что идеальная или близкая к идеальной оценка (переобученная модель) обычно указывает на проблему с обучающими данными.
На вкладке Сводка доступны следующие сведения о производительности:
- Дата обучения
- Источник данных
- Исторический результат
- Список таблиц, используемых для прогнозирования.
После обучения и оценки модели следует наладить модель, чтобы повысить ее производительность. Ниже приведены некоторые сведения, которые можно использовать для улучшения прогнозной мощности модели.
- Если имеются какие-либо ошибки после завершения обучения, исправьте их и заново обучите модель.
- Если ошибок нет, проверьте детали обучения. Попробуйте устранить как можно больше проблем, а затем повторно обучить модель.
После каждого эпизода обучения на странице сведений о модели отображается список основных факторов влияния. У каждого столбца, используемого в процессе обучения, есть оценка, отражающая его влияние на обучение. Эти оценки в сумме равны 100 процентам.
Они помогают определить, обучена ли ваша модель так, как ожидалось. Например, если вы хотите предсказать намерения онлайн-покупателей и ожидаете, что "Возраст", "Продукт" является наиболее важным столбцом, вы должны увидеть это в списке наиболее влиятельных столбцов на странице сведений о модели. В противном случае это может означать, что результат обучения отличается от того, что ожидалось. В этом случае можно отменить выбор ненужных или неверных столбцов, а также повторить обучение модели или проверить возможные проблемы, чтобы уточнить детали.
Минимальное требование для объема обучающих данных — 50 строк, но это не значит, что 50 строк данных дадут вам точную модель прогнозирования. Попробуйте предоставить 1000 строк данных или более, правильно размеченных и имеющих реалистичное распределение параметров.
Например, если вы используете две метки параметров Да или Нет и в большинстве строк данных в этом столбце стоит только Да, вашей модели будет сложно обучиться на таких данных. Попробуйте взять данные с распределением, которое примерно отражает то распределение параметров, которое вы ожидаете. Например, если вы ищете столбцы данных для cat_owner и dog_owner, используйте распределение данных примерно в районе 50 процентов. Если вы ищете мошеннические транзакции, используйте более несбалансированное распределение — возможно, 95 %–5 %. Если вы не уверены, что именно необходимо для этого типа информации, ознакомьтесь с отраслевыми стандартами.
Предположим, вы хотите предсказать, какой клиент скорее всего вернется, чтобы купить ваши продукты. Вы можете добавить дополнительные столбцы, чтобы сделать данные для обучения более полными. Например:
- Как клиенты оценивают продукт?
- Сколько они используют продукт?
- Являются ли они клиентами уже какое-то время?
Возможно, у вас уже есть большое количество правильно помеченных данных для обучения с большим количеством столбцов. Почему модель по-прежнему не работает? Возможно, вы выбираете столбцы, ведущие к нежелательному смещению. Убедитесь, что все выбранные столбцы влияют на то, что вы хотите прогнозировать. Отмените выбор ненужных или ошибочных столбцов.
- Убедитесь, что столбцы данных не содержат частых пропусков (больше 99процентов). Заполните недостающие значения данными по умолчанию или исключите столбец данных из процесса обучения модели.
- Если у столбца данных высокая корреляция с результатом прогноза, исключите столбец данных из процесса обучения модели.