Улучшение модели ML.NET

Статья
2024-12-21

Узнайте, как улучшить модель ML.NET.

Переформулировка проблемы

Иногда улучшение модели может не иметь ничего общего с данными или методами, используемыми для обучения модели. Возможно, дело просто в том, что задается неправильный вопрос. Рассмотрим проблему с разных углов и используйте данные для извлечения скрытых индикаторов и скрытых связей для уточнения вопроса.

Дополнительные примеры данных

Как и люди, чем больше алгоритмов обучения, тем выше вероятность повышения производительности. Одним из способов повышения производительности модели является предоставление дополнительных примеров данных обучения алгоритмам. Чем больше данных он узнает, тем больше случаев он может правильно определить.

Добавление контекста в данные

Значение одной точки данных может быть сложно интерпретировать. Создание контекста вокруг точек данных помогает алгоритмам, а также экспертам по предметным вопросам лучше принимать решения. Например, тот факт, что дом имеет три спальни, сам по себе не является хорошим показателем его цены. Тем не менее, если добавить контекст и теперь знать, что речь идет о районе в пригороде, находящемся за пределами крупной городской области, где средний возраст составляет 38 лет, средний доход домохозяйства составляет $80,000, и школы находятся в верхних 20 процентах, то у алгоритма будет больше информации для основывания своих решений. Все это контекст можно добавить в модель машинного обучения как входные данные и признаки.

Использование значимых данных и функций

Хотя дополнительные примеры данных и функции могут помочь повысить точность модели, они также могут привести к шуму, так как не все данные и функции имеют смысл. Поэтому важно понимать, какие функции являются теми, которые наиболее сильно влияют на решения, принятые алгоритмом. Использование таких методов, как Важность признаков Пермутации (PFI), может помочь определить эти важные функции и не только помочь объяснить модель, но и использовать выходные данные в качестве метода выбора признаков для уменьшения количества шумных функций, которые входят в процесс обучения.

Дополнительные сведения об использовании PFI см. в как объяснить прогнозы модели с помощью перестановочной важности признаков.

Перекрестная проверка

Перекрестная проверка — это метод обучения и оценки модели, который разбивает данные на несколько секций и обучает несколько алгоритмов на этих секциях. Этот метод повышает надежность модели, удерживая данные из процесса обучения. Помимо повышения производительности при невиденных наблюдениях, в ограниченных данными средах это может быть эффективным инструментом для обучения моделей с меньшим набором данных.

Дополнительные сведения см. в разделе Использование перекрестной проверки в ML.NET.

Настройка гиперпараметра

Обучение моделей машинного обучения — это итеративный и исследовательский процесс. Например, какое оптимальное количество кластеров при обучении модели с помощью алгоритма K-Средних? Ответ зависит от многих факторов, таких как структура данных. Для поиска этого числа потребуется экспериментировать с различными значениями k, а затем оценить производительность, чтобы определить, какое значение лучше всего. Практика настройки параметров, направляющих процесс обучения для поиска оптимальной модели, называется настройкой гиперпараметра.

Выбор другого алгоритма

Задачи машинного обучения, такие как регрессия и классификация, содержат различные реализации алгоритмов. Это может быть так, что проблема, которую вы пытаетесь решить, и способ структурирования данных не соответствует текущему алгоритму. В таком случае рекомендуется использовать другой алгоритм для вашей задачи, чтобы узнать, лучше ли он справляется с обработкой ваших данных.

Следующая ссылка предоставляет дополнительные рекомендации по выбору алгоритма.