Что такое кластеризация?

Завершено

Кластеризация — это форма неконтролируемого машинного обучения, когда наблюдения группируются в кластеры на основе сходства значений данных или признаков. Этот тип машинного обучения считается неконтролируемым, так как он не использует ранее известные значения (называемые метками) для обучения модели. В модели кластеризации метка может рассматриваться как кластер, которому назначается наблюдение, исключительно на основе его функций.

Предположим, что ботаник рассматривает образцы цветов и записывает количество лепестков и листьев на каждом цветке.

Иллюстрация: соцветия.

Может быть полезно сгруппировать эти цветы в кластеры на основе сходства их признаков. Это можно сделать различными способами. Например, если большинство цветов имеют одинаковое количество листьев, их можно сгруппировать по большому или малому количеству лепестков. Если и число лепестков, и число листьев значительно варьируются, возможно, можно обнаружить другую закономерность, например что у тех цветов, у которых много листьев, также много лепестков.

Цель алгоритма кластеризации заключается в поиске оптимального способа разделения набора данных на группы. Понятие оптимальный зависит как от используемого алгоритма, так и от предоставленного набора данных.

Хотя в этом примере с цветками человеку может быть просто сгруппировать выборку небольшого объема, в более сложных примерах может быть удобно воспользоваться алгоритмами кластеризации. По мере роста набора данных до тысяч образцов или до более чем двух признаков алгоритмы кластеризации помогают быстро разделить набор данных на группы.