Введение
Кластеризация — это процесс группирования объектов с похожими объектами. Например, на приведенном ниже рисунке показаны двумерные координаты, которые были объединены в три категории — сверху слева (желтые), снизу (красные) и справа сверху (синие).
Кластеризация, в отличие от метода, называемого классификацией, считается неконтролируемым методом группирования, в котором обучение выполняется без меток. Модели кластеризации выявляют примеры с аналогичной коллекцией признаков. На рисунке выше примеры, которые находятся в аналогичном расположении, группируются вместе.
Кластеризация — это распространенный метод, который полезен для изучения новых данных, в которых закономерности между точками данных, например категориями высокого уровня, еще не известны. Она используется во многих сферах, в которых нужно автоматически помечать сложные данные, включая анализ социальных сетей, нейронные связи и фильтрацию нежелательной почты.
Создано в партнерстве с Эриком Ванджау (Eric Wanjau) — участником программы Microsoft Learn Student Ambassador, исследователем и специалистом по обработке и анализу данных из Института для аналитиков данных в Лидсском университете.