Понятие

K-Means

K-Means — один из наиболее известных алгоритмов разбиения, восходящий к работам Дж. Маккуина и широко используемый в анализе данных. **Цель алгоритма:** Найти такое разбиение объектов на $K$ кластеров, чтобы минимизировать сумму квадратов расстояний от объектов до центров своих кластеров: $J = \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2$. **Итерационный процесс:** 1. выбираются начальные центроиды; 2. каждый объект относится к ближайшему центроиду; 3. центроиды пересчитываются как средние значения объектов своих кластеров; 4. шаги повторяются до стабилизации разбиения. **Предпосылки:** Метод хорошо работает, если кластеры компактны, примерно выпуклы и сравнимы по размеру. Признаки должны быть масштабированы, иначе переменные с большими числовыми диапазонами будут доминировать в евклидовом расстоянии. **Ограничения:** Нужно заранее задать $K$. Алгоритм чувствителен к выбросам и начальной инициализации, а также плохо выделяет кластеры сложной невыпуклой формы.

Использует / Требует

Является (Is A) Алгоритмы разбиения (Partitioning) Использует Расстояние между точками (Евклидово) Частный случай Gaussian mixtures Рекомендуется после MiniBatch K-Means Рекомендуется после Bisecting K-Means Рекомендуется после Коэффициент силуэта Оценивается метрикой Скорректированный индекс Рэнда Оценивается метрикой Индекс Калински-Харабаша Оценивается метрикой Индекс Дэвиса-Болдина Оценивается метрикой Коэффициент силуэта Имеет параметр Число кластеров (k) Решает прикладную задачу Универсальное применение (Базовый анализ) Поддерживает геометрию Выпуклая геометрия Предполагает размер кластеров Равномерные размеры Имеет масштабируемость Высокая масштабируемость Имеет тип логического вывода Индуктивный вывод

Используется в

Выпуклая геометрия как Рекомендуется после MiniBatch K-Means как Расширяет метод Bisecting K-Means как Расширяет метод Универсальное применение (Базовый анализ) как Рекомендуется после Число кластеров (k) как Рекомендуется после Равномерные размеры как Рекомендуется после Индуктивный вывод как Рекомендуется после Расстояние между точками (Евклидово) как Рекомендуется после