Понятие
K-Means
K-Means — один из наиболее известных алгоритмов разбиения, восходящий к работам Дж. Маккуина и широко используемый в анализе данных.
**Цель алгоритма:**
Найти такое разбиение объектов на $K$ кластеров, чтобы минимизировать сумму квадратов расстояний от объектов до центров своих кластеров:
$J = \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2$.
**Итерационный процесс:**
1. выбираются начальные центроиды;
2. каждый объект относится к ближайшему центроиду;
3. центроиды пересчитываются как средние значения объектов своих кластеров;
4. шаги повторяются до стабилизации разбиения.
**Предпосылки:**
Метод хорошо работает, если кластеры компактны, примерно выпуклы и сравнимы по размеру. Признаки должны быть масштабированы, иначе переменные с большими числовыми диапазонами будут доминировать в евклидовом расстоянии.
**Ограничения:**
Нужно заранее задать $K$. Алгоритм чувствителен к выбросам и начальной инициализации, а также плохо выделяет кластеры сложной невыпуклой формы.
Использует / Требует
Является (Is A)
Алгоритмы разбиения (Partitioning)
Использует
Расстояние между точками (Евклидово)
Частный случай
Gaussian mixtures
Рекомендуется после
MiniBatch K-Means
Рекомендуется после
Bisecting K-Means
Рекомендуется после
Коэффициент силуэта
Оценивается метрикой
Скорректированный индекс Рэнда
Оценивается метрикой
Индекс Калински-Харабаша
Оценивается метрикой
Индекс Дэвиса-Болдина
Оценивается метрикой
Коэффициент силуэта
Имеет параметр
Число кластеров (k)
Решает прикладную задачу
Универсальное применение (Базовый анализ)
Поддерживает геометрию
Выпуклая геометрия
Предполагает размер кластеров
Равномерные размеры
Имеет масштабируемость
Высокая масштабируемость
Имеет тип логического вывода
Индуктивный вывод
Используется в
Выпуклая геометрия
как Рекомендуется после
MiniBatch K-Means
как Расширяет метод
Bisecting K-Means
как Расширяет метод
Универсальное применение (Базовый анализ)
как Рекомендуется после
Число кластеров (k)
как Рекомендуется после
Равномерные размеры
как Рекомендуется после
Индуктивный вывод
как Рекомендуется после
Расстояние между точками (Евклидово)
как Рекомендуется после