Метрика
Индекс Калински-Харабаша
Внутренняя метрика, предложенная Т. Калински и Я. Харабашем. Она основана на отношении межкластерной и внутрикластерной дисперсии.
**Формула:**
$CH = \frac{B_k / (K - 1)}{W_k / (n - K)}$,
где $B_k$ — межкластерная дисперсия, $W_k$ — внутрикластерная дисперсия, $K$ — число кластеров, $n$ — число объектов.
**Логика критерия:**
Чем выше значение индекса, тем более плотными и лучше разделенными считаются найденные кластеры.
**Практическое применение:**
Используется как быстрая альтернатива полному перебору попарных расстояний при подборе числа кластеров. Метрика особенно удобна для центроидных алгоритмов, где естественно вычисляются внутрикластерные и межкластерные суммы квадратов.
Использует / Требует
Используется в
Разделимость кластеров
как Рекомендуется после
MiniBatch K-Means
как Оценивается метрикой
Bisecting K-Means
как Оценивается метрикой
Число кластеров (k)
как Рекомендуется после
Ward hierarchical clustering
как Оценивается метрикой
BIRCH
как Оценивается метрикой
Gaussian mixtures
как Оценивается метрикой
K-Means
как Оценивается метрикой