Понятие
Gaussian mixtures
Gaussian Mixture Model — модельный метод кластеризации, в котором данные рассматриваются как смесь нескольких нормальных распределений.
**Вероятностная модель:**
Плотность данных задается формулой:
$p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x \mid \mu_k, \Sigma_k)$,
где $\pi_k$ — вес k-й компоненты, $\mu_k$ — математическое ожидание, $\Sigma_k$ — ковариационная матрица.
**EM-алгоритм:**
Параметры смеси обычно оцениваются методом максимизации правдоподобия через EM-процедуру:
1. **E-step** — вычисляются вероятности принадлежности объекта компонентам;
2. **M-step** — обновляются параметры распределений.
**Особенность кластеризации:**
В отличие от K-Means, метод дает мягкую кластеризацию: объект может принадлежать нескольким кластерам с разными вероятностями.
**Преимущества:**
Модель хорошо описывает эллипсоидальные кластеры и позволяет учитывать ковариации признаков.
**Ограничения:**
Нужно задавать число компонент $K$, а качество зависит от начальной инициализации и предположения о гауссовой форме кластеров.
Использует / Требует
Является (Is A)
Модельные алгоритмы
Поддерживает геометрию
Выпуклая геометрия
Оценивается метрикой
Скорректированный индекс Рэнда
Оценивается метрикой
Индекс Калински-Харабаша
Имеет тип логического вывода
Индуктивный вывод
Оценивается метрикой
Индекс Дэвиса-Болдина
Оценивается метрикой
Коэффициент силуэта
Решает прикладную задачу
Оценка плотности распределения
Имеет масштабируемость
Низкая масштабируемость
Использует
Расстояние Махаланобиса