Понятие

Gaussian mixtures

Gaussian Mixture Model — модельный метод кластеризации, в котором данные рассматриваются как смесь нескольких нормальных распределений. **Вероятностная модель:** Плотность данных задается формулой: $p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x \mid \mu_k, \Sigma_k)$, где $\pi_k$ — вес k-й компоненты, $\mu_k$ — математическое ожидание, $\Sigma_k$ — ковариационная матрица. **EM-алгоритм:** Параметры смеси обычно оцениваются методом максимизации правдоподобия через EM-процедуру: 1. **E-step** — вычисляются вероятности принадлежности объекта компонентам; 2. **M-step** — обновляются параметры распределений. **Особенность кластеризации:** В отличие от K-Means, метод дает мягкую кластеризацию: объект может принадлежать нескольким кластерам с разными вероятностями. **Преимущества:** Модель хорошо описывает эллипсоидальные кластеры и позволяет учитывать ковариации признаков. **Ограничения:** Нужно задавать число компонент $K$, а качество зависит от начальной инициализации и предположения о гауссовой форме кластеров.