Теория
Gaussian Mixture Models: мягкая кластеризация
<h2>От жестких меток к вероятностям</h2>
<p>В K-Means каждая точка принадлежит ровно одному кластеру. Gaussian Mixture Model, или GMM, описывает данные как смесь нескольких распределений. Вместо жесткой метки модель оценивает вероятность принадлежности объекта к каждой компоненте.</p>
<p>Если объект лежит между двумя группами, GMM может показать неопределенность: например, \(0.55\) для первой компоненты и \(0.45\) для второй. Это называют мягкой кластеризацией.</p>
<h2>Модель смеси</h2>
<p>Плотность данных записывается как сумма компонент:</p>
<p>$$p(x)=\sum_{k=1}^{K}\pi_k\mathcal{N}(x|\mu_k,\Sigma_k).$$</p>
<p>Здесь \(\pi_k\) — вес компоненты, \(\mu_k\) — средний вектор, \(\Sigma_k\) — ковариационная матрица. В отличие от K-Means, компоненте можно задавать не только центр, но и форму: вытянутость, направление и разброс.</p>
<h2>Когда GMM полезен</h2>
<ul>
<li>кластеры похожи на эллиптические облака;</li>
<li>нужна вероятность принадлежности, а не только метка;</li>
<li>важно видеть неопределенность на границах кластеров;</li>
<li>данные можно разумно описывать смесью распределений.</li>
</ul>