Теория

Gaussian Mixture Models: мягкая кластеризация

Algo_GaussianMixtures
<h2>От жестких меток к вероятностям</h2> <p>В K-Means каждая точка принадлежит ровно одному кластеру. Gaussian Mixture Model, или GMM, описывает данные как смесь нескольких распределений. Вместо жесткой метки модель оценивает вероятность принадлежности объекта к каждой компоненте.</p> <p>Если объект лежит между двумя группами, GMM может показать неопределенность: например, \(0.55\) для первой компоненты и \(0.45\) для второй. Это называют мягкой кластеризацией.</p> <h2>Модель смеси</h2> <p>Плотность данных записывается как сумма компонент:</p> <p>$$p(x)=\sum_{k=1}^{K}\pi_k\mathcal{N}(x|\mu_k,\Sigma_k).$$</p> <p>Здесь \(\pi_k\) — вес компоненты, \(\mu_k\) — средний вектор, \(\Sigma_k\) — ковариационная матрица. В отличие от K-Means, компоненте можно задавать не только центр, но и форму: вытянутость, направление и разброс.</p> <h2>Когда GMM полезен</h2> <ul> <li>кластеры похожи на эллиптические облака;</li> <li>нужна вероятность принадлежности, а не только метка;</li> <li>важно видеть неопределенность на границах кластеров;</li> <li>данные можно разумно описывать смесью распределений.</li> </ul>