Теория

Gaussian Mixture Models: мягкая кластеризация

Algo_GaussianMixtures

<h2>От жестких меток к вероятностям</h2> <p>В K-Means каждая точка принадлежит ровно одному кластеру. Gaussian Mixture Model, или GMM, описывает данные как смесь нескольких распределений. Вместо жесткой метки модель оценивает вероятность принадлежности объекта к каждой компоненте.</p> <p>Если объект лежит между двумя группами, GMM может показать неопределенность: например, $0.55$ для первой компоненты и $0.45$ для второй. Это называют мягкой кластеризацией.</p> <h2>Модель смеси</h2> <p>Плотность данных записывается как сумма компонент:</p> <p>$$p(x)=\sum_{k=1}^{K}\pi_k\mathcal{N}(x|\mu_k,\Sigma_k).$$</p> <p>Здесь $\pi_k$ — вес компоненты, $\mu_k$ — средний вектор, $\Sigma_k$ — ковариационная матрица. В отличие от K-Means, компоненте можно задавать не только центр, но и форму: вытянутость, направление и разброс.</p> <h2>Когда GMM полезен</h2> <ul> <li>кластеры похожи на эллиптические облака;</li> <li>нужна вероятность принадлежности, а не только метка;</li> <li>важно видеть неопределенность на границах кластеров;</li> <li>данные можно разумно описывать смесью распределений.</li> </ul>