Теория

Целевая функция K-Means и инерция

QualityCriterion

<h2>Что именно минимизирует K-Means</h2> <p>K-Means строит разбиение с центроидами и оценивает его через сумму квадратов расстояний от объектов до центроидов своих кластеров. Эту величину часто называют внутрикластерной суммой квадратов, SSE или инерцией (inertia).</p> <p>Если $a_i$ — номер кластера объекта $x_i$, а $\mu_{a_i}$ — центроид этого кластера, то критерий имеет вид:</p> <p>$$Q = \sum_{i=1}^{\ell} \|x_i - \mu_{a_i}\|^2.$$</p> <p>Чем меньше $Q$, тем компактнее получившиеся кластеры относительно своих центроидов. Это не универсальная мера качества всей кластеризации, но именно ее оптимизирует K-Means.</p> <h2>Почему используется квадрат расстояния</h2> <p>Квадрат расстояния сильнее штрафует далекие точки. Поэтому выбросы и плохо назначенные объекты могут заметно повлиять на положение центроида и значение критерия.</p> <h2>Критерий не равен смыслу</h2> <p>Низкая инерция означает, что точки близки к центроидам, но не гарантирует, что найденные группы полезны для предметной задачи. Разбиение нужно проверять визуально, через интерпретацию признаков и дополнительные метрики качества.</p> <h2>Как используется инерция</h2> <ul> <li>сравнить несколько запусков K-Means с разными начальными центрами;</li> <li>проверить, насколько заметно улучшается решение при увеличении $K$;</li> <li>найти подозрительные случаи, где ошибка велика из-за формы данных, выбросов или масштаба признаков.</li> </ul>