Теория
Форма, размер и масштаб кластеров
<h2>Какие формы любит K-Means</h2>
<p>K-Means особенно хорошо работает, когда кластеры похожи на компактные облака вокруг центроидов. В таком случае границы между кластерами возникают естественно: каждая точка попадает к ближайшему центру.</p>
<p>Если естественные группы имеют форму колец, лент или дуг, центроидный подход может разрезать их поперек. Это не ошибка реализации, а ограничение модели разбиения.</p>
<h2>Размеры кластеров</h2>
<p>Если один кластер намного больше или плотнее другого, K-Means может смещать границы так, чтобы уменьшить сумму квадратов, а не сохранить содержательно ожидаемые группы. Поэтому равномерность размеров кластеров не является обязательной целью, но сильная неравномерность требует диагностики.</p>
<h2>Масштаб признаков</h2>
<p>Евклидово расстояние чувствительно к масштабу. Если один признак измеряется в тысячах, а другой в единицах, большой признак может доминировать в расстоянии и фактически управлять разбиением.</p>
<p>Перед K-Means обычно проверяют масштабирование признаков и смысл того, какие различия должны считаться важными.</p>