Теория

Форма, размер и масштаб кластеров

FlatGeometry
<h2>Какие формы любит K-Means</h2> <p>K-Means особенно хорошо работает, когда кластеры похожи на компактные облака вокруг центроидов. В таком случае границы между кластерами возникают естественно: каждая точка попадает к ближайшему центру.</p> <p>Если естественные группы имеют форму колец, лент или дуг, центроидный подход может разрезать их поперек. Это не ошибка реализации, а ограничение модели разбиения.</p> <h2>Размеры кластеров</h2> <p>Если один кластер намного больше или плотнее другого, K-Means может смещать границы так, чтобы уменьшить сумму квадратов, а не сохранить содержательно ожидаемые группы. Поэтому равномерность размеров кластеров не является обязательной целью, но сильная неравномерность требует диагностики.</p> <h2>Масштаб признаков</h2> <p>Евклидово расстояние чувствительно к масштабу. Если один признак измеряется в тысячах, а другой в единицах, большой признак может доминировать в расстоянии и фактически управлять разбиением.</p> <p>Перед K-Means обычно проверяют масштабирование признаков и смысл того, какие различия должны считаться важными.</p>