Теория
Инициализация и ограничения K-Means
<h2>Почему старт важен</h2>
<p>K-Means начинает работу с начальных центроидов. Если они выбраны неудачно, два центра могут попасть в одну реальную группу, а другая группа останется без представителя. Тогда алгоритм все равно сойдется, но итоговое разбиение может быть хуже.</p>
<p>Поэтому в практических реализациях используют несколько запусков или более аккуратную инициализацию, которая старается разнести начальные центры по данным.</p>
<h2>Пустые кластеры</h2>
<p>Иногда после шага назначения у центроида не остается ни одной точки. Такой кластер нельзя пересчитать как среднее. Обычно его переинициализируют: например, переносят центр в далекую точку или в точку с большой ошибкой.</p>
<h2>Когда K-Means подходит</h2>
<p>Метод хорошо работает, когда группы похожи на компактные облака, имеют сопоставимый масштаб и разделяются по евклидову расстоянию. Он особенно удобен как быстрый базовый метод и как первый ориентир для анализа данных.</p>
<h2>Когда стоит насторожиться</h2>
<ul>
<li>кластеры имеют форму колец, спиралей или вытянутых лент;</li>
<li>признаки измерены в сильно разных масштабах;</li>
<li>в данных много выбросов;</li>
<li>число кластеров заранее неизвестно;</li>
<li>кластеры имеют очень разную плотность или размер.</li>
</ul>
<p>В таких случаях результат K-Means нужно проверять особенно внимательно и часто сравнивать с другими алгоритмами.</p>