Теория
Выбор числа кластеров K
<h2>Почему K задается заранее</h2>
<p>В классическом K-Means число кластеров \(K\) является параметром. Алгоритм не доказывает, сколько групп реально существует в данных; он строит лучшее разбиение при заданном \(K\).</p>
<p>Из-за этого один и тот же набор объектов можно разбить на разное число групп. Иногда два крупных сегмента полезнее пяти мелких, а иногда наоборот: мелкие группы позволяют принимать более точечные решения.</p>
<h2>Идея локтя</h2>
<p>Один из базовых подходов — посчитать инерцию для нескольких значений \(K\). При увеличении \(K\) ошибка обычно падает, потому что центроидов становится больше. Но после некоторого момента выигрыш может резко замедлиться.</p>
<p>Если график ошибки сначала быстро падает, а затем становится пологим, точку перегиба условно называют локтем. Это не строгое доказательство, но полезная гипотеза о числе кластеров.</p>
<h2>Что еще учитывать</h2>
<ul>
<li>интерпретируемость сегментов;</li>
<li>стабильность результата при разных запусках;</li>
<li>размеры кластеров и наличие почти пустых групп;</li>
<li>цель анализа: обзор, сжатие данных, сегментация клиентов или дальнейшая модель.</li>
</ul>
<p>Хороший выбор \(K\) — это компромисс между математическим критерием и смыслом задачи.</p>