Теория
K-Means как сжатие данных
<h2>Центроид как представитель</h2>
<p>После обучения K-Means каждый кластер можно заменить его центроидом. Это дает простую идею сжатия: вместо всех объектов хранить несколько типичных представителей и информацию о том, к какому представителю относится каждый объект.</p>
<p>Такой подход называют векторным квантованием. Он полезен, когда нужно приблизить большое множество точек небольшим набором прототипов.</p>
<h2>Что теряется</h2>
<p>Центроид является средним, поэтому он сглаживает индивидуальные различия объектов. Если внутри кластера есть сложная форма или несколько подгрупп, один центр может описывать их слишком грубо.</p>
<h2>Когда это полезно</h2>
<ul>
<li>быстро получить прототипы групп;</li>
<li>уменьшить объем данных для визуализации;</li>
<li>сжать похожие векторы признаков;</li>
<li>получить базовые сегменты для дальнейшего анализа.</li>
</ul>