Теория

K-Means как сжатие данных

UC_DataReduction
<h2>Центроид как представитель</h2> <p>После обучения K-Means каждый кластер можно заменить его центроидом. Это дает простую идею сжатия: вместо всех объектов хранить несколько типичных представителей и информацию о том, к какому представителю относится каждый объект.</p> <p>Такой подход называют векторным квантованием. Он полезен, когда нужно приблизить большое множество точек небольшим набором прототипов.</p> <h2>Что теряется</h2> <p>Центроид является средним, поэтому он сглаживает индивидуальные различия объектов. Если внутри кластера есть сложная форма или несколько подгрупп, один центр может описывать их слишком грубо.</p> <h2>Когда это полезно</h2> <ul> <li>быстро получить прототипы групп;</li> <li>уменьшить объем данных для визуализации;</li> <li>сжать похожие векторы признаков;</li> <li>получить базовые сегменты для дальнейшего анализа.</li> </ul>