Теория
Кластеризация как выбор модели данных
<h2>Почему в кластеризации нет одного правильного ответа</h2>
<p>Кластеризация относится к обучению без учителя: у объектов нет заранее заданных правильных меток. Поэтому алгоритм не «угадывает истину», а строит полезное описание структуры данных. Это описание зависит от признаков, метрики расстояния, масштаба, выбранного алгоритма и цели анализа.</p>
<p>Один и тот же набор клиентов можно группировать по частоте покупок, по среднему чеку, по риску ухода или по реакции на рекламу. Все эти разбиения могут быть разумными, если они отвечают разным практическим вопросам.</p>
<h2>Что значит хорошая постановка</h2>
<p>Перед запуском алгоритма важно определить, какую похожесть мы хотим обнаружить. Если признаки выбраны случайно, даже аккуратный алгоритм даст формальные группы без смысла. Если метрика не соответствует задаче, близкими окажутся объекты, которые на самом деле не похожи с точки зрения предметной области.</p>
<h2>Практический вывод</h2>
<ul>
<li>Кластеризация начинается не с кнопки «запустить», а с выбора объекта, признаков и метрики.</li>
<li>Результат нужно проверять не только численно, но и смыслово.</li>
<li>Разные алгоритмы могут раскрывать разные стороны одной и той же выборки.</li>
<li>Хороший кластер должен быть не только компактным, но и интерпретируемым.</li>
</ul>