Теория
Итоговый выбор метода
<h2>Как выбирать метод</h2>
<p>Кластеризацию лучше выбирать по признакам задачи, а не по популярности алгоритма.</p>
<ul>
<li><strong>Компактные облака и большое число объектов</strong>: K-Means, MiniBatch K-Means, BIRCH.</li>
<li><strong>Шум и кластеры сложной формы</strong>: DBSCAN, OPTICS, HDBSCAN.</li>
<li><strong>Мягкая принадлежность и эллиптические группы</strong>: GMM.</li>
<li><strong>Сложная связность на графе похожести</strong>: Spectral Clustering.</li>
<li><strong>Нужны реальные представители кластеров</strong>: Affinity Propagation или методы с медоидами.</li>
<li><strong>Нужна дендрограмма и вложенная структура</strong>: иерархическая кластеризация.</li>
</ul>
<h2>Финальная проверка</h2>
<p>Перед тем как считать результат готовым, полезно ответить на четыре вопроса: соответствует ли метод форме данных, устойчив ли результат к параметрам, подтверждают ли метрики качество и можно ли объяснить найденные группы на языке предметной области.</p>