Теория
Когда выбирать плотностные методы
<h2>Где плотностные методы сильны</h2>
<p>Плотностные и радиусные методы полезны, когда кластеры имеют сложную форму, число групп заранее неизвестно, а выбросы нужно не прятать внутри ближайшего кластера, а явно пометить как шум.</p>
<h2>Хорошие признаки для выбора</h2>
<ul>
<li>на графике видны дуги, кольца, ленты или связанные области;</li>
<li>между группами есть разреженные промежутки;</li>
<li>в данных есть одиночные точки и выбросы;</li>
<li>не хочется заранее задавать число кластеров;</li>
<li>важно отделить плотные области от фона.</li>
</ul>
<h2>Когда нужно быть осторожным</h2>
<p>Если кластеры имеют сильно разную плотность, обычный DBSCAN может не подобрать один радиус для всех групп. Если признаков очень много, расстояния между точками становятся менее информативными, и плотность труднее интерпретировать. Если данные плохо масштабированы, окрестности будут искажены так же, как в метрических методах.</p>
<h2>Практический маршрут выбора</h2>
<ol>
<li>Проверить масштаб признаков и выбросы.</li>
<li>Посмотреть форму данных или локальные расстояния до соседей.</li>
<li>Попробовать DBSCAN как базовый плотностный метод.</li>
<li>Если плотности разные, сравнить с OPTICS или HDBSCAN.</li>
<li>Интерпретировать не только кластеры, но и шумовые точки.</li>
</ol>