Теория

Когда выбирать плотностные методы

UC_OutlierRemoval
<h2>Где плотностные методы сильны</h2> <p>Плотностные и радиусные методы полезны, когда кластеры имеют сложную форму, число групп заранее неизвестно, а выбросы нужно не прятать внутри ближайшего кластера, а явно пометить как шум.</p> <h2>Хорошие признаки для выбора</h2> <ul> <li>на графике видны дуги, кольца, ленты или связанные области;</li> <li>между группами есть разреженные промежутки;</li> <li>в данных есть одиночные точки и выбросы;</li> <li>не хочется заранее задавать число кластеров;</li> <li>важно отделить плотные области от фона.</li> </ul> <h2>Когда нужно быть осторожным</h2> <p>Если кластеры имеют сильно разную плотность, обычный DBSCAN может не подобрать один радиус для всех групп. Если признаков очень много, расстояния между точками становятся менее информативными, и плотность труднее интерпретировать. Если данные плохо масштабированы, окрестности будут искажены так же, как в метрических методах.</p> <h2>Практический маршрут выбора</h2> <ol> <li>Проверить масштаб признаков и выбросы.</li> <li>Посмотреть форму данных или локальные расстояния до соседей.</li> <li>Попробовать DBSCAN как базовый плотностный метод.</li> <li>Если плотности разные, сравнить с OPTICS или HDBSCAN.</li> <li>Интерпретировать не только кластеры, но и шумовые точки.</li> </ol>