Понятие
HDBSCAN
HDBSCAN — иерархическое расширение DBSCAN, предназначенное для данных с кластерами переменной плотности.
**Основная идея:**
Обычный DBSCAN использует один глобальный радиус $\epsilon$. HDBSCAN рассматривает разные уровни плотности и строит иерархию кластеров, после чего выбирает наиболее устойчивые группы.
**Ключевые понятия:**
1. **core distance** — расстояние от точки до ее $MinPts$-го соседа;
2. **mutual reachability distance** — преобразованное расстояние, учитывающее локальную плотность;
3. **cluster stability** — устойчивость кластера при изменении уровня плотности.
**Преимущества:**
Метод не требует задавать $\epsilon$, лучше работает с кластерами разной плотности и автоматически выделяет шум.
**Ограничения:**
Результат сложнее объяснять начинающему пользователю, чем результат DBSCAN. Кроме того, интерпретация зависит от параметра минимального размера кластера и выбранного способа извлечения устойчивых групп из иерархии.
Использует / Требует
Является (Is A)
Плотностные алгоритмы
Использует
Расстояния до ближайших точек
Расширяет метод
DBSCAN
Оценивается метрикой
Скорректированный индекс Рэнда
Оценивается метрикой
Коэффициент силуэта
Имеет параметр
Мин. объектов (MinPts)
Решает прикладную задачу
Поиск аномалий и удаление шума
Поддерживает геометрию
Произвольная (сложная) геометрия
Предполагает размер кластеров
Неравномерные размеры
Имеет масштабируемость
Высокая масштабируемость
Имеет тип логического вывода
Трансдуктивный вывод