Понятие
DBSCAN
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — классический плотностной алгоритм, предложенный М. Эстером, Х.-П. Кригелем, Й. Сандером и С. Сюй.
**Основная идея:**
Кластер рассматривается как связная область высокой плотности, отделенная от других кластеров областями низкой плотности.
**Параметры:**
1. $\epsilon$ — радиус окрестности объекта;
2. $MinPts$ — минимальное число объектов в $\epsilon$-окрестности.
**Типы точек:**
1. **core point** — точка, имеющая не меньше $MinPts$ соседей в радиусе $\epsilon$;
2. **border point** — точка, которая не является core point, но достижима из core point;
3. **noise point** — точка, не принадлежащая плотностно связной области.
**Преимущества:**
DBSCAN не требует заранее задавать число кластеров и способен находить кластеры произвольной формы, включая кольца и вытянутые структуры.
**Ограничения:**
Метод чувствителен к выбору $\epsilon$ и хуже работает, если в данных есть кластеры с сильно различающейся плотностью. Для таких случаев используются OPTICS и HDBSCAN.
Использует / Требует
Является (Is A)
Плотностные алгоритмы
Использует
Расстояния до ближайших точек
Рекомендуется после
HDBSCAN
Рекомендуется после
OPTICS
Оценивается метрикой
Скорректированный индекс Рэнда
Оценивается метрикой
Коэффициент силуэта
Имеет параметр
Размер окрестности ($\epsilon$)
Решает прикладную задачу
Поиск аномалий и удаление шума
Поддерживает геометрию
Произвольная (сложная) геометрия
Предполагает размер кластеров
Неравномерные размеры
Имеет масштабируемость
Высокая масштабируемость
Имеет тип логического вывода
Трансдуктивный вывод
Используется в
HDBSCAN
как Расширяет метод
Порог расстояния (Threshold)
как Рекомендуется после
Неравномерные размеры
как Рекомендуется после
Произвольная (сложная) геометрия
как Рекомендуется после
Размер окрестности ($\epsilon$)
как Рекомендуется после
Трансдуктивный вывод
как Рекомендуется после
Мин. объектов (MinPts)
как Рекомендуется после
Поиск аномалий и удаление шума
как Рекомендуется после