Теория

DBSCAN: окрестность, ядро, граница и шум

Algo_DBSCAN
<h2>Что задает DBSCAN</h2> <p>DBSCAN строит кластеры на основе плотностной связности. У алгоритма есть два главных параметра: радиус окрестности \(\varepsilon\) и минимальное число точек \(MinPts\), которое должно оказаться в этой окрестности. В учебной литературе второй параметр также часто обозначают буквой \(m\).</p> <p>Для объекта \(x\) его \(\varepsilon\)-окрестность задается так:</p> <p>$$U_\varepsilon(x)=\{u \in X: \rho(x,u) \le \varepsilon\}.$$</p> <p>Здесь \(\rho(x,u)\) — расстояние между объектами. Обычно в учебных двумерных примерах используют евклидово расстояние.</p> <h2>Типы точек</h2> <ul> <li><strong>Ядровая точка</strong>: в ее \(\varepsilon\)-окрестности не меньше \(MinPts\) объектов.</li> <li><strong>Граничная точка</strong>: сама не является ядровой, но попадает в окрестность некоторой ядровой точки.</li> <li><strong>Шумовая точка</strong>: не является ни ядровой, ни граничной.</li> </ul> <h2>Как растет кластер</h2> <p>Алгоритм берет ядровую точку и расширяет кластер через ее соседей. Если среди соседей есть другие ядровые точки, их окрестности тоже присоединяются. Так кластер может расти цепочкой и принимать произвольную форму.</p> <h2>Что получается на выходе</h2> <p>Результат DBSCAN — это разбиение части выборки на кластеры и отдельная пометка шумовых объектов. Поэтому метод удобен не только для группировки, но и для поиска выбросов.</p> <h2>Почему этот метод важен</h2> <p>Главное отличие DBSCAN от центроидных методов в том, что кластеру не нужен один центр. Группа может иметь произвольную форму, если ее можно пройти по цепочке плотных соседств. Поэтому DBSCAN естественно продолжает тему сложной геометрии из первого модуля.</p>