Теория

OPTICS: порядок точек и достижимость

Algo_OPTICS
<h2>Проблема одного радиуса</h2> <p>DBSCAN хорошо работает, когда все значимые кластеры имеют примерно сопоставимую плотность. Но в реальных данных одна группа может быть очень плотной, а другая — более разреженной. Один общий \(\varepsilon\) тогда либо склеивает плотные области, либо превращает разреженные группы в шум.</p> <h2>Идея OPTICS</h2> <p>OPTICS не сразу фиксирует одно итоговое разбиение. Он строит порядок обхода точек и для каждой точки оценивает расстояние достижимости. Это расстояние показывает, насколько трудно присоединить точку к уже найденной плотной области.</p> <p>Для ядровой точки используется core-distance — расстояние до соседа, при котором в окрестности набирается \(MinPts\). Reachability-distance для соседней точки обычно берется как максимум из core-distance текущей точки и расстояния до соседа:</p> <p>$$reachability(p,o)=\max(core\_dist(o), \rho(o,p)).$$</p> <h2>Как читать результат</h2> <p>Если построить график достижимости в порядке обхода, плотные кластеры выглядят как впадины: внутри них точки достижимы на малом расстоянии. Разреженные области и переходы между кластерами дают более высокие значения.</p> <h2>Зачем это студенту</h2> <p>OPTICS помогает понять, что плотность может быть многоуровневой. В модуле он дан как расширение после DBSCAN: основная практическая механика уже понятна через окрестности и MinPts, а OPTICS показывает, что не всегда удобно выбирать один глобальный радиус.</p>