Теория

Плотностная идея кластеризации

DensityBasedAlgorithm

<h2>От центров к плотным областям</h2> <p>Во втором модуле кластеры описывались через центроиды: объект относился к той группе, чей центр ближе. Плотностные методы смотрят на данные иначе. Кластер здесь понимается как область, где точек много и они расположены достаточно близко друг к другу. Разреженные точки между такими областями считаются границей или шумом.</p> <p>Это особенно полезно, когда форма группы не похожа на компактное облако: дуги, кольца, вытянутые ленты и связанные области плохо описываются одним центроидом, но хорошо видны как плотные цепочки соседних точек.</p> <h2>Ключевая идея</h2> <p>Для каждой точки смотрят ее локальное окружение. Если рядом достаточно много соседей, точка считается частью плотной области. Если плотные точки можно соединить цепочкой соседств, они образуют один кластер.</p> <ul> <li><strong>Плотная область</strong> — участок пространства, где у точек много близких соседей.</li> <li><strong>Шум</strong> — точки, которые не входят ни в одну устойчивую плотную область.</li> <li><strong>Граница</strong> — точки рядом с плотной областью, но сами не имеющие достаточного числа соседей.</li> </ul> <h2>Почему это важно для курса</h2> <p>Плотностные и радиусные алгоритмы показывают, что выбор метода зависит от геометрии данных. Если K-Means делит пространство вокруг центров, то DBSCAN строит кластеры через плотностную связность, а ФОРЭЛЬ ищет локальные скопления движущейся областью фиксированного радиуса. OPTICS и HDBSCAN продолжают эту линию и помогают обсуждать случаи, где плотность меняется от кластера к кластеру.</p>