Теория

HDBSCAN: устойчивые кластеры разной плотности

Algo_HDBSCAN

<h2>Зачем нужен HDBSCAN</h2> <p>HDBSCAN можно понимать как современное развитие плотностной идеи: вместо выбора одного глобального радиуса алгоритм строит иерархию плотностных кластеров и выбирает наиболее устойчивые группы.</p> <h2>Главная интуиция</h2> <p>Если DBSCAN спрашивает: «какие точки соединены при данном $\varepsilon$?», то HDBSCAN рассматривает разные уровни плотности. Кластер считается хорошим, если он сохраняется на заметном диапазоне уровней, а не появляется случайно на одном узком значении параметра.</p> <h2>Mutual reachability</h2> <p>Для построения плотностной структуры используется расстояние взаимной достижимости. Оно учитывает не только расстояние между двумя точками, но и локальную плотность вокруг каждой из них. В упрощенном виде:</p> <p>$$d_{mreach}(a,b)=\max(core\_dist(a), core\_dist(b), \rho(a,b)).$$</p> <h2>Когда он особенно полезен</h2> <ul> <li>кластеры имеют разную плотность;</li> <li>в данных много шума;</li> <li>не хочется подбирать один точный $\varepsilon$;</li> <li>важно получить не только метки, но и оценку устойчивости кластеров.</li> </ul> <p>В текущем тренажере HDBSCAN используется как теоретическое расширение: он связан с онтологией и заданиями, но основной интерактивный запуск в третьем модуле сосредоточен на DBSCAN, ФОРЭЛЬ и OPTICS.</p>