Теория
HDBSCAN: устойчивые кластеры разной плотности
<h2>Зачем нужен HDBSCAN</h2>
<p>HDBSCAN можно понимать как современное развитие плотностной идеи: вместо выбора одного глобального радиуса алгоритм строит иерархию плотностных кластеров и выбирает наиболее устойчивые группы.</p>
<h2>Главная интуиция</h2>
<p>Если DBSCAN спрашивает: «какие точки соединены при данном \(\varepsilon\)?», то HDBSCAN рассматривает разные уровни плотности. Кластер считается хорошим, если он сохраняется на заметном диапазоне уровней, а не появляется случайно на одном узком значении параметра.</p>
<h2>Mutual reachability</h2>
<p>Для построения плотностной структуры используется расстояние взаимной достижимости. Оно учитывает не только расстояние между двумя точками, но и локальную плотность вокруг каждой из них. В упрощенном виде:</p>
<p>$$d_{mreach}(a,b)=\max(core\_dist(a), core\_dist(b), \rho(a,b)).$$</p>
<h2>Когда он особенно полезен</h2>
<ul>
<li>кластеры имеют разную плотность;</li>
<li>в данных много шума;</li>
<li>не хочется подбирать один точный \(\varepsilon\);</li>
<li>важно получить не только метки, но и оценку устойчивости кластеров.</li>
</ul>
<p>В текущем тренажере HDBSCAN используется как теоретическое расширение: он связан с онтологией и заданиями, но основной интерактивный запуск в третьем модуле сосредоточен на DBSCAN, ФОРЭЛЬ и OPTICS.</p>