Теория
Параметры DBSCAN: ε и MinPts
<h2>Почему параметры решают всё</h2>
<p>DBSCAN не требует заранее задавать число кластеров, но требует выбрать плотность, которую мы считаем достаточной. Эта плотность задается парой параметров: \(\varepsilon\) и \(MinPts\).</p>
<h2>Радиус ε</h2>
<p>Параметр \(\varepsilon\) определяет, кого считать соседом точки. Если радиус слишком маленький, почти каждая точка окажется изолированной, и алгоритм даст много шума или раздробит один кластер на части. Если радиус слишком большой, разные группы могут склеиться в один кластер.</p>
<h2>MinPts</h2>
<p>Параметр \(MinPts\) задает минимальную плотность. Чем он больше, тем строже алгоритм относится к локальным скоплениям. Малое значение делает метод чувствительным к случайным цепочкам точек, большое может превратить тонкие, но реальные группы в шум.</p>
<h2>k-distance как ориентир</h2>
<p>Практический способ подобрать \(\varepsilon\) — посмотреть расстояние от каждой точки до ее \(k\)-го ближайшего соседа, где \(k\) связан с \(MinPts\). После сортировки таких расстояний часто ищут резкий изгиб графика: до него точки лежат в плотных областях, после него начинаются разреженные точки и выбросы.</p>
<h2>Типичная диагностика</h2>
<ul>
<li>слишком много шума — увеличить \(\varepsilon\) или уменьшить \(MinPts\);</li>
<li>слишком мало кластеров — уменьшить \(\varepsilon\);</li>
<li>тонкие перемычки склеивают группы — увеличить \(MinPts\) или уменьшить \(\varepsilon\);</li>
<li>кластеры имеют разную плотность — рассмотреть OPTICS или HDBSCAN.</li>
</ul>