Теория
Расстояния и параметры как источник ошибок
<h2>Метрика расстояния меняет результат</h2>
<p>Не все задачи должны использовать обычное евклидово расстояние. Если признаки коррелируют или имеют разную дисперсию, может понадобиться расстояние Махаланобиса. Если алгоритм принимает готовую матрицу расстояний, можно использовать любую попарную меру несходства: например, расстояние между текстами, графами или временными рядами.</p>
<h2>Параметры конкретных методов</h2>
<ul>
<li><strong>Bandwidth</strong> в Mean Shift задает ширину окна: слишком маленькое значение дробит данные, слишком большое сливает группы.</li>
<li><strong>Damping</strong> в Affinity Propagation стабилизирует обмен сообщениями: слишком малое значение может привести к колебаниям.</li>
<li><strong>Branching factor</strong> в BIRCH управляет ветвлением CF-дерева и влияет на компактность структуры.</li>
<li><strong>Distance threshold</strong> в иерархической кластеризации задает высоту разреза дендрограммы.</li>
</ul>
<h2>Диагностика</h2>
<p>Если результат выглядит странно, стоит проверить не только алгоритм, но и признаки, масштабирование, метрику расстояния и параметры. Часто проблема не в том, что метод плохой, а в том, что постановка не соответствует форме данных.</p>