Теория

Расстояния между кластерами: linkage

Metric_NearestPointDistance
<h2>Зачем нужен linkage</h2> <p>Когда кластер состоит из нескольких объектов, расстояние между кластерами уже нельзя прочитать как расстояние между двумя точками. Нужно выбрать правило, которое сводит множество попарных расстояний к одному числу.</p> <h2>Single linkage</h2> <p>Расстояние между кластерами равно минимальному расстоянию между их объектами:</p> <p>$$d_{single}(A,B)=\min_{x\in A, y\in B}\rho(x,y).$$</p> <p>Этот критерий хорошо находит связные цепочки, но может страдать от эффекта цепи: отдельные близкие мостики склеивают большие группы.</p> <h2>Complete linkage</h2> <p>Расстояние равно максимальному расстоянию между объектами двух кластеров:</p> <p>$$d_{complete}(A,B)=\max_{x\in A, y\in B}\rho(x,y).$$</p> <p>Такой критерий обычно стремится к более компактным кластерам и осторожнее объединяет вытянутые группы.</p> <h2>Average linkage</h2> <p>Расстояние равно среднему попарному расстоянию между объектами разных кластеров:</p> <p>$$d_{average}(A,B)=\frac{1}{|A||B|}\sum_{x\in A}\sum_{y\in B}\rho(x,y).$$</p> <p>Это компромисс между ближайшим и дальним соседом: он учитывает все пары, а не только экстремальное расстояние.</p>