Теория
Расстояния между кластерами: linkage
<h2>Зачем нужен linkage</h2>
<p>Когда кластер состоит из нескольких объектов, расстояние между кластерами уже нельзя прочитать как расстояние между двумя точками. Нужно выбрать правило, которое сводит множество попарных расстояний к одному числу.</p>
<h2>Single linkage</h2>
<p>Расстояние между кластерами равно минимальному расстоянию между их объектами:</p>
<p>$$d_{single}(A,B)=\min_{x\in A, y\in B}\rho(x,y).$$</p>
<p>Этот критерий хорошо находит связные цепочки, но может страдать от эффекта цепи: отдельные близкие мостики склеивают большие группы.</p>
<h2>Complete linkage</h2>
<p>Расстояние равно максимальному расстоянию между объектами двух кластеров:</p>
<p>$$d_{complete}(A,B)=\max_{x\in A, y\in B}\rho(x,y).$$</p>
<p>Такой критерий обычно стремится к более компактным кластерам и осторожнее объединяет вытянутые группы.</p>
<h2>Average linkage</h2>
<p>Расстояние равно среднему попарному расстоянию между объектами разных кластеров:</p>
<p>$$d_{average}(A,B)=\frac{1}{|A||B|}\sum_{x\in A}\sum_{y\in B}\rho(x,y).$$</p>
<p>Это компромисс между ближайшим и дальним соседом: он учитывает все пары, а не только экстремальное расстояние.</p>