Теория

Силуэт: близко к своим, далеко от чужих

QMetric_SilhouetteScore
<h2>Идея силуэта</h2> <p>Силуэт — внутренняя метрика качества кластеризации. Она оценивает отдельный объект: насколько хорошо он расположен внутри своего кластера по сравнению с ближайшим чужим кластером.</p> <p>Для объекта \(x_i\) обозначим:</p> <ul> <li>\(a(i)\) — среднее расстояние от объекта до других объектов своего кластера;</li> <li>\(b(i)\) — среднее расстояние до объектов ближайшего соседнего кластера.</li> </ul> <p>Тогда силуэт объекта:</p> <p>$$s(i)=\frac{b(i)-a(i)}{\max(a(i), b(i))}.$$</p> <h2>Как читать значение</h2> <ul> <li>значение близко к 1 — объект хорошо лежит в своем кластере;</li> <li>значение около 0 — объект находится на границе между группами;</li> <li>значение меньше 0 — объект, возможно, ближе к чужому кластеру, чем к своему.</li> </ul> <p>Силуэт не заменяет предметную интерпретацию, но помогает увидеть, насколько разбиение согласуется с идеей «внутри близко, снаружи далеко».</p>