Теория
Внешняя оценка и эталонные метки
<h2>Когда можно сравнивать с эталоном</h2>
<p>Иногда у объектов есть известные истинные метки: вид растения, диагноз, тип документа, заранее размеченный класс. Тогда кластеризацию можно сравнить с этой разметкой. Важно помнить: кластер с номером 0 не обязан совпадать с классом 0. Поэтому внешние метрики должны быть устойчивы к перестановке названий кластеров.</p>
<h2>Индекс Рэнда и ARI</h2>
<p>Идея индекса Рэнда основана на сравнении пар объектов. Для каждой пары проверяется, согласны ли два разбиения: лежит ли пара вместе в обоих разбиениях или раздельно в обоих разбиениях.</p>
<p>Скорректированный индекс Рэнда, или ARI, дополнительно учитывает случайные совпадения. Его значение близко к 1 означает сильное согласие с эталоном, около 0 — уровень случайного совпадения, ниже 0 — хуже случайного ожидания.</p>
<h2>Ограничение</h2>
<p>Высокое совпадение с эталонными классами полезно не всегда. Иногда кластеризация специально ищет другую структуру: например, не диагноз, а тип поведения пациента или профиль риска. Поэтому внешняя метрика хороша только тогда, когда эталон действительно соответствует цели анализа.</p>