Теория
Метрики качества кластеризации
<h2>Метрика не равна смыслу</h2>
<p>Метрика качества помогает сравнить разбиения, но не заменяет понимание задачи. Хорошее число может появиться у разбиения, которое не имеет смысла для предметной области. Поэтому метрики используют как инструмент диагностики, а не как единственный источник истины.</p>
<h2>Внутренние метрики</h2>
<p><strong>Внутренние метрики</strong> используют только признаки объектов и полученные метки кластеров. Они отвечают на вопросы: насколько кластеры компактны, насколько они отделены, нет ли подозрительного смешения групп.</p>
<p>Примеры: силуэт, индекс Калински-Харабаша, индекс Дэвиса-Болдина, инерция K-Means.</p>
<h2>Внешние метрики</h2>
<p><strong>Внешние метрики</strong> применяются, когда есть эталонные метки классов или экспертное разбиение. Они сравнивают результат кластеризации с известной разметкой. Пример: скорректированный индекс Рэнда.</p>
<p>Если истинных меток нет, внешние метрики применять нельзя. В такой ситуации остаются внутренние метрики, устойчивость результата и предметная интерпретация.</p>