Метрика

Метрика расстояния

Математическая функция $\rho(x, x')$, определяющая степень «несходства» (dissimilarity) между двумя объектами в пространстве признаков. Согласно **аксиоматике метрического пространства**, должна удовлетворять условиям неотрицательности, симметрии и неравенству треугольника. **Важность выбора (по К.В. Воронцову):** Результат кластеризации часто зависит от выбора метрики сильнее, чем от выбора алгоритма. * Если признаки измерены в разных единицах (кг, метры, рубли), использование метрик без предварительной **стандартизации** (Z-score) бессмысленно — признак с наибольшим масштабом «подавит» остальные. **Основные классы метрик:** 1. **Геометрические ($L_p$ Минковского):** Евклидово ($L_2$), Манхэттенское ($L_1$), Чебышева ($L_\infty$). Подходят для числовых векторов. 2. **Статистические:** Расстояние Махаланобиса (учитывает ковариацию и дисперсию признаков). 3. **Структурные:** Графовые расстояния, редакционное расстояние (для текстов/строк).