Метрика
Метрика расстояния
Математическая функция $\rho(x, x')$, определяющая степень «несходства» (dissimilarity) между двумя объектами в пространстве признаков.
Согласно **аксиоматике метрического пространства**, должна удовлетворять условиям неотрицательности, симметрии и неравенству треугольника.
**Важность выбора (по К.В. Воронцову):**
Результат кластеризации часто зависит от выбора метрики сильнее, чем от выбора алгоритма.
* Если признаки измерены в разных единицах (кг, метры, рубли), использование метрик без предварительной **стандартизации** (Z-score) бессмысленно — признак с наибольшим масштабом «подавит» остальные.
**Основные классы метрик:**
1. **Геометрические ($L_p$ Минковского):** Евклидово ($L_2$), Манхэттенское ($L_1$), Чебышева ($L_\infty$). Подходят для числовых векторов.
2. **Статистические:** Расстояние Махаланобиса (учитывает ковариацию и дисперсию признаков).
3. **Структурные:** Графовые расстояния, редакционное расстояние (для текстов/строк).