Алгоритм

Алгоритм кластеризации

**Определение:** Метод автоматической классификации (обучения без учителя), целью которого является разбиение множества объектов $X$ на непересекающиеся или пересекающиеся подмножества (кластеры) $Y$, таким образом, чтобы объекты внутри одного кластера были близки друг к другу относительно выбранной метрики $\rho$, а объекты из разных кластеров — существенно различны. **Математическая постановка (по К.В. Воронцову):** Дано пространство объектов $X$ и обучающая выборка $X^\ell = \{x_1, ..., x_\ell\}$. Задана функция расстояния $\rho(x, x')$. Требуется построить алгоритм $a: X \to Y$ (где $Y$ — множество меток кластеров), который минимизирует функционал внутрикластерного расстояния и/или максимизирует функционал межкластерного расстояния. **Фундаментальная проблема:** Задача кластеризации является *некорректно поставленной*. Не существует единственно правильного разбиения. Результат зависит от: 1. Выбора метрики пространства признаков. 2. Выбора критерия качества (функционала). 3. Эвристических допущений конкретного алгоритма (гипотеза компактности, гипотеза плотности и др.).