Понятие

Кластеризация

Кластеризация — это задача анализа данных, в которой множество объектов разбивается на группы, называемые кластерами, без заранее заданных меток классов. **Место в машинном обучении:** Кластеризация относится к обучению без учителя. В отличие от классификации, алгоритм не получает готовые правильные ответы, а пытается обнаружить внутреннюю структуру данных по признакам объектов и выбранной мере сходства. **Формальная постановка:** Пусть задано множество объектов $X = \{x_1, x_2, ..., x_n\}$ и мера близости или расстояния $\rho(x_i, x_j)$. Требуется построить разбиение: $C = \{C_1, C_2, ..., C_K\}$, такое, что каждый объект принадлежит одному из кластеров, кластеры не пересекаются, а их объединение образует исходную выборку. В общем виде хорошее разбиение должно обеспечивать два свойства: 1. объекты внутри одного кластера похожи друг на друга; 2. объекты из разных кластеров достаточно различаются. **Критерии качества:** Для центроидных методов, например K-Means, цель часто выражается через минимизацию внутрикластерной суммы квадратов: $J = \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2$, где $\mu_k$ — центр k-го кластера. Однако эта формула не является универсальной для всей кластеризации: плотностные, иерархические, графовые и модельные методы используют другие предположения о структуре данных. **Роль в электронном пособии:** В графе знаний это понятие используется как корневой узел. От него связываются основные группы методов кластеризации, метрики расстояния, параметры алгоритмов, критерии качества, условия применимости и практические сценарии. Такая организация помогает рассматривать кластеризацию не как набор отдельных алгоритмов, а как единую предметную область. **Теоретическая опора:** Описание понятия опирается на классические работы по кластерному анализу и машинному обучению: Б.Г. Миркина, К.В. Воронцова, A.K. Jain, M.N. Murty, P.J. Flynn, а также C.C. Aggarwal и C.K. Reddy.