Понятие
Кластеризация
Кластеризация — это задача анализа данных, в которой множество объектов разбивается на группы, называемые кластерами, без заранее заданных меток классов.
**Место в машинном обучении:**
Кластеризация относится к обучению без учителя. В отличие от классификации, алгоритм не получает готовые правильные ответы, а пытается обнаружить внутреннюю структуру данных по признакам объектов и выбранной мере сходства.
**Формальная постановка:**
Пусть задано множество объектов $X = \{x_1, x_2, ..., x_n\}$ и мера близости или расстояния $\rho(x_i, x_j)$. Требуется построить разбиение:
$C = \{C_1, C_2, ..., C_K\}$,
такое, что каждый объект принадлежит одному из кластеров, кластеры не пересекаются, а их объединение образует исходную выборку. В общем виде хорошее разбиение должно обеспечивать два свойства:
1. объекты внутри одного кластера похожи друг на друга;
2. объекты из разных кластеров достаточно различаются.
**Критерии качества:**
Для центроидных методов, например K-Means, цель часто выражается через минимизацию внутрикластерной суммы квадратов:
$J = \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2$,
где $\mu_k$ — центр k-го кластера. Однако эта формула не является универсальной для всей кластеризации: плотностные, иерархические, графовые и модельные методы используют другие предположения о структуре данных.
**Роль в электронном пособии:**
В графе знаний это понятие используется как корневой узел. От него связываются основные группы методов кластеризации, метрики расстояния, параметры алгоритмов, критерии качества, условия применимости и практические сценарии. Такая организация помогает рассматривать кластеризацию не как набор отдельных алгоритмов, а как единую предметную область.
**Теоретическая опора:**
Описание понятия опирается на классические работы по кластерному анализу и машинному обучению: Б.Г. Миркина, К.В. Воронцова, A.K. Jain, M.N. Murty, P.J. Flynn, а также C.C. Aggarwal и C.K. Reddy.
Используется в
Алгоритм кластеризации
как Является (Is A)
Ожидаемый размер кластеров
как Является (Is A)
Геометрия кластеров
как Является (Is A)
Тип вывода (Inference Type)
как Является (Is A)
Метрика расстояния
как Является (Is A)
Параметры
как Является (Is A)
Масштабируемость (Scalability)
как Является (Is A)
Применение (Use case)
как Является (Is A)
Метрика качества кластеризации
как Является (Is A)
Критерий качества кластеризации
как Является (Is A)
Условие применения метрики качества
как Является (Is A)