Теория

Центроид и идея K-Means

PartitioningAlgorithm
<h2>Что такое центроид</h2> <p>Центроид — это центр масс кластера, то есть среднее положение объектов внутри группы. Если кластер \(X_a\) содержит несколько точек, его центроид можно записать так:</p> <p>$$\mu_a = \frac{1}{|X_a|}\sum_{x_i \in X_a} x_i.$$</p> <p>Центроид не обязан быть реальным объектом из данных. Он может лежать между точками и служить только расчетным представителем группы.</p> <h2>Идея центроидного разбиения</h2> <p>Если каждый кластер описывается своим центром \(\mu_a\), то объект естественно назначать в тот кластер, чей центр ближе. Это и есть базовая идея центроидных алгоритмов.</p> <p>Для K-Means задача выглядит так: найти центры кластеров и назначения объектов так, чтобы сумма расстояний от объектов до центров своих кластеров была минимальной:</p> <p>$$\sum_{i=1}^{\ell} \|x_i - \mu_{a_i}\|^2 \rightarrow \min.$$</p> <p>Здесь \(a_i\) — номер кластера объекта \(x_i\), а \(\mu_{a_i}\) — центроид этого кластера.</p> <h2>Как работает шаг алгоритма</h2> <ol> <li>Есть несколько центроидов.</li> <li>Каждая точка назначается ближайшему центроиду.</li> <li>Для каждого кластера пересчитывается новый центроид как среднее его точек.</li> <li>Шаги повторяются, пока назначения или центры почти не перестают меняться.</li> </ol> <h2>Почему это важно для первого модуля</h2> <p>Даже до полного изучения K-Means полезно понять две идеи: центроид является средним представителем группы, а качество такого разбиения зависит от расстояния. Именно поэтому в практических заданиях есть вычисление евклидова расстояния и назначение точки к ближайшему центру.</p>