Теория
Центроид и идея K-Means
<h2>Что такое центроид</h2>
<p>Центроид — это центр масс кластера, то есть среднее положение объектов внутри группы. Если кластер \(X_a\) содержит несколько точек, его центроид можно записать так:</p>
<p>$$\mu_a = \frac{1}{|X_a|}\sum_{x_i \in X_a} x_i.$$</p>
<p>Центроид не обязан быть реальным объектом из данных. Он может лежать между точками и служить только расчетным представителем группы.</p>
<h2>Идея центроидного разбиения</h2>
<p>Если каждый кластер описывается своим центром \(\mu_a\), то объект естественно назначать в тот кластер, чей центр ближе. Это и есть базовая идея центроидных алгоритмов.</p>
<p>Для K-Means задача выглядит так: найти центры кластеров и назначения объектов так, чтобы сумма расстояний от объектов до центров своих кластеров была минимальной:</p>
<p>$$\sum_{i=1}^{\ell} \|x_i - \mu_{a_i}\|^2 \rightarrow \min.$$</p>
<p>Здесь \(a_i\) — номер кластера объекта \(x_i\), а \(\mu_{a_i}\) — центроид этого кластера.</p>
<h2>Как работает шаг алгоритма</h2>
<ol>
<li>Есть несколько центроидов.</li>
<li>Каждая точка назначается ближайшему центроиду.</li>
<li>Для каждого кластера пересчитывается новый центроид как среднее его точек.</li>
<li>Шаги повторяются, пока назначения или центры почти не перестают меняться.</li>
</ol>
<h2>Почему это важно для первого модуля</h2>
<p>Даже до полного изучения K-Means полезно понять две идеи: центроид является средним представителем группы, а качество такого разбиения зависит от расстояния. Именно поэтому в практических заданиях есть вычисление евклидова расстояния и назначение точки к ближайшему центру.</p>