Теория
Учебные формы данных: blobs, moons и circles
<h2>Зачем нужны учебные формы данных</h2>
<p>Чтобы понять поведение алгоритмов кластеризации, удобно использовать простые двумерные наборы точек. Они не заменяют реальные данные, но позволяют быстро увидеть ограничения методов.</p>
<ul>
<li><strong>Blobs</strong> — отдельные компактные облака точек. Это удобный первый пример для центроидных методов.</li>
<li><strong>Moons</strong> — две переплетенные дуги. Здесь кластеры связные, но не похожи на круглые облака.</li>
<li><strong>Circles</strong> — вложенные окружности. Центр может быть пустым, поэтому один центроид плохо описывает форму.</li>
</ul>
<h2>Как это связано с симулятором</h2>
<p>В симуляторе можно запустить K-Means на разных формах данных. На компактных облаках результат обычно выглядит естественно: центроиды оказываются внутри групп, а точки назначаются ближайшим центрам. На кольцах или дугах результат может выглядеть странно: алгоритм делит пространство вокруг центров, а не восстанавливает форму кольца.</p>
<h2>Что должен заметить студент</h2>
<ol>
<li>Центроид не обязан быть реальной точкой из набора данных. Это среднее положение группы.</li>
<li>Близость к центру хорошо работает не для всех форм.</li>
<li>Сложная геометрия является сигналом: нужно осторожно выбирать алгоритм.</li>
<li>Визуальная проверка помогает понять ошибку раньше, чем формальные метрики.</li>
</ol>
<h2>Итог</h2>
<p>Первый модуль подводит к главной мысли: кластеризация начинается не с кнопки "запустить алгоритм", а с понимания данных. Нужно определить объект, признаки, метрику, масштаб и форму групп. Только после этого результат алгоритма можно осмысленно интерпретировать.</p>