Теория
Геометрия данных: простые и сложные формы
<h2>Форма кластера имеет значение</h2>
<p>После выбора признаков объекты можно представить как точки в пространстве. Даже если признаков много, полезно думать о форме скоплений точек. Разные алгоритмы предполагают разные формы кластеров, поэтому одна и та же выборка может быть удачной для одного метода и неудобной для другого.</p>
<ul>
<li><strong>Компактные облака</strong>: группы выглядят как отдельные плотные скопления. Для них часто подходят центроидные методы.</li>
<li><strong>Вытянутые группы</strong>: точки образуют длинные полосы или цепочки. Один центр может плохо описывать такую форму.</li>
<li><strong>Невыпуклые формы</strong>: кластеры похожи на дуги, кольца или спирали. Прямое расстояние до центра может давать ошибочное разбиение.</li>
<li><strong>Перемычки между группами</strong>: несколько облаков соединены цепочкой точек, и алгоритм может ошибочно склеить их в один кластер.</li>
<li><strong>Разреженный фон</strong>: часть точек выглядит как шум и не принадлежит ни одной устойчивой группе.</li>
<li><strong>Перекрывающиеся кластеры</strong>: граница между группами нечеткая, поэтому назначение отдельных объектов становится спорным.</li>
<li><strong>Отсутствие кластеров</strong>: иногда данные не имеют выраженной групповой структуры, и любой результат будет искусственным.</li>
</ul>
<h2>Пример с кольцами</h2>
<p>Представьте два кольца: одно внутри другого. Человек легко видит два естественных кластера - внутреннее кольцо и внешнее кольцо. Но метод, который описывает кластер одним центром, может разрезать кольца на сектора. Причина в том, что центр кольца может быть пустым, а расстояние до центра не отражает реальную структуру окружности.</p>
<h2>Почему это важно для K-Means</h2>
<p>K-Means строит области вокруг центроидов. Поэтому он хорошо работает, когда кластеры похожи на компактные облака, но может ошибаться на кольцах, дугах и сложных связных областях. Это не делает алгоритм плохим, просто у него есть понятная область применимости.</p>
<h2>Как читать геометрию перед запуском</h2>
<ol>
<li>Есть ли визуально отдельные компактные облака?</li>
<li>Есть ли вытянутые, кольцевые или изогнутые формы?</li>
<li>Есть ли перемычки между группами?</li>
<li>Есть ли много шума или одиночных точек?</li>
<li>Перекрываются ли предполагаемые кластеры?</li>
<li>Ожидаем ли мы кластеры примерно одинаковой плотности?</li>
<li>Можно ли объяснить найденные группы через признаки?</li>
</ol>
<p>В первом модуле эта идея важнее конкретного алгоритма: студент должен научиться видеть, что форма данных влияет на выбор метода. У каждого алгоритма есть свои ограничения, и он хорошо выделяет только некоторые типы кластерных структур.</p>