Теория

Что такое кластеризация

Root_Clustering

<h2>Обучение без учителя</h2> <p>Кластеризация — это способ найти группы в данных без заранее заданных правильных ответов. В классификации у каждого обучающего примера уже есть метка: например, письмо является спамом или не является. В кластеризации таких меток нет. Алгоритм получает только объекты и их признаки, а затем ищет внутреннюю структуру данных.</p> <p>Результатом является разбиение объектов на <strong>кластеры</strong>. Кластер можно понимать как группу объектов, которые похожи друг на друга сильнее, чем на объекты из других групп.</p> <h2>Формальная постановка</h2> <p>Пусть есть пространство объектов $X$ и выборка:</p> <p>$$X^\ell = \{x_1, x_2, \ldots, x_\ell\}.$$</p> <p>Также задана функция расстояния между объектами:</p> <p>$$\rho: X \times X \rightarrow [0, +\infty).$$</p> <p>Нужно построить множество кластеров $Y$ и алгоритм кластеризации:</p> <p>$$a: X \rightarrow Y,$$</p> <p>который каждому объекту сопоставляет номер или имя кластера. Интуитивное требование простое: внутри одного кластера объекты должны быть близкими, а объекты из разных кластеров должны заметно отличаться.</p> <h2>Пример</h2> <p>Допустим, интернет-магазин хочет понять поведение клиентов. Для каждого клиента известны средний чек, частота покупок и давность последней покупки. Если готовых сегментов нет, можно применить кластеризацию и получить группы вроде "редко покупают, но дорого", "покупают часто и недорого", "давно не возвращались". Эти названия не задаются заранее, их формулирует аналитик после изучения результата.</p> <h2>Зачем нужна кластеризация</h2> <ul> <li><strong>Упростить анализ</strong>: разбить большую выборку на подвыборки похожих объектов и дальше работать с ними отдельно.</li> <li><strong>Сжать данные</strong>: выбрать представителей кластеров вместо хранения или просмотра всех объектов.</li> <li><strong>Найти аномалии</strong>: заметить объекты, которые не похожи ни на одну устойчивую группу.</li> <li><strong>Построить иерархию</strong>: организовать объекты от крупных групп к более мелким подгруппам.</li> </ul> <h2>Что делает кластер полезным</h2> <p>Хорошее разбиение обычно сочетает три свойства:</p> <ul> <li><strong>компактность</strong>: объекты внутри одной группы похожи друг на друга;</li> <li><strong>разделенность</strong>: разные группы заметно отличаются;</li> <li><strong>интерпретируемость</strong>: найденные группы можно объяснить через признаки и задачу.</li> </ul> <h2>Почему нет единственно правильного ответа</h2> <p>В задачах без учителя часто невозможно заранее доказать, какое разбиение является единственно верным. Один и тот же набор клиентов можно группировать по покупательской активности, по интересам, по риску ухода или по прибыльности. Поэтому перед запуском алгоритма важно определить цель анализа и признаки, по которым похожесть действительно имеет смысл.</p> <p>На результат сильно влияют выбранные признаки, метрика $\rho$, нормировка данных, число кластеров и сам алгоритм. Поэтому кластеризация является не только вычислительной процедурой, но и частью исследовательского анализа.</p> <h2>Мини-чеклист постановки задачи</h2> <ol> <li>Определить объект кластеризации: клиент, товар, документ, точка наблюдения.</li> <li>Выбрать признаки, которые описывают важную похожесть.</li> <li>Понять, нужна ли нормализация признаков.</li> <li>Посмотреть на форму данных и возможные выбросы.</li> <li>После расчета объяснить кластеры словами предметной области.</li> </ol>