Теория

Иерархическая кластеризация: вложенные группы

HierarchicalAlgorithm

<h2>Зачем нужна иерархия</h2> <p>В предыдущих модулях результат обычно был одним разбиением: каждому объекту назначалась одна итоговая группа. Иерархическая кластеризация строит не одно разбиение, а систему вложенных кластеров. Это полезно, когда данные можно рассматривать на разных уровнях детализации: сначала крупные группы, затем подгруппы внутри них.</p> <p>Например, коллекцию документов можно сначала разделить на технические и гуманитарные тексты, затем внутри технических выделить машинное обучение, базы данных и сети, а внутри машинного обучения — кластеризацию, классификацию и регрессию.</p> <h2>Два направления построения</h2> <ul> <li><strong>Агломеративный подход</strong>: начать с отдельных объектов и постепенно объединять ближайшие кластеры.</li> <li><strong>Дивизимный подход</strong>: начать со всей выборки и постепенно делить крупные кластеры на части.</li> </ul> <p>В этом модуле основной акцент сделан на агломеративной схеме: она проще для визуального понимания, хорошо связана с матрицей расстояний и естественно приводит к дендрограмме.</p> <h2>Связь с предыдущими модулями</h2> <p>Иерархические методы продолжают тему расстояний из первого модуля, отличаются от K-Means тем, что не требуют заранее фиксировать центроиды, и дополняют плотностные методы: вместо локального роста плотной области они строят всю историю объединения объектов.</p>