Теория
Иерархическая кластеризация: вложенные группы
<h2>Зачем нужна иерархия</h2>
<p>В предыдущих модулях результат обычно был одним разбиением: каждому объекту назначалась одна итоговая группа. Иерархическая кластеризация строит не одно разбиение, а систему вложенных кластеров. Это полезно, когда данные можно рассматривать на разных уровнях детализации: сначала крупные группы, затем подгруппы внутри них.</p>
<p>Например, коллекцию документов можно сначала разделить на технические и гуманитарные тексты, затем внутри технических выделить машинное обучение, базы данных и сети, а внутри машинного обучения — кластеризацию, классификацию и регрессию.</p>
<h2>Два направления построения</h2>
<ul>
<li><strong>Агломеративный подход</strong>: начать с отдельных объектов и постепенно объединять ближайшие кластеры.</li>
<li><strong>Дивизимный подход</strong>: начать со всей выборки и постепенно делить крупные кластеры на части.</li>
</ul>
<p>В этом модуле основной акцент сделан на агломеративной схеме: она проще для визуального понимания, хорошо связана с матрицей расстояний и естественно приводит к дендрограмме.</p>
<h2>Связь с предыдущими модулями</h2>
<p>Иерархические методы продолжают тему расстояний из первого модуля, отличаются от K-Means тем, что не требуют заранее фиксировать центроиды, и дополняют плотностные методы: вместо локального роста плотной области они строят всю историю объединения объектов.</p>