Понятие
BIRCH
BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) — алгоритм, предложенный Т. Чжаном, Р. Рамакришнаном и М. Ливни для кластеризации очень больших наборов данных.
**Основная идея:**
BIRCH не хранит все объекты как самостоятельные элементы. Он строит CF-дерево — компактную иерархическую структуру, где каждый узел хранит статистики подкластеров.
**Clustering Feature:**
Для подмножества объектов используется тройка:
$CF = (N, LS, SS)$,
где $N$ — число объектов, $LS = \sum x_i$ — линейная сумма объектов, $SS = \sum x_i^2$ — сумма квадратов. По этим значениям можно быстро вычислять центр, радиус и диаметр подкластеров без обращения ко всем исходным точкам.
**Параметры:**
1. **threshold** ограничивает радиус или диаметр подкластеров;
2. **branching factor** ограничивает число потомков в узле CF-дерева.
**Преимущества:**
Алгоритм хорошо подходит для предварительного сжатия больших данных и может работать почти в потоковом режиме.
**Ограничения:**
Качество зависит от порядка поступления объектов и выбора threshold. Метод лучше работает с компактными кластерами, но может хуже описывать сложные невыпуклые формы.
Использует / Требует
Является (Is A)
Иерархические алгоритмы
Использует
Расстояние между точками (Евклидово)
Оценивается метрикой
Скорректированный индекс Рэнда
Оценивается метрикой
Индекс Калински-Харабаша
Оценивается метрикой
Коэффициент силуэта
Имеет параметр
Фактор ветвления
Имеет параметр
Порог расстояния (Threshold)
Решает прикладную задачу
Векторное квантование (Сокращение данных)
Решает прикладную задачу
Поиск аномалий и удаление шума
Имеет масштабируемость
Высокая масштабируемость
Имеет тип логического вывода
Индуктивный вывод