Понятие

BIRCH

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) — алгоритм, предложенный Т. Чжаном, Р. Рамакришнаном и М. Ливни для кластеризации очень больших наборов данных. **Основная идея:** BIRCH не хранит все объекты как самостоятельные элементы. Он строит CF-дерево — компактную иерархическую структуру, где каждый узел хранит статистики подкластеров. **Clustering Feature:** Для подмножества объектов используется тройка: $CF = (N, LS, SS)$, где $N$ — число объектов, $LS = \sum x_i$ — линейная сумма объектов, $SS = \sum x_i^2$ — сумма квадратов. По этим значениям можно быстро вычислять центр, радиус и диаметр подкластеров без обращения ко всем исходным точкам. **Параметры:** 1. **threshold** ограничивает радиус или диаметр подкластеров; 2. **branching factor** ограничивает число потомков в узле CF-дерева. **Преимущества:** Алгоритм хорошо подходит для предварительного сжатия больших данных и может работать почти в потоковом режиме. **Ограничения:** Качество зависит от порядка поступления объектов и выбора threshold. Метод лучше работает с компактными кластерами, но может хуже описывать сложные невыпуклые формы.

Использует / Требует

Является (Is A) Иерархические алгоритмы Использует Расстояние между точками (Евклидово) Оценивается метрикой Скорректированный индекс Рэнда Оценивается метрикой Индекс Калински-Харабаша Оценивается метрикой Коэффициент силуэта Имеет параметр Фактор ветвления Имеет параметр Порог расстояния (Threshold) Решает прикладную задачу Векторное квантование (Сокращение данных) Решает прикладную задачу Поиск аномалий и удаление шума Имеет масштабируемость Высокая масштабируемость Имеет тип логического вывода Индуктивный вывод

Используется в

Высокая масштабируемость как Рекомендуется после Фактор ветвления как Рекомендуется после Векторное квантование (Сокращение данных) как Рекомендуется после