Теория

BIRCH: микрокластеры и CF-дерево

Algo_BIRCH
<h2>Зачем нужен BIRCH</h2> <p>BIRCH предназначен для больших наборов данных. Вместо того чтобы постоянно хранить и сравнивать все точки, он постепенно сжимает данные в компактные микрокластеры.</p> <h2>Clustering Feature</h2> <p>Микрокластер можно описать тройкой CF:</p> <p>$$CF=(N, LS, SS).$$</p> <p>Здесь \(N\) — число точек, \(LS\) — покоординатная сумма точек, \(SS\) — покоординатная сумма квадратов. По этим величинам можно быстро получить центр и оценить разброс микрокластера.</p> <h2>CF-дерево</h2> <p>BIRCH строит дерево микрокластеров. Новые точки добавляются в ближайший подходящий микрокластер, если его радиус не превышает порог. Если микрокластер становится слишком широким, структура дерева перестраивается.</p> <h2>Практический смысл</h2> <p>BIRCH полезен как предварительное сжатие больших данных: сначала строятся микрокластеры, а затем уже их можно дополнительно кластеризовать другим методом.</p>