Теория
BIRCH: микрокластеры и CF-дерево
<h2>Зачем нужен BIRCH</h2>
<p>BIRCH предназначен для больших наборов данных. Вместо того чтобы постоянно хранить и сравнивать все точки, он постепенно сжимает данные в компактные микрокластеры.</p>
<h2>Clustering Feature</h2>
<p>Микрокластер можно описать тройкой CF:</p>
<p>$$CF=(N, LS, SS).$$</p>
<p>Здесь \(N\) — число точек, \(LS\) — покоординатная сумма точек, \(SS\) — покоординатная сумма квадратов. По этим величинам можно быстро получить центр и оценить разброс микрокластера.</p>
<h2>CF-дерево</h2>
<p>BIRCH строит дерево микрокластеров. Новые точки добавляются в ближайший подходящий микрокластер, если его радиус не превышает порог. Если микрокластер становится слишком широким, структура дерева перестраивается.</p>
<h2>Практический смысл</h2>
<p>BIRCH полезен как предварительное сжатие больших данных: сначала строятся микрокластеры, а затем уже их можно дополнительно кластеризовать другим методом.</p>