Понятие
Векторное квантование (Сокращение данных)
Задача сжатия сверхбольших массивов данных (Big Data) с минимальной потерей их статистических и структурных свойств.
**Зачем это нужно:**
Многие точные алгоритмы (например, *Агломеративная кластеризация*) имеют кубическую сложность $O(n^3)$ и физически не могут обработать выборку из 1 миллиона строк.
**Суть решения:**
Используются методы предварительной агрегации (например, алгоритм *BIRCH*). Миллион сырых точек сжимается в 1000 компактных "микро-кластеров" (узлов CF-дерева). Затем эти 1000 микро-кластеров подаются на вход тяжелому алгоритму. Это позволяет радикально ускорить вычисления без потери качества анализа.