Понятие

Векторное квантование (Сокращение данных)

Задача сжатия сверхбольших массивов данных (Big Data) с минимальной потерей их статистических и структурных свойств. **Зачем это нужно:** Многие точные алгоритмы (например, *Агломеративная кластеризация*) имеют кубическую сложность $O(n^3)$ и физически не могут обработать выборку из 1 миллиона строк. **Суть решения:** Используются методы предварительной агрегации (например, алгоритм *BIRCH*). Миллион сырых точек сжимается в 1000 компактных "микро-кластеров" (узлов CF-дерева). Затем эти 1000 микро-кластеров подаются на вход тяжелому алгоритму. Это позволяет радикально ускорить вычисления без потери качества анализа.