Понятие
Высокая масштабируемость
Алгоритм способен обрабатывать сверхбольшие объемы данных (сотни тысяч и миллионы наблюдений) за приемлемое время.
**Теоретическое обоснование:**
* **Сложность:** Линейная $O(n)$ или лог-линейная $O(n \log n)$.
* **Механизмы:**
1. **Потоковая обработка (Online Learning):** Обновление параметров модели по мере поступления новых порций данных (батчей), без загрузки всего датасета в память (пример: *MiniBatch K-Means*).
2. **Сжатие данных:** Использование эффективных структур данных, таких как CF-деревья в алгоритме *BIRCH*, которые хранят только агрегированные статистики (суммы и квадраты сумм), а не сами точки.
3. **Пространственная индексация:** Использование KD-деревьев или Ball-деревьев для ускорения поиска соседей (*DBSCAN*).
Использует / Требует
Используется в
HDBSCAN
как Имеет масштабируемость
MiniBatch K-Means
как Имеет масштабируемость
Bisecting K-Means
как Имеет масштабируемость
Ward hierarchical clustering
как Имеет масштабируемость
DBSCAN
как Имеет масштабируемость
OPTICS
как Имеет масштабируемость
BIRCH
как Имеет масштабируемость
Алгоритм Максимина
как Имеет масштабируемость
K-Means
как Имеет масштабируемость
Agglomerative clustering
как Имеет масштабируемость