Понятие
Поиск аномалий и удаление шума
Специфическая задача Data Mining, также известная как **Anomaly Detection** (Обнаружение аномалий).
**Теоретическая проблема:**
Алгоритмы, минимизирующие дисперсию (как *K-Means*), чувствительны к выбросам: одна аномальная точка может сильно сместить центроид всего кластера. В реальных данных (сенсоры, финансовые транзакции) всегда присутствует фоновый шум.
**Решение:**
Необходимы плотностные алгоритмы (*DBSCAN, OPTICS*), которые не пытаются "втянуть" каждую точку в кластер. Если точка находится в разреженном пространстве и не имеет достаточного числа соседей (параметр MinPts), она изолируется и помечается как шум (выброс).