Понятие

Поиск аномалий и удаление шума

Специфическая задача Data Mining, также известная как **Anomaly Detection** (Обнаружение аномалий). **Теоретическая проблема:** Алгоритмы, минимизирующие дисперсию (как *K-Means*), чувствительны к выбросам: одна аномальная точка может сильно сместить центроид всего кластера. В реальных данных (сенсоры, финансовые транзакции) всегда присутствует фоновый шум. **Решение:** Необходимы плотностные алгоритмы (*DBSCAN, OPTICS*), которые не пытаются "втянуть" каждую точку в кластер. Если точка находится в разреженном пространстве и не имеет достаточного числа соседей (параметр MinPts), она изолируется и помечается как шум (выброс).