Теория

Mean Shift: движение к максимумам плотности

Algo_MeanShift

<h2>Идея метода</h2> <p>Mean Shift относится к методам, которые можно объяснять через оценку плотности. Если представить, что вокруг каждой точки находится небольшая область влияния, то в местах, где точек много, образуются локальные максимумы плотности. Алгоритм постепенно сдвигает центр области в сторону более плотного участка.</p> <h2>Один шаг сдвига</h2> <p>В простом варианте берется текущий центр $c$, выбираются точки внутри окна радиуса $h$, а новый центр становится средним этих точек:</p> <p>$$c_{new}=\frac{1}{|N_h(c)|}\sum_{x_i\in N_h(c)}x_i.$$</p> <p>Здесь $h$ называют шириной окна или bandwidth. Чем больше $h$, тем шире область усреднения и тем крупнее получаются найденные группы.</p> <h2>Связь с ФОРЭЛЬ</h2> <p>Mean Shift похож на ФОРЭЛЬ тем, что центр области сдвигается к среднему положению точек внутри радиуса. Но акцент другой: Mean Shift обычно объясняют как движение к модам плотности, то есть к локальным максимумам распределения данных.</p> <h2>Когда метод полезен</h2> <p>Mean Shift не требует заранее задавать число кластеров. Он хорошо показывает идею «кластеры как области высокой плотности», но чувствителен к выбору bandwidth и может быть дорогим на больших данных.</p>