Теория

Масштаб признаков и расстояния

Metric_PointDistance
<h2>Почему масштаб может исказить похожесть</h2> <p>Расстояния считаются по числам, поэтому единицы измерения напрямую влияют на результат. Если один признак измеряется в тысячах, а другой в единицах, первый признак может почти полностью определять расстояние.</p> <p>Например, клиент описан признаками <code>[доход, покупок в месяц]</code>. Разница в доходе на 1000 численно намного больше, чем разница в 5 покупок. Без подготовки данных алгоритм может решить, что доход важнее всего, хотя для сегментации важны оба признака.</p> <h2>Идея нормализации</h2> <p>Нормализация приводит признаки к сопоставимому масштабу. Один из простых способов — min-max-нормализация:</p> <p>$$x_{\text{scaled}}=\frac{x-\min(x)}{\max(x)-\min(x)}$$</p> <p>После такой операции минимальное значение признака становится <code>0</code>, максимальное - <code>1</code>, а остальные значения располагаются между ними.</p> <h2>Пример</h2> <p>Пусть значения признака "покупок в месяц" равны <code>[2, 5, 8]</code>. Минимум равен 2, максимум равен 8. Тогда:</p> <ul> <li>для 2: \((2-2)/(8-2)=0\);</li> <li>для 5: \((5-2)/(8-2)=0.5\);</li> <li>для 8: \((8-2)/(8-2)=1\).</li> </ul> <h2>Что важно помнить</h2> <p>Нормализация не делает данные правильными автоматически. Она только помогает расстоянию учитывать признаки более честно, особенно когда признаки измеряются в разных единицах. Если признак сам по себе не связан с задачей, нормализация не сделает его полезным.</p> <h2>Связь с выбором метрики</h2> <p>Метрика и масштаб признаков работают вместе. Если изменить масштаб одной оси, соседство точек может измениться, а вместе с ним изменится и результат кластеризации. Поэтому подготовка признаков является частью постановки задачи, а не технической мелочью.</p> <h2>Когда особенно нужно масштабирование</h2> <ul> <li>признаки измеряются в разных единицах;</li> <li>один признак имеет намного больший численный диапазон;</li> <li>используется алгоритм, основанный на расстояниях;</li> <li>важно, чтобы несколько признаков влияли на похожесть сопоставимо.</li> </ul>