Теория
Масштаб признаков и расстояния
<h2>Почему масштаб может исказить похожесть</h2>
<p>Расстояния считаются по числам, поэтому единицы измерения напрямую влияют на результат. Если один признак измеряется в тысячах, а другой в единицах, первый признак может почти полностью определять расстояние.</p>
<p>Например, клиент описан признаками <code>[доход, покупок в месяц]</code>. Разница в доходе на 1000 численно намного больше, чем разница в 5 покупок. Без подготовки данных алгоритм может решить, что доход важнее всего, хотя для сегментации важны оба признака.</p>
<h2>Идея нормализации</h2>
<p>Нормализация приводит признаки к сопоставимому масштабу. Один из простых способов — min-max-нормализация:</p>
<p>$$x_{\text{scaled}}=\frac{x-\min(x)}{\max(x)-\min(x)}$$</p>
<p>После такой операции минимальное значение признака становится <code>0</code>, максимальное - <code>1</code>, а остальные значения располагаются между ними.</p>
<h2>Пример</h2>
<p>Пусть значения признака "покупок в месяц" равны <code>[2, 5, 8]</code>. Минимум равен 2, максимум равен 8. Тогда:</p>
<ul>
<li>для 2: \((2-2)/(8-2)=0\);</li>
<li>для 5: \((5-2)/(8-2)=0.5\);</li>
<li>для 8: \((8-2)/(8-2)=1\).</li>
</ul>
<h2>Что важно помнить</h2>
<p>Нормализация не делает данные правильными автоматически. Она только помогает расстоянию учитывать признаки более честно, особенно когда признаки измеряются в разных единицах. Если признак сам по себе не связан с задачей, нормализация не сделает его полезным.</p>
<h2>Связь с выбором метрики</h2>
<p>Метрика и масштаб признаков работают вместе. Если изменить масштаб одной оси, соседство точек может измениться, а вместе с ним изменится и результат кластеризации. Поэтому подготовка признаков является частью постановки задачи, а не технической мелочью.</p>
<h2>Когда особенно нужно масштабирование</h2>
<ul>
<li>признаки измеряются в разных единицах;</li>
<li>один признак имеет намного больший численный диапазон;</li>
<li>используется алгоритм, основанный на расстояниях;</li>
<li>важно, чтобы несколько признаков влияли на похожесть сопоставимо.</li>
</ul>