机器学习数据预处理——归一化（Normalization）和标准化（standardlization）

昨天进行一场答辩，被评委老师问起来归一化的概念，一时间紧张没有想起来，后来复盘回忆，感觉还是自己的理解不够深刻，才导致关键时刻掉链子，没有想起。所以特此整理一下，以供加深印象。

文章目录

概述
归一化和标准化的区别和作用：
标准化与归一化的应用场景：

概述

数据的归一化和标准化是特征缩放 $)(feature\ scaling)$ 的方法，是数据预处理的关键步骤。不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据归一化/标准化处理，以解决数据指标之间的可比性。原始数据经过数据归一化/标准化处理后，各指标处于同一数量级，适合进行综合对比评价。（这里提到的量纲可以理解为数和单位，概括一句话就是物理量的大小和单位有关，就比如1分钱和1毛钱，它俩的量纲单位不同，所以就是不同的量纲。）

归一化/标准化实质是一种线性变换，线性变换有很多良好的性质，这些性质决定了对数据改变后不会造成“失效”，反而能提高数据的表现，这些性质是归一化/标准化的前提。比如有一个很重要的性质：线性变换不会改变原始数据的数值排序。具体作用可总结如下：

归一化和标准化的英文翻译是一致的，但是根据其用途（或公式）的不同去理解（或翻译）。

（1）某些模型求解需要

在使用梯度下降的方法求解最优化问题时，归一化/标准化后可以加快梯度下降的求解速度，即提升模型的收敛速度。
一些分类器需要计算样本之间的距离(如欧氏距离)，例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

（2）无量纲化

例如房子数量和收入，因为从业务层知道，这两者的重要性一样，所以把它们全部归一化。这是从业务层面上作的处理。

（3）避免数值问题

太大的数会引发数值问题。

归一化和标准化的区别和作用：

归一化和标准化的本质都是缩放和平移，他们的区别直观的说就是归一化的缩放是 “拍扁” 统一到区间 $(0 - 1)$ ，而标准化的缩放是更加 “弹性” 和 “动态” 的，和整体样本的分布有很大的关系。

常见的归一化方法（线性归一化）：
线性归一化也被称为最小-最大规范化或者离散标准化，是对原始数据的线性变换，将数据值映射到 $[0, 1]$ 之间。用公式表示为：
$x^{‘}=\frac{x-min(x)}{max(x)-min(x)}$
在这里我们需要注意的是，通常，这个区间是 $[0, 1]$ ，广义的讲，可以是各种区间，比如映射到 $[0, 1]$ 一样可以继续映射到其他范围，图像中可能会映射到 $[0, 255]$ ，其他情况可能映射到 $[- 1, 1]$ 。

离散标准化保留了原来数据中存在的关系，是消除量纲和数据取值范围影响的最简单的方法。代码实现如下：

def MaxMinNormalization(x,Max,Min):x = (x - Min) / (Max - Min);return x

适用范围：比较适用在数值比较集中的情况

缺点：
（1）如果 $ma x$ 和 $min$ 不稳定，很容易使得归一化的结果不稳定，使得后续使用效果也不稳定。如果遇到超过目前属性 $[min, ma x]$ 取值范围的时候，会引起系统报错。需要重新确定 $min$ 和 $ma x$ 。

（2）如果数值集中的某个数值很大，则规范化后各值接近于0，并且将会相差不大。如 $(1, 1.2, 1.3, 1.4, 1.5, 1.6, 10)$ 这组数据。

作用：

数据映射到指定的范围内进行处理，更加便捷快速。
把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。经过归一化后，将有量纲的数据集变成纯量，还可以达到简化计算的作用。

补充：
①有时候我们希望将输入转换到 $[- 1, 1]$ 的范围，可以使用以下的公式：
$min−1x^{‘}=\frac{2*(X-X_{min})}{X_{max}-X_{min}} -1$
以上两种方式，都是针对原始数据做等比例的缩放。其中 $X^{‘}$ 代表归一化后的数据， $X$ 是原始数据大小， $X_{max}$ 和 $X_{min}$ 是原始数据的最大值和最小值。

②归一化到任意区间的方法：

一般常见的数据归一化，是归一化到 $[0, 1]$ ，或者 $[- 1, 1]$ 的区间，但在一些特殊场合下，我们需要根据实际情况归一化到其他任意区间。将数据归一化到 $[a, b]$ 区间范围的方法：
（1）首先找到样本数据 $Y$ 的最小值 $M in$ 及最大值 $M a x$
（2）计算系数为： $k=\frac{(b-a)}{(Max-Min)}$
（3）得到归一化到 $[a, b]$ 区间的数据： $Y^{Nor}=a+k(Y-Min)$
实质上，归一化的一般规范函数是： $\frac{(y^{max}-y^{min})*(x-x^{min})}{(x^{max}-x^{min})+y^{min}}$ 。

常见的标准化方法(Z-score标准化)：

标准化是依照特征矩阵的列处理数据。数据标准化方法有多种，如：直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法，对系统的评价结果会产生不同的影响。其中，最常用的是Z-Score 标准化。

Z-score标准化也被称为标准差标准化或者零-均值归一化,是将数据变换为均值为0，标准差为1的分布，变换后依然保留原数据分布。用公式表示为:
$x−μδx^{‘}=\frac{x-μ}{\delta }$
其中 $μ$ 为原始数据的均值 $(m e an)$ ， $δ\delta$ 为原始数据的标准差 $(s t d)$ ，是当前用的最多的标准化公式。

这种方法给予原始数据的均值 $(m e an)$ 和标准差 $)(standard\ deviation)$ 进行数据的标准化。经过处理的数据符合标准正态分布，即均值为 $0$ ，标准差为 $1$ ，这里的关键在于复合标准正态分布。

代码实现如下：

def Z_ScoreNormalization(x,mu,sigma):x = (x - mu) / sigma;return x

作用：

提升模型的收敛速度（加快梯度下降的求解速度）
提升模型的精度（消除量级和量纲的影响）
简化计算（与归一化的简化原理相同）

从输出范围角度来看，归一化的输出结果必须在 0-1 间。而标准化的输出范围不受限制，通常情况下比归一化更广。

它们的相同点在于都能取消由于量纲不同引起的误差；都是一种线性变换，都是对向量X按照比例压缩再进行平移。

标准化与归一化的应用场景：

一般情况下，如果对输出结果范围有要求，用归一化。如果数据较为稳定，不存在极端的最大最小值，用归一化。如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。

在机器学习中，标准化是更常用的手段，归一化的应用场景是有限的。其原因就在于二者的区别：

1、标准化更好保持了样本间距。当样本中有异常点时，归一化有可能将正常的样本“挤”到一起去。比如三个样本，某个特征的值为1,2,10000，假设10000这个值是异常值，用归一化的方法后，正常的1,2就会被“挤”到一起去。如果不幸的是1和2的分类标签还是相反的，那么，当我们用梯度下降来做分类模型训练时，模型会需要更长的时间收敛，因为将样本分开需要更大的努力！而标准化在这方面就做得很好，至少它不会将样本“挤到一起”。

2、标准化更符合统计学假。对一个数值特征来说，很大可能它是服从正态分布的。标准化其实是基于这个隐含假设，只不过是略施小技，将这个正态分布调整为均值为0，方差为1的标准正态分布而已。

✨ $原创不易，还希望各位大佬支持一下\textcolor{blue}{原创不易，还希望各位大佬支持一下}$
$点赞，你的认可是我创作的动力！\textcolor{green}{点赞，你的认可是我创作的动力！}$
⭐️ $收藏，你的青睐是我努力的方向！\textcolor{green}{收藏，你的青睐是我努力的方向！}$
✏️ $评论，你的意见是我进步的财富！\textcolor{green}{评论，你的意见是我进步的财富！}$