This is an old revision of the document!
在数据分析工作中,“数据打架”是常见难题——当身高以“厘米”为单位、体重以“千克”为单位同时进入模型时,数值范围的差异会严重干扰分析结果。Z-score标准化正是解决这一问题的核心工具,它能将不同量级的数据转化为统一尺度,为后续分析扫清障碍。
Z-score标准化(Standard Score Normalization),又称标准差标准化或Z值标准化,是一种将原始数据转换为均值为0、标准差为1的标准化数据的统计方法。通过该方法处理后的数据(即Z值),能够直观反映原始数据在整体数据分布中的相对位置,有效消除不同变量间的量纲和量级差异,使多维度数据具备可比较性。
z-score 也叫 standard score, 用于评估样本点到总体均值的距离。z-score主要的应用是测量 原始数据 与数据总体均值相差多少个标准差。
z-score是比较测试结果与正常结果的一种方法。测试与调查的结果往往有不同的单位和意义,简单地从结果本身来看可能毫无意义。当我们知道小明数学考了90分(满分100),我们也许会认为这是一个好消息,但是如果我们拿小明的成绩与班上平均成绩相比较,我们也许会深感惋惜。z-score可以告诉我们小明数学成绩和总体数学平均成绩的比值。
2.1 Z Score 公式:单个样本的情况
当样本只有一个时,z score的规则是:
$$ z=\frac{x-\mu}{\sigma} $$
举个例子,小明的数学成绩是90,班级的数学平均成绩为95,标准超为2,此时对于此例中的z score为:
$$ z=\frac{x-\mu}{\sigma}=\frac{90-95}{2}=-2.5 $$
z-score告诉我们这个分数距离平均分数相差几个标准差。此例中,小明的数学分数低于班级平均分数2.5个标准差。
当我们不知道数据总体的 $ \mu $和 $ \sigma $,我们可以使用样本均值 $ \overline{x}$ 和样本标准差 $S$,此时我们可以用下式精确地表示式(1):
$$ z_i=\frac{x_i-\overline{x}}{S} $$
其计算公式为:Z = (X - μ) / σ,其中X代表原始数据,μ是数据样本的均值,σ是样本的标准差。简单来说,Z值本质上反映了原始数据与样本均值的偏离程度,以标准差为“尺子”量化这种偏离,正Z值表示数据高于均值,负Z值则表示低于均值。
2.2 Z Score 公式:均值的标准误差
如果我们有多个样本,并且想知道这些样本均值 x‾\overline{x}x 与总体均值距离多少个标准差,可以使用此公式:
$$ z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}} $$
举个例子,考过这张数学卷子的人的平均成绩为80,标准差为15。那么对于包括小明等40位同学所在的班级来说
$$ z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}=\frac{95-80}{15/\sqrt{40}}=6.3 $$
Z-Score表示抽样样本值与数据均值相差标准差的数目。举个例子:
z-score告诉我们样本值在正态分布曲线中所处的位置。z-score = 0告诉我们该样本正好位于均值处,z-score = 3 则告诉我们样本值远高于均值。
Z Score是一个经常被用于 数据标准 化的方法。在多指标评价体系中,由于各评价指标的性质不同,通常具有不痛的数量级和单位,如果直接利用原始数据,就会突出数值较高的指标在分析中的作用,相对弱化数值较低指标的作用。因此,为了保证结果的可靠性,需要对原始数据进行 标准化 。
对于样本序列 x1,x2,…,xnx_1,x_2,…,x_nx1,x2,…,xn进行标准化,根据公式(2)有yi=xi−x‾sy_i = \frac{x_i-\overline{x}}{s}yi=sxi−x产生的新序列 y1,y2,…,yny_1,y_2,…,y_ny1,y2,…,yn 是均值位0,方差为1,无量纲的数据。