从0开始学统计-什么是Z-score

ops/2024/11/2 17:48:41/

引言

Z-score起源于19世纪后期,基于标准正态分布(高斯分布)理论。这一概念建立在标准差的基础上,用于衡量数据点相对于平均值的偏离程度。通过将数据点的偏离转换为标准差单位,便可以使用Z-score比较不同数据集中的数据。在人文科学的研究中,Z-score应用广泛,下面我们来看下Z-score的历史及其具体的应用场景。

历史

Z-score(标准分数)的产生主要基于统计学中对数据标准化的需求,以及对数据点相对于其所在数据集平均值的偏离程度进行量化的需求。在统计分析、数据处理和研究中,经常需要比较来自不同样本或数据集的观测值。由于这些数据集可能有不同的均值(平均值)和标准差(数据分布的离散程度),直接比较原始分数可能会产生误导。通过将数据点转换为一个相对于数据集均值的标准差单位数,Z-score提供了一种标准化的比较方法,使研究人员可以公平比较不同数据集之间的观测值。
Z-score的概念是在标准正态分布(Standard Normal Distribution)的框架内发展起来的。标准正态分布是一种特定的概率分布,其形状为对称的钟形曲线,由两个参数——均值(μ)和标准差(σ)——完全确定。在标准正态分布中,均值为0,标准差为1。将原始数据转换为Z-score实际上是将其转换为一种形式,参照了标准正态分布,从而便于分析和解释。

在这里插入图片描述
Z-score的概念与几位统计学和数学家的工作密切相关,其中包括卡尔·弗里德里希·高斯(Carl Friedrich Gauss)和卡尔·皮尔逊(Karl Pearson)。

  • 卡尔·弗里德里希·高斯对正态分布的研究奠定了后来Z-score理论的基础。虽然他没有直接提出Z-score,但他对误差分布的研究和正态分布的形式化对后来的统计方法产生了深远影响。
  • 卡尔·皮尔逊是现代统计学的奠基人之一,他对数据的分布、变异性的度量以及相关性的分析做出了重要贡献。虽然皮尔逊也没有直接“提出”Z-score,但他的工作为Z-score的发展提供了理论和方法论基础。

计算方法

计算Z-score的过程实际上是将原始数据标准化的过程,使得得到的分数反映了原始数据点距离平均值的相对位置,并以标准差为单位衡量。这种转换后的分数使不同数据集或不同测量尺度上的数据可以直接进行比较。
Z-score的计算公式为:
在这里插入图片描述

其中:Z 是Z-score。X 是观察值。
μ 是数据集的均值(平均值)。
σ 是数据集的标准差。

计算方法如下:

  • 计算均值(μ):首先计算出数据集的平均值,即所有数据点的总和除以数据点的数量。
  • 计算标准差(σ):然后,计算数据集的标准差,这是衡量数据点分布离散程度的一个指标。标准差是各数据点与平均值差值的平方和的平均值的平方根。
  • 计算Z-score:对于数据集中的每个数据点,用该点的值减去数据集的均值,然后将结果除以数据集的标准差。这个过程求出了每个数据点的Z-score,反映了该点以标准差为单位与数据集平均值的相对距离。

Z-score的解读:

  • Z-score = 0:如果Z-score为0,表示观察值等于平均值。
  • Z-score > 0:如果Z-score大于0,表示观察值高于平均值。
  • Z-score < 0:如果Z-score小于0,表示观察值低于平均值。
  • 绝对值大小:Z-score的绝对值越大,表示观察值距离平均值越远。

例如,如果Z-score的绝对值大于2,通常认为其显著偏离平均值。

应用

假设两个不同学校的学生,学生C和学生D的课程成绩相同,都得了85分。学校1(学生C所在)的平均成绩为90分,标准差为10分。学校2(学生D所在)的平均成绩为70分,标准差为5分。

通过计算这两个学生的Z-score,我们可以比较他们的成绩在各自学校中的表现。结果显示,学生C的Z-score约为-0.5,这意味着他的成绩低于其所在学校的平均成绩,差距大约是半个标准差。学生D的Z-score为3.0,表明他的成绩高于其所在学校的平均成绩,差距是3个标准差。

虽然学生C和学生D的原始成绩相同,但通过Z-score,我们可以看出学生D的成绩在其所在学校中更为突出。相对于其学校平均成绩和标准差,学生D的成绩位置更高。这说明,即使原始成绩相同,Z-score也能帮助我们更加准确地评价学生的表现。

与Z-test的关系

Z-test是一种统计检验,用于确定两个样本均值之间的差异是否在统计学上显著,检验时假设样本分布接近正态分布,且已知总体标准差。Z-test通过计算Z-score来实现,该Z-score表示观察到的差异与零假设下的预期差异之间的距离。

举个例子,我们可以使用Z-test来检验一个样本均值是否与已知的总体均值有显著差异。具体参数如下:
总体平均值(μ) = 100
总体标准差(σ) = 15
样本平均值(ˉxˉ) = 108
样本大小(n) = 30
通过计算后得知,样本的平均Z-score约为2.92,对应的p-value约为0.0035,这表明样本均值比总体平均值高,且差异在统计上显著。因为p值小于常用的显著性水平(0.05),我们有足够的证据拒绝零假设,认为样本均值与总体均值存在显著差异。

小结

本文讨论了Z-score的历史、计算方法及其在实际情境中的应用,并阐述了Z-score与Z-test之间的关系和使用场景。无论是在学术研究、业务分析还是日常决策中,掌握Z-score的知识都非常重要。


http://www.ppmy.cn/ops/130481.html

相关文章

【视频】OpenCV:识别颜色、绘制轮廓

1、安装OpenCV库 sudo apt install libopencv-dev2、链接库 将 OpenCV 头文件路径和库添加到CMake中,在 CMakeLists.txt 中添加 1)查找库 find_package(OpenCV REQUIRED) 或者 find_package(OpenCV REQUIRED core imgproc highgui) 2)添加头文件路径 include_directories…

【若依框架】代码生成详细教程,15分钟搭建Springboot+Vue3前后端分离项目,基于Mysql8数据库和Redis5,管理后台前端基于Vue3和Element Plus,开发小程序数据后台

今天我们来借助若依来快速的搭建一个基于springboot的Java管理后台&#xff0c;后台网页使用vue3和 Element Plus来快速搭建。这里我们可以借助若依自动生成Java和vue3代码&#xff0c;这就是若依的强大之处&#xff0c;即便你不会Java和vue开发&#xff0c;只要跟着石头哥也可…

传感器图像分割系统:创新探讨教学

传感器图像分割系统源码&#xff06;数据集分享 [yolov8-seg-C2f-ODConv&#xff06;yolov8-seg-SPDConv等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Global Al l…

JS:列表操作

目录 1、列表截取2、列表数据包含3、列表筛选4、极值操作5、获取列表对象某一属性构建列表6、获取元素在列表中的下标7、列表去重 1、列表截取 列表截取&#xff1a;List.slice(start, end)&#xff0c;左闭右开 var dataList [1,2,3,4,5,6] var resultList dataList.slice(0…

MySQL-基础汇总

MySQL-基础汇总 数据库对于任何一个从事后台开发的人说都是永远躲不掉的&#xff0c;任何系统或程序离开了数据的支持都变的毫无意义。而管理数据的工具——数据库就显得尤为重要。本章节我们的核心就是 MySQL&#xff0c;相信很多小伙伴跟我一样&#xff0c;也沉浸在增、删、…

每日OJ题_牛客_AB20走迷宫_BFS_C++_Java

目录 牛客_AB20走迷宫_BFS 题目解析 C代码 Java代码 牛客_AB20走迷宫_BFS 走迷宫_牛客题霸_牛客网 (nowcoder.com) 描述&#xff1a; 给定一个nm的网格&#xff0c;在网格中每次在不超过边界的情况下可以选择向上、向下、向左、向右移动一格。网格中的一些格子上放置有障…

JVM 调优深度剖析:优化 Java 应用的全方位攻略(一)

这是我们就业陪跑训练营学员总结的文章&#xff0c;我觉得不错&#xff0c;和大家分享一下。 Java 应用中&#xff0c;JVM 调优至关重要。本文聚焦 JVM 调优&#xff0c;涵盖主要目标、思路与方法。目标包括减少 GC 停顿、提高吞吐量等&#xff1b; 思路有多步&#xff0c;如选…

智慧农业与道品科技:现代农业转型的创新之路

智慧农业是现代农业发展中不可忽视的重要领域。随着全球人口的持续增长和城市化进程的加快&#xff0c;传统农业面临着诸多挑战&#xff0c;包括资源短缺、环境污染、气候变化等。智慧农业作为一种新兴的农业经营模式&#xff0c;旨在通过先进的技术手段来提高农业生产效率、保…