【数据分析】02- A/B 测试:玩转假设检验、t 检验与卡方检验

embedded/2025/1/20 6:01:33/

一、背景:当“审判”成为科学

1.1 虚拟场景——法庭审判

想象这样一个场景:有一天,你在王国里担任“首席审判官”。你面前站着一位嫌疑人,有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的,还是他是被冤枉的?你需要做出审判。

• 如果只是听到“民众都说他很可疑”,就随便判有罪,也许冤枉了一个无辜的人;

• 如果因为证据不够充分,放任他走了,而真凶恰好就是他?那可怎么办?

这时候,作为审判官,你要收集证据(证人证言、现场线索),并进行理性分析。你不会轻易下结论,而是先假设他无罪(原假设),然后看证据有多强。若证据足够强大,说明在“嫌疑人无罪”的情况下,这么极端的指纹、目击等线索出现简直是“小概率事件”,于是你认定他“极可能有罪”,就推翻了无罪假设。

这便是假设检验的核心思想:我们总是先假设“没有差异”“没有效应”(就像嫌疑人无罪),然后让数据“自己说话”,看要不要推翻这个假设。


1.2 假设检验的现代发展

• 过去:统计学家费雪(Fisher)等人在 20 世纪初确立了这套“原假设 vs. 备择假设 + p 值 + 显著性水平”的理论框架。

• 现在:在大数据时代,我们依然需要这种方法来对数据做严谨推断,比如互联网产品的A/B 测试、医药领域的疗效分析、金融风控决策等等。

• 原因:不论数据多庞大,随机性和噪声总在,所以我们要有一把“判定差异是否超越随机”的尺子,这就是假设检验


二、假设检验:原理、角色与流程

2.1 原假设、备择假设

1. 原假设(Null Hypothesis

默认都是原假设,即罪人没有罪,需要p值低于阈值的时候我们才会推翻(拒绝)我们的原假设

• 嫌疑人无罪;

• 两个方案无差异;

• 新药无显著疗效……

一般总是表示“没有改变、没有差异、没有效果”。


2. 备择假设(Alternative Hypothesis 

• 嫌疑人有罪;

• 两个方案的确有差异;

• 新药确实起了作用……


2.2 p 值:出现极端证据的概率

• p 值(p-value)是指:在原假设为真的前提下,获得我们这么极端(或更极端)观测结果的概率。

• 如果 p 值很小,比如 < 0.05(这就是显著性水平 的常用阈值 0.05),就意味着:

• “在没有差异的情况下,居然还能看到这么极端的数据,太小概率了吧?!”

• 所以我们倾向于说,“估计是原假设不对”,即拒绝原假设

就是他是好人的情况下,出现这些不利(极端)证据,概率也太小了吧,所以我们认为他是坏人


2.3 Type I 与 Type II 错误

Type I 错误:错把一个无罪的人判了死刑(原假设其实对,但被我们拒绝)

Type II 错误:把真正的罪犯当好人放了(原假设其实不对,但我们没拒绝)

• 做实验或统计分析时,我们也要小心平衡:(Type I 错误率)和 (Type II 错误率),别因极度谨慎而漏掉真差异,也别因过度敏感而冤枉“无差异”的情况。


三、A/B 测试:让你的产品决策更像“法庭审判”

3.1 你在做的,正是“统计审判”!

互联网里,每当你想更换按钮颜色、重新设计界面布局,或者改进推荐算法时,却不确定是不是更好——就能用A/B 测试来模拟“法庭审判”流程:

1. 原假设:新方案和老方案在关键指标(点击率、转化率等)上“无差异”;

2. 备择假设:新方案有更好的表现;

3. 随机分配:把用户随机分成两组,一部分看 A,另一部分看 B;

4. 观察结果:收集一段时间数据,看 B 组指标是否明显高于 A 组;

5. 检验:若差异明显到“原假设难以成立”,就说明新方案的确优于旧方案,推翻原假设。


3.2 常见陷阱

样本量过小:就好比证据太少,判案没把握;

多重测试:一次试验比较很多方案,就像同时审好几个案子,可能在某个案件里意外得到“极端证据”;

外部干扰:如果不是随机分组、A/B 组用户画像差别太大,就像找了一群偏见法官,对审判结果会有偏颇。


四、t 检验:如何量化“均值上的差异”?

4.1 t 检验的来龙去脉

场景:我想知道“两个组的平均值”到底差多少,比如“男性与女性的平均身高差异”,或者“A 组人群的日均观看时长 vs. B 组人群的日均观看时长”。

原理

• 分子是“两个平均值之间的差”,分母是“这俩差值可能出现的标准误(综合了方差和样本量)”。

• 若这个 t 值很大,表明相对随机波动而言,均值差距太明显,p 值就会小。


4.2 适合场合

1. 数据近似正态分布,或者样本量足够大(中心极限定理可以帮忙);

2. 数值型指标,且你关心“平均值”本身的差异;

3. 如果两组是独立样本,就用“独立样本 t 检验”;若是一组人自己前后对比,则用“配对 t 检验”。


4.3 t 检验代码

案例分析

案例1:独立样本t检验

问题描述:比较男性和女性的平均身高是否存在显著差异。

python">import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
male_heights = np.random.normal(175, 7, 100)  # 男性身高(cm)
female_heights = np.random.normal(165, 6, 100)  # 女性身高(cm)# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(male_heights, female_heights)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设,认为男性和女性的平均身高存在显著差异。")
else:print("无法拒绝原假设,认为男性和女性的平均身高无显著差异。")

输出: 


案例2:独立样本t检验

问题描述: 在A/B测试中,评估新版本(B)是否显著提升了转化率。

python">import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
control = np.random.binomial(1, 0.10, 1000)  # 控制组转化率10%
treatment = np.random.binomial(1, 0.12, 1000)  # 试验组转化率12%# 计算转化率
control_rate = np.mean(control)
treatment_rate = np.mean(treatment)print(f'控制组转化率: {control_rate:.2%}')
print(f'试验组转化率: {treatment_rate:.2%}')# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(treatment, control)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设,认为新版本显著提升了转化率。")
else:print("无法拒绝原假设,认为新版本未显著提升转化率。")

输出:


案例3:药物疗效的配对样本t检验

问题描述: 评估某药物在治疗前后患者的血压变化,判断药物是否有效。

python">import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
pre_treatment_bp = np.random.normal(150, 10, 30)  # 治疗前血压
post_treatment_bp = pre_treatment_bp - np.random.normal(10, 5, 30)  # 治疗后血压# 进行配对样本t检验
t_stat, p_value = stats.ttest_rel(post_treatment_bp, pre_treatment_bp)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设,认为药物显著降低了血压。")
else:print("无法拒绝原假设,认为药物未显著降低血压。")

输出:


五、卡方检验:处理“分类变量”就靠它

5.1 当你的证据是“频数”而非“均值”

• 如果你拿到的是“买 or 不买”这样的分类标签,或者“一共投票给 A/B/C 的人数分别是多少”,就不能简单地比较平均值。

• 这时要用卡方检验(Chi-Square),因为它专门对“观察到的频数”和“期望的频数”做比较。


5.2 原理简述


5.3 卡方检验代码

python">import numpy as np
from scipy.stats import chi2_contingency# 构建列联表
# 行:性别(男、女),列:购买(是、否)
data = np.array([[30, 10],[20, 20]])# 进行卡方检验
chi2, p, dof, expected = chi2_contingency(data)print(f'卡方统计量: {chi2:.2f}')
print(f'p值: {p:.4f}')
print('期望频数:')
print(expected)# 结果解读
alpha = 0.05
if p < alpha:print("拒绝原假设,认为性别与购买决策存在关联。")
else:print("无法拒绝原假设,认为性别与购买决策无关联。")

输出: 


六、再回到法庭:如何让判决更高效?

1. 注意样本量:别审太少证据就想定罪,也别没完没了地搜证耽误时间。

2. 明确检验方法:是要比较数值平均?还是比较分类频数?选对 t 检验 or 卡方检验

3. 控制误差率: 设多少?怎么平衡漏判与冤判?

4. 多重比较调整:若你要审好几件案子(或 A/B 测试好多种版本),要做相应方法调整,避免“捡到极端结果就说差异大”。


七、总结:只要有决策,就可能需要假设检验

从审判一个嫌疑人是否有罪,到互联网 A/B 测试中判断“新老方案孰优孰劣”,再到科研里探讨“实验组与对照组”效果差异,我们都能看到假设检验的身影。它让我们在随机干扰中保持理性,用t 检验检查数值均值,用卡方检验衡量分类差异,用A/B 测试来做商业产品优化。


文章小结

1. 假设检验:就像法庭审案,“无罪”假设先行,数据若够极端就能推翻;

2. A/B 测试:互联网“快速试验”神器;

3. t 检验:比较“两组均值”时最常用;

4. 卡方检验:用来判断分类/频数的差异或关联度。


希望通过这个“法庭审判”比喻,让你更好理解为何需要假设检验,以及如何把它用在各种实际场景上。本文若能带给你启发或快乐,请不吝在 一键三连(点赞、收藏、关注)并评论分享哦!让更多人知道,“统计思维”才是我们在复杂世界里做出理性决策的秘密武器。


参考阅读

• Fisher, R. A. (1925). Statistical Methods for Research Workers.

• Montgomery, D. C. (2017). Design and Analysis of Experiments.

• Pearson, K. (1900). On the criterion… (The seminal paper on Chi-Square test).

—— 全文完 ——

感谢阅读,期待你的点赞 + 关注 + 评论 + 收藏 + 转发,我们下期见!


http://www.ppmy.cn/embedded/155399.html

相关文章

MongoDB单机版安装

MongoDB单机版安装 在CentOS Linux release 7.9.2009 (Core)下安装MongoDB的步骤如下&#xff1a; 1 创建用户和组&#xff08;可选&#xff0c;根据需要&#xff09; 如果您希望以非root用户运行MongoDB服务&#xff0c;可以创建一个专用的用户和组。 groupadd mongodb us…

Python毕业设计选题:基于django+vue的宠物服务管理系统

开发语言&#xff1a;Python框架&#xff1a;djangoPython版本&#xff1a;python3.7.7数据库&#xff1a;mysql 5.7数据库工具&#xff1a;Navicat11开发软件&#xff1a;PyCharm 系统展示 管理员登录 管理员功能界面 用户管理 宠物商品管理 医疗服务管理 美容服务管理 系统…

网络协议基础--HTTP协议

一.HTTP介绍 HTTP 是基于 TCP/IP 协议栈之上的应用层协议&#xff0c;旨在规定客户端和服务器之间请求和响应的标准格式与交互方式&#xff0c;以实现超文本&#xff08;包含文本、图片、音频、视频等多种格式的文档&#xff09;的传输&#xff0c;让用户能够在浏览器中轻松访问…

Windows 11 安装GTK+3.0 和VScode开发GTK+3.0配置

Windows 11 安装GTK+3.0 和VScode开发GTK+3.0配置 安装msys2下载msys2安装安装msys2安装编译器gcc安装调试器gdb安装GTK+3.0安装C/C++开发GTK+3.0工具配置路径验证GTK+3.0安装验证配置运行GTK DemoVScode配置测试代码文件test.c任务配置文件tasks.jsongdb调试配置文件launch.js…

idea本地jar包添加到项目的maven库 mvn install:install-file

背景 最近在开发项目中需要对接海康威视摄像头&#xff0c;进行视频、照片等数据的获取保存&#xff1b;海康提供的sdk的jar包是自己开发的&#xff0c;在maven库中是找不到的&#xff0c;在项目中需要手动指定jar包路径 <dependency><groupId>com.haikang</g…

性价比1.2V电压基准替代

前言&#xff1a; 小于2V的电压基准比较少&#xff0c;且价格稍贵&#xff0c;对于要求不高的场合&#xff0c;1117可以替代使用&#xff0c;温度系数低于 100ppm/C, 价格便宜。 1117是线性稳压器的一种&#xff0c;一般情况下&#xff0c;输出电压可调。 如下述的1117&#xf…

使用vue-next-admin框架后台修改动态路由

vue-next-admin框架是一个基于 Vue 3 和 Vite 构建的后台管理系统框架。它采用了最新的前端技术栈&#xff0c;旨在提供一个高效、灵活、现代化的管理后台解决方案。该框架主要用于构建功能丰富且易于定制的管理后台应用&#xff0c;适合各种中大型项目。 其主要特点包括&am…

AWS S3 跨账户访问 Cross Account Access

进入S3对应的存储桶&#xff0c;上面选项选权限&#xff0c;存储桶策略 -- 编辑&#xff0c;输入对应的policy。 完全控制&#xff0c;包含上传删除权限&#xff0c;policy如下&#xff1a; {"Version": "2012-10-17","Statement": [{"Si…