机器学习数学基础：29.t检验

一、t 检验的定义与核心思想

（一）定义

t 检验（Student’s t - test）是一种在统计学领域中广泛应用的基于 t 分布的统计推断方法。其主要用途在于判断样本均值与总体均值之间，或者两个独立样本的均值之间、配对样本的均值之间是否存在显著差异。例如，在教育研究中，可以通过 t 检验判断某个班级学生的平均成绩与全校学生的平均成绩是否有显著差异；在医学实验里，可用于比较实验组和对照组的患者某项生理指标的均值是否不同。

（二）核心思想

t 检验通过计算 t 统计量来衡量差异的显著性。从公式本质来看， $\frac{\text{差异}}{\text{随机误差}}$ 。其中，分子部分“样本均值与目标值的差异”体现了效应大小。比如在比较样本均值和总体均值时，这个差异就是样本均值偏离总体均值的程度，它反映了我们所关注的因素可能产生的影响。分母部分“样本误差”是标准差与样本量的综合结果，它衡量了数据的离散程度以及样本量对结果的影响。样本标准差越大，说明数据越分散，随机误差也就越大；同时，样本量的大小也会影响分母的值，样本量越大，随机误差相对越小。通过这样的计算方式，t 统计量能够综合考虑差异和随机误差，从而判断差异是否显著。

二、t 分布的特性

（一）形状

t 分布呈现出对称的钟形曲线形态，这一点与正态分布相似。然而，t 分布的尾部比正态分布更厚。这意味着在 t 分布中，极端值出现的概率相对正态分布更大。例如，在正态分布中，距离均值较远的数值出现的概率较小，但在 t 分布中，这些极端数值有相对更高的出现可能性。

（二）自由度（df）影响

自由度是 t 分布中的一个重要参数，它对 t 分布的形状有着显著影响。自由度越小，t 分布的尾部越厚。这是因为自由度反映了样本信息的丰富程度，自由度小意味着样本提供的信息相对较少，不确定性更大，所以尾部更厚，以容纳更多可能的极端情况。随着自由度逐渐增大并趋近于无穷大，t 分布会趋近于正态分布。当样本量足够大时，t 分布的性质就和正态分布非常接近了。

（三）适用场景

t 检验通常适用于小样本（一般认为 n < 30）的情况，或者在总体方差未知的情况下使用。在实际研究中，很多时候我们无法获取总体的方差信息，或者样本量有限，这时 t 检验就发挥了重要作用。例如，在一些初步的市场调研中，可能由于时间和成本的限制，只能抽取较小的样本进行分析，t 检验就能帮助我们基于这些小样本数据进行有效的统计推断。

三、t 检验的三大类型

（一）单样本 t 检验（One - Sample t - test）

目的：单样本 t 检验的主要目的是检验单个样本的均值是否等于已知的总体均值。例如，已知某地区成年男性的平均身高为 175cm，现在从该地区随机抽取了 20 名成年男性，我们可以使用单样本 t 检验来判断这 20 名男性的平均身高是否与 175cm 存在显著差异。
公式： $\frac{\bar{X} - \mu}{S/\sqrt{n}}$ ，其中 $\bar{X}$ 表示样本均值，它是通过对样本中的所有数据进行求和再除以样本量得到的； $\mu$ 是总体均值，这是我们已知的一个参考值； $S$ 为样本标准差，它衡量了样本数据的离散程度，标准差越大，说明样本数据越分散； $n$ 是样本量，即样本中包含的数据个数。
案例：某工厂生产螺丝，标准长度为 5cm。随机抽取 25 个螺丝，测得平均长度 5.2cm，标准差 0.5cm。需判断产品是否符合标准（显著性水平α = 0.05）。
- 步骤：
  - 建立假设：原假设（ $H_0$ ）设定为螺丝的平均长度等于标准值，即μ = 5cm，这是我们默认的情况，认为生产的螺丝平均长度符合标准；备择假设（ $H_1$ ）为螺丝的平均长度不等于标准值，即μ ≠ 5cm，因为我们不确定实际平均长度是高于还是低于 5cm，所以采用双尾检验。
  - 计算 t 统计量：使用单样本 t 检验公式，先计算分母 $\sqrt{n} = 0.5 / \sqrt{25} = 0.1$ ，分子为 $5.2 - 5 = 0.2$ ，所以 t 值为 $t = 0.2/0.1 = 2.0$ 。
  - 确定自由度与临界值：自由度（df）根据公式 $n - 1$ 计算，这里 $n = 25$ ，所以 $df = 25 - 1 = 24$ 。给定显著性水平α = 0.05，因为是双尾检验，所以查 t 分布表得到双尾临界值 $t_{0.025, 24} = ±2.064$ 。
  - 统计决策：比较 t 值与临界值， $∣ t ∣ = 2.0 < 2.064$ ，这表明 t 值未超出拒绝域，所以我们不拒绝原假设（ $H_0$ ）。即从样本数据来看，没有足够的证据证明螺丝的平均长度与标准 5cm 存在显著差异。
  - 效应量分析（补充）：计算 Cohen’s d 以评估差异的实际意义，公式为 $\frac{|\bar{X} - \mu|}{S} = \frac{|5.2 - 5|}{0.5} = 0.4$ 。一般来说，效应量 d = 0.2 或更小被认为是小效应，d = 0.5 左右是中等效应，d = 0.8 或更大是大效应。这里 d = 0.4，属于小到中等效应，但统计检验未达显著，可能是因为样本量较小（n = 25）导致统计效力不足，即样本可能没有足够的代表性来检测出这种差异。

从输出结果可以看到，p 值 = 0.056 > 0.05，进一步支持了我们不拒绝 $H_0$ 的结论。

（二）独立样本 t 检验（Independent Samples t - test）

目的：独立样本 t 检验主要用于比较两组独立样本的均值差异。例如，在比较两种不同教学方法对学生成绩的影响时，将学生随机分为两组，分别采用不同的教学方法，然后通过独立样本 t 检验来判断两组学生的平均成绩是否存在显著差异。
公式（方差齐性时）： $\frac{\bar{X}_1 - \bar{X}_2}{\sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}}$ ，其中 $\bar{X}_1$ 和 $\bar{X}_2$ 分别是两组样本的均值； $S_p^2$ 是合并方差，它的计算公式为 $S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}$ ， $S_1^2$ 和 $S_2^2$ 分别是两组样本的方差， $n_1$ 和 $n_2$ 是两组样本的样本量。
案例：比较两种教学方法的效果，A 班（n = 30， $\bar{X}$ = 78，S = 5），B 班（n = 25， $\bar{X}$ = 75，S = 6）。
- 步骤：
  - 方差齐性检验（Levene 检验）：首先进行方差齐性检验，判断两组样本的方差是否相等。这里得到 p = 0.12 > 0.05，说明在给定的显著性水平下，我们没有足够的证据拒绝方差齐性的假设，即认为两组样本的方差是齐性的。
  - 计算合并方差：根据合并方差公式 $S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}$ ，将 $n_1 = 30$ ， $S_1 = 5$ ， $n_2 = 25$ ， $S_2 = 6$ 代入，可得 $S_p^2 = \frac{29 \times 5^2 + 24 \times 6^2}{53} \approx 30.5$ 。
  - 计算 t 值：将数据代入 t 统计量公式 $\frac{\bar{X}_1 - \bar{X}_2}{\sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}}$ ，得到 $\frac{78 - 75}{\sqrt{30.5 \times (\frac{1}{30} + \frac{1}{25})}} \approx 2.14$ 。
  - 自由度 df：自由度 $df = n_1 + n_2 - 2 = 30 + 25 - 2 = 53$ 。查 t 分布表，得到临界值≈2.005（α = 0.05 双尾）。
  - 结论：因为 $∣2.14∣ > 2.005$ ，所以拒绝原假设，认为教学方法 A 的效果更优。

（三）配对样本 t 检验（Paired Samples t - test）

目的：配对样本 t 检验主要用于对同一组对象在两次测量之间的差异进行检验。比如，在医学研究中，对同一组患者在服药前和服药后分别测量血压，通过配对样本 t 检验来判断药物是否对血压产生了显著影响；在心理学实验里，对同一组被试在接受某种训练前后进行能力测试，以检验训练是否有效。
公式： $\frac{\bar{d}}{S_d / \sqrt{n}}$ ，其中 $\bar{d}$ 是配对差值的均值，它是通过计算每一对数据的差值，然后求这些差值的平均值得到的； $S_d$ 是差值的标准差，用于衡量差值的离散程度； $n$ 是配对样本的数量。
案例：10 名患者服药前后血压变化（单位：mmHg），数据如下：
|患者|服药前|服药后|差值（d）|
| ---- | ---- | ---- | ---- |
|1|140|130|-10|
|2|138|132|-6|
|3|142|135|-7|
|4|136|128|-8|
|5|145|138|-7|
|6|134|126|-8|
|7|141|133|-8|
|8|139|131|-8|
|9|143|136|-7|
|10|135|128|-7|
- 计算：首先计算 $\bar{d}$ ，将差值相加再除以样本量， $\bar{d} = \frac{(-10) + (-6) + (-7) + (-8) + (-7) + (-8) + (-8) + (-8) + (-7) + (-7)}{10} = -8$ 。然后计算 $S_d$ ，经过计算 $S_d = 2.5$ ， $n = 10$ 。将这些值代入 t 统计量公式 $\frac{\bar{d}}{S_d / \sqrt{n}}$ ，可得 $\frac{-8}{2.5 / \sqrt{10}} \approx -10.12$ 。
- 自由度 df：自由度 $df = n - 1 = 10 - 1 = 9$ 。查 t 分布表，得到临界值 t(0.05, 9) = 2.262（双尾）。
- 结论：因为 $∣ t ∣ > 2.262$ ，所以拒绝原假设，认为药物显著降低了血压。

四、假设检验的步骤总结

提出假设：明确原假设（ $H_0$ ）与备择假设（ $H_1$ ）。原假设通常是我们希望去检验是否成立的一个默认假设，一般表示没有差异或某种关系不存在；备择假设则与原假设相反，是当原假设被拒绝时所接受的假设。
选择检验类型：根据研究问题的特点和数据的性质，选择合适的 t 检验类型，如单样本 t 检验、独立样本 t 检验或配对样本 t 检验。
验证前提条件：对于 t 检验，需要验证正态性和方差齐性（独立样本 t 检验时）。正态性检验可以使用 Shapiro - Wilk 检验（适用于 n < 50 的情况）或通过绘制 Q - Q 图来直观判断数据是否近似服从正态分布；方差齐性检验可以采用 Levene 检验等方法。
计算统计量：根据所选的检验类型和相应公式，计算 t 值。
确定自由度：按照不同检验类型对应的自由度计算公式，确定自由度。自由度在 t 分布中起着关键作用，它影响着临界值的确定。
查表/软件计算：通过查阅 t 分布表或使用统计软件计算，获取临界值或 p 值。临界值用于与计算得到的 t 值进行比较，以判断是否拒绝原假设；p 值则表示在原假设成立的情况下，得到当前样本数据或更极端数据的概率。
决策：如果计算得到的|t| > 临界值，或者 p < α（α 为显著性水平），则拒绝 $H_0$ ；否则，不拒绝 $H_0$ 。

五、单尾 vs 双尾检验的选择

（一）左尾检验

适用场景：左尾检验适用于验证是否“显著小于”的情况。例如，检验新工艺是否降低了废品率，原假设 $H_0$ 可以设定为μ ≥ 原废品率，备择假设 $H_1$ 为μ < 原废品率。
拒绝域位置：拒绝域位于 t 分布的左侧尾部，即 t < -临界值。
临界值示例（α = 0.05，df = 25）：当自由度 df = 25 时，查 t 分布表可得临界值为 t < -1.711。

（二）右尾检验

适用场景：右尾检验用于验证是否“显著大于”的情况。比如，验证培训是否提高了销售额，原假设 $H_0$ 可以是μ ≤ 原销售额，备择假设 $H_1$ 为μ > 原销售额。
拒绝域位置：拒绝域在 t 分布的右侧尾部，即 t > 临界值。
临界值示例（α = 0.05，df = 25）：当 df = 25 时，临界值为 t > 1.711。

（三）双尾检验

适用场景：双尾检验适用于验证是否“有差异”，但不设定差异方向的情况。例如，比较两种材料的强度是否不同，原假设 $H_0$ 为μ₁ = μ₂，备择假设 $H_1$ 为μ₁ ≠ μ₂。
拒绝域位置：拒绝域分布在 t 分布的两侧尾部，即|t| > 临界值。
临界值示例（α = 0.05，df = 25）：当 df = 25 时，临界值为|t| > 2.060。
好的，用户现在问的是t检验的三大类型以及它们的应用场景。之前用户已经详细讨论过t检验的各种类型、案例和效应量分析，所以这次需要更简洁明了地总结三大类型及其应用。我需要确保回答准确，同时避免重复之前的内容，但可能需要补充一些实际例子或常见场景，帮助用户更好理解。

首先，回顾用户的历史对话，用户已经学习了单样本、独立样本和配对样本t检验，并进行了案例分析和修正。现在用户希望有一个清晰的总结，说明这三种类型各自用在哪里。我需要确认每个类型的定义、公式、应用场景，并给出实际例子。

用户可能是在准备考试或者实际数据分析，需要快速区分何时使用哪种t检验。因此，回答需要结构清晰，每个类型分点说明，应用场景具体，例子贴近实际，方便记忆和应用。

需要注意的是，用户可能对独立样本和配对样本的区别还不够清楚，或者容易混淆，所以需要强调配对样本的特点，如同一组被试前后测量，而独立样本是两组不同的被试。

另外，可能需要提到每个检验的前提条件，比如正态性和方差齐性，但用户的问题主要是应用场景，所以可以简要带过，重点在用途。

最后，确保语言简洁，使用列表或表格形式，便于用户快速获取信息。可能需要用Markdown整理，但用户要求避免使用，所以用自然语言分点描述。

t检验的三大类型及应用场景

1. 单样本t检验（One-Sample t-test）

定义：检验单个样本均值是否与已知总体均值存在显著差异。
公式：
$\frac{\bar{X} - \mu}{S / \sqrt{n}}$
- $\bar{X}$ ：样本均值
- $\mu$ ：总体均值（理论值或标准值）
- $S$ ：样本标准差
- $n$ ：样本量
应用场景：
- 判断产品是否符合质量标准（如零件长度是否等于标准值）。
- 验证学生成绩是否显著高于/低于全国平均分。
- 评估新工艺的某项指标（如能耗）是否达到行业基准。

示例：
某品牌手机电池宣称续航为20小时。随机抽取30块电池测试，平均续航19.5小时，标准差1.2小时。用单样本t检验判断实际续航是否符合宣传（ $\mu=20$ ）。

2. 独立样本t检验（Independent Samples t-test）

定义：比较两组独立样本的均值差异，判断两总体均值是否相等。
公式（方差齐性时）：
$\frac{\bar{X}_1 - \bar{X}_2}{\sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}}$
- $S_p^2$ ：合并方差
  $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$
应用场景：
- 比较两种教学方法对学生成绩的影响（实验组 vs 对照组）。
- 分析不同品牌产品的性能差异（如手机运行速度、油耗）。
- 研究性别、地区等分组变量对收入、健康指标的影响。

示例：
A公司（50名员工，平均月薪8000元，标准差1200）与B公司（45名员工，平均月薪7500元，标准差1000）。用独立样本t检验判断两公司薪资水平是否有显著差异。

3. 配对样本t检验（Paired Samples t-test）

定义：比较同一组对象在两种条件下的差异（如前后测量、配对实验）。
公式：
$\frac{\bar{d}}{S_d / \sqrt{n}}$
- $\bar{d}$ ：配对差值的均值（如后测 - 前测）
- $S_d$ ：差值的标准差
- $n$ ：配对样本量
应用场景：
- 评估培训课程效果（同一批员工培训前后的技能测试）。
- 比较药物疗效（患者服药前后血压变化）。
- 分析同一产品在不同环境下的性能差异（如温度对电池寿命的影响）。

示例：
10名运动员进行为期4周的耐力训练，训练前后最大摄氧量（VO₂max）数据如下：

运动员	前测	后测	差值（d）
1	45	48	+3
…	…	…	…
10	50	53	+3
计算平均差值 $\bar{d}=2.8$ ，标准差 $S_d=1.2$ ，检验训练是否显著提升VO₂max。

三大类型对比总结

检验类型	核心问题	数据特点	典型场景
单样本t检验	样本均值 vs 已知总体均值	单组数据，有理论值或标准值	质量控制、标准验证
独立样本t检验	两组独立样本的均值差异	两组无关联数据	A/B测试、分组对比研究
配对样本t检验	同一组对象的两次测量差异	配对数据（前后测、配对实验）	治疗效果评估、重复测量实验分析

关键区别

独立样本 vs 配对样本：
- 独立样本：两组数据来自不同个体（如男女、AB产品用户）。
- 配对样本：同一组个体在不同条件下的数据（如服药前后、实验条件A和B）。
是否需要方差齐性：
- 独立样本t检验需方差齐性（若不满足，用Welch校正）。
- 配对样本t检验无需方差齐性（因比较的是差值）。

实际应用建议

实验设计阶段：
- 若需控制个体差异（如患者基础健康水平），优先选择配对设计。
- 若分组天然独立（如不同品牌用户），选择独立样本t检验。
数据分析阶段：
- 检查正态性（小样本时重要）和方差齐性（独立样本）。
- 若数据严重偏离正态分布，改用非参数检验（如Mann-Whitney U检验）。
结果报告：
- 需同时报告**t值、自由度、p值、效应量（Cohen’s d）**和置信区间。
- 示例：
  
  “独立样本t检验显示，A组得分显著高于B组，t(58)=2.34, p=0.023, d=0.61, 95%CI [0.12, 1.10]。”

掌握这三种t检验类型，您能覆盖大多数均值差异分析场景，从产品质量控制到医学研究均可灵活应用！

t 检验的数据要求与验证方法

一、核心前提条件

t 检验的有效性依赖于以下假设，需在分析前逐一验证：

1. 正态性（Normality）

要求：数据应近似服从正态分布。
重要性：
- 小样本（n < 30）：严格依赖正态性，轻微偏离可能导致错误结论。
- 大样本（n ≥ 30）：中心极限定理使均值近似正态，可放宽要求。
验证方法：
- Shapiro - Wilk 检验：适用于小样本（n < 50）。

from scipy.stats import shapiro
data = [120, 115, 130, 125, 118, 122, 128, 135, 140, 132]
stat, p = shapiro(data)
print(f"统计量: {stat}, p 值: {p}")
if p > 0.05:print("接受正态性")
else:print("拒绝正态性")

Q - Q 图：观察数据点是否贴近参考线。

import numpy as np
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import qqplotdata = [120, 115, 130, 125, 118, 122, 128, 135, 140, 132]
qqplot(np.array(data), line='s')
plt.show()

示例：检验 10 名患者血压数据是否正态分布：

data = [120, 115, 130, 125, 118, 122, 128, 135, 140, 132]
stat, p = shapiro(data)
print(f"统计量: {stat}, p 值: {p}")
if p > 0.05:print("接受正态性")
else:print("拒绝正态性")

2. 方差齐性（Homogeneity of Variance，仅独立样本 t 检验）

要求：两组独立样本的方差相等。
验证方法：
- Levene 检验：

from scipy.stats import levene
import pandas as pd# 示例数据
group_a = [10, 12, 14, 16, 18]
group_b = [8, 10, 12, 14, 16]
data = pd.DataFrame({'value': group_a + group_b,'group': ['A'] * len(group_a) + ['B'] * len(group_b)
})
stat, p = levene(data[data['group'] == 'A']['value'], data[data['group'] == 'B']['value'])
print(f"统计量: {stat}, p 值: {p}")
if p > 0.05:print("方差齐性")
else:print("方差不齐性")

经验法则：若最大组方差 / 最小组方差 < 4，可近似认为方差齐。

示例：比较 A 组（n = 20，S² = 25）与 B 组（n = 25，S² = 36）的方差齐性：

import numpy as np
from scipy.stats import levenegroup_a = np.random.normal(50, 5, 20)
group_b = np.random.normal(50, 6, 25)
stat, p = levene(group_a, group_b)
print(f"统计量: {stat}, p 值: {p}")
if p > 0.05:print("方差齐性")
else:print("方差不齐性")

3. 独立性（Independence）

要求：
- 独立样本 t 检验：两组数据来自不同个体，无关联。
- 配对样本 t 检验：配对间独立（如不同患者的两次测量独立）。
验证方法：实验设计阶段控制（如随机分组、避免重复测量干扰）。

4. 数据类型

要求：因变量为连续变量（如身高、成绩、时间）。
错误示例：分类数据（如性别、品牌类型）→ 需用卡方检验或 Logistic 回归。

二、不同类型 t 检验的特殊要求

检验类型	额外要求	验证方法
单样本 t 检验	无	仅需验证正态性
独立样本 t 检验	方差齐性	Levene 检验
配对样本 t 检验	配对数据为同一组对象两次测量	检查配对逻辑（如 ID 匹配）

三、前提条件不满足时的解决方案

1. 非正态数据

小样本：
- 数据转换：对数转换（log）、平方根转换（√x）。

import numpy as np
data = [20, 25, 30, 35, 40, 50, 60, 70, 80, 100, 120, 150, 200, 250, 300]
transformed_data = np.log(data)

非参数检验：单样本 Wilcoxon 检验（代替单样本 t 检验）、Mann - Whitney U 检验（代替独立样本 t 检验）。

from scipy.stats import wilcoxon, mannwhitneyu# 单样本 Wilcoxon 检验示例
data = [10, 12, 14, 16, 18]
stat, p = wilcoxon(data)
print(f"统计量: {stat}, p 值: {p}")# Mann - Whitney U 检验示例
group_a = [10, 12, 14, 16, 18]
group_b = [8, 10, 12, 14, 16]
stat, p = mannwhitneyu(group_a, group_b)
print(f"统计量: {stat}, p 值: {p}")

大样本：t 检验对非正态性稳健，可直接使用。

示例：右偏收入数据（n = 25）→ 对数转换后验证正态性。

data = [20, 25, 30, 35, 40, 50, 60, 70, 80, 100, 120, 150, 200, 250, 300]
transformed_data = np.log(data)
stat, p = shapiro(transformed_data)
print(f"统计量: {stat}, p 值: {p}")
if p > 0.05:print("对数转换后满足正态性")
else:print("对数转换后不满足正态性")

2. 方差不齐（独立样本 t 检验）

Welch 校正 t 检验：无需方差齐性，自动调整自由度。

from scipy.stats import ttest_indgroup_a = [10, 12, 14, 16, 18]
group_b = [8, 10, 12, 14, 16]
stat, p = ttest_ind(group_a, group_b, equal_var=False)
print(f"统计量: {stat}, p 值: {p}")

效果：更保守的 p 值，避免假阳性。

示例：A 组（n = 15，S = 10）vs B 组（n = 20，S = 25）→ Welch 检验结果更可靠。

import numpy as np
from scipy.stats import ttest_indgroup_a = np.random.normal(50, 10, 15)
group_b = np.random.normal(50, 25, 20)
stat, p = ttest_ind(group_a, group_b, equal_var=False)
print(f"统计量: {stat}, p 值: {p}")

3. 非独立数据

重复测量设计：改用混合效应模型（Mixed Model）或广义估计方程（GEE）。
聚类数据：使用多水平模型（Multilevel Model）。

四、实际应用建议

分析流程：检查正态性 → 若独立样本，检查方差齐性 → 选择合适检验方法。
报告规范：注明是否满足前提条件及处理方法（如“使用 Welch 校正”）。
结合效应量：即使 p 值显著，也需报告 Cohen’s d，避免过度依赖统计显著性。

五、常见误区

误区 1：只要 p < 0.05，无需检查前提条件。
正解：p 值有效性依赖前提条件，忽略检验可能导致错误结论。
误区 2：t 检验只能用于小样本。
正解：t 检验适用于任何样本量，大样本时更接近 z 检验。
误区 3：配对样本 t 检验可替代独立样本 t 检验。
正解：两者设计不同，误用会导致伪相关（如将无关个体强行配对）。

总结

t 检验要求数据满足正态性、独立性，独立样本还需方差齐性。通过 Shapiro - Wilk 检验和 Levene 检验验证后，若条件不满足，可选用数据转换、Welch 校正或非参数方法。始终结合效应量和置信区间，全面解读结果。