卡方检验是一种统计方法,用于检验两个分类变量之间是否存在关联。以下是卡方检验的基本步骤和计算公式:
步骤:
构建列联表:
将两个分类变量交叉组合,形成一个列联表。
计算期望频数:
基于列联表中的行和列的边际频数以及总样本量,计算出期望频数。
计算卡方值:
将观察频数与期望频数的差异平方后除以期望频数,然后对所有类别求和得到卡方值。
计算自由度:
自由度等于(行数-1)×(列数-1)。
查找临界值:
根据所选的显著性水平和自由度,在卡方分布表中查找临界值。
比较卡方值和临界值:
如果卡方值大于临界值,则拒绝原假设,认为两个变量之间存在显著性关系。
卡方值计算公式:
χ² = Σ[(Oi - Ei)^2 / Ei]
其中:
`Oi` 是实际观察频数。
`Ei` 是期望频数,计算公式为 `Ei = (Ai×Bi) / n`,其中 `Ai` 是第 `i` 行的总计数,`Bi` 是第 `i` 列的总计数,`n` 是总样本数。
自由度计算公式:
df = (行数 - 1) × (列数 - 1)
示例:
假设有一个2×2的列联表,数据如下:
| 性别 | 喜欢 | 不喜欢 | 总计 |
| --- | --- | --- | --- |
| 男 | 20 | 30 | 50 |
| 女 | 40 | 10 | 50 |
计算期望频数 `Ei`:
Ei = (20×50 + 40×50) / 100 = 35
然后计算卡方值 `χ²`:
χ² = [(20-35)^2 / 35] + [(30-35)^2 / 35] = [(-15)^2 / 35] + [(-5)^2 / 35] = [225 / 35] + [25 / 35] ≈ 6.43 + 0.71 ≈ 7.14
以上步骤和公式可以帮助你进行卡方检验的计算。