残差(Residual)是指在回归分析中,实际观察值与模型预测值(拟合值)之间的差。计算残差的步骤如下:
确定数据:
首先有一组观测数据,记为 \( y_1, y_2, \ldots, y_n \)。
建立模型:
设计一个模型来描述这些数据,假设模型为 \( y = f(x) \)。
计算预测值:
对于每个观测值 \( y_i \),使用模型计算其对应的预测值 \( \hat{y}_i \)。
计算残差:
残差 \( e_i \) 是观测值 \( y_i \) 与预测值 \( \hat{y}_i \) 之间的差异,即 \( e_i = y_i - \hat{y}_i \)。
分析残差:
通过分析残差,可以评估模型的拟合效果和数据的可靠性。
如果模型正确,残差通常假设为正态分布 \( N(0, \sigma^2) \),其中 \( \sigma^2 \) 是残差的标准差。标准化残差是残差除以其标准差,通常表示为 \( z \) 或 \( \hat{z} \),它遵循标准正态分布 \( N(0, 1) \)。
需要注意的是,残差分析是统计推断的重要组成部分,它可以帮助我们理解模型是否充分捕捉了数据中的信息,以及是否存在系统性的偏差或误差。