线性回归方程的公式详解

线性回归方程长啥样

最简单的线性回归方程就是 y = ax + b,其中a是斜率,b是截距。这个大家应该都不陌生,初中就学过。

但是在统计学里,线性回归方程一般写成 ŷ = β₀ + β₁x,其中ŷ是预测值,β₀是截距,β₁是斜率。注意这里用的是β而不是a和b,因为β表示的是总体参数,而我们实际计算出来的是样本估计值,一般用b₀和b₁表示。

斜率和截距怎么算

给定n个数据点 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ),斜率b₁的公式是:

b₁ = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)²

其中x̄和ȳ分别是x和y的平均值。

截距b₀的公式就简单了:

b₀ = ȳ - b₁x̄

说白了就是让回归线通过数据的中心点 (x̄, ȳ)。

R²怎么算

R²(决定系数)衡量的是回归方程对数据变异的解释程度,公式是:

R² = 1 - SS_res / SS_tot

其中SS_res是残差平方和 Σ(yi - ŷi)²,SS_tot是总平方和 Σ(yi - ȳ)²。

R²越接近1说明拟合越好,但也不是越高越好。如果R²=1那反而要小心,可能是过拟合了。

标准误差和置信区间

光有回归方程还不够,还得知道估计的精度。标准误差的计算公式是:

s = √(SS_res / (n-2))

分母是n-2而不是n,因为估计了两个参数(斜率和截距),损失了2个自由度。

斜率的置信区间大概是 b₁ ± t * SE(b₁),其中t是t分布的临界值,SE(b₁)是斜率的标准误差。如果你的样本量比较大(>30),t值可以用1.96近似(95%置信水平)。

用手机快速计算

这些公式手算起来挺麻烦的,特别是数据多的时候。用曲线拟合App可以直接算出来,输入数据选线性拟合,方程、R²、标准误差这些结果全都有,几秒钟搞定。