线性回归方程长啥样
最简单的线性回归方程就是 y = ax + b,其中a是斜率,b是截距。这个大家应该都不陌生,初中就学过。
但是在统计学里,线性回归方程一般写成 ŷ = β₀ + β₁x,其中ŷ是预测值,β₀是截距,β₁是斜率。注意这里用的是β而不是a和b,因为β表示的是总体参数,而我们实际计算出来的是样本估计值,一般用b₀和b₁表示。
斜率和截距怎么算
给定n个数据点 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ),斜率b₁的公式是:
b₁ = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)²
其中x̄和ȳ分别是x和y的平均值。
截距b₀的公式就简单了:
b₀ = ȳ - b₁x̄
说白了就是让回归线通过数据的中心点 (x̄, ȳ)。
R²怎么算
R²(决定系数)衡量的是回归方程对数据变异的解释程度,公式是:
R² = 1 - SS_res / SS_tot
其中SS_res是残差平方和 Σ(yi - ŷi)²,SS_tot是总平方和 Σ(yi - ȳ)²。
R²越接近1说明拟合越好,但也不是越高越好。如果R²=1那反而要小心,可能是过拟合了。
标准误差和置信区间
光有回归方程还不够,还得知道估计的精度。标准误差的计算公式是:
s = √(SS_res / (n-2))
分母是n-2而不是n,因为估计了两个参数(斜率和截距),损失了2个自由度。
斜率的置信区间大概是 b₁ ± t * SE(b₁),其中t是t分布的临界值,SE(b₁)是斜率的标准误差。如果你的样本量比较大(>30),t值可以用1.96近似(95%置信水平)。
用手机快速计算
这些公式手算起来挺麻烦的,特别是数据多的时候。用曲线拟合App可以直接算出来,输入数据选线性拟合,方程、R²、标准误差这些结果全都有,几秒钟搞定。