分段回归

来自维基百科,自由的百科全书

分段回归

分段回归是一种回归分析方法,将自变量划为若干区间,并分别拟合出单独的线段。通过对各种自变量分区,也可以对多元数据进行分区回归分析。自变量聚类为不同组别时,这些区域的变量之间会表现出不同的关系,这时分段回归就非常有用。分段之间的界限就是间断点。

分段线性回归就是分段回归,通过线性回归得到区间内的关系。

2段线性回归

Thumb
第一段水平
Thumb
第一段上升
Thumb
第一段下降

分2段线性回归的段间有1个间断点,可用来量化影响因素(x)变化的响应函数(Yr)的突然变化。间断点可解释为临界值、安全值或阈值,过该值会产生(非)预期效果。间断点对决策非常重要。[1]

这些图表说明了可获得的一些结果和回归类型。

分段回归分析基于一组( y, x )数据,其中y是因变量,x是自变量。

最小二乘法分别适用于每个分段,通过这种方法,两条回归线可以分别拟合数据集,同时使因变量观测值(y)与计算值(Yr)之间的差值平方和(SSD)最小化:

  • Yr = A1.x + K1     其中x < BP(间断点)
  • Yr = A2.x + K2     其中x > BP(间断点)

其中

Yr是一定值x下y的期望(预测)值;
A1、A2回归系数(表示线段斜率);
K1、K2是回归常数(表示y轴截距)。

数据可能显示多种类型或趋势,[2]见图。

该方法还能得到2个相关系数(R):

  •     其中x < BP(间断点)

  •     其中x > BP(间断点)

其中

是每段的最小化SSD

,而

Ya1Ya2是各自区间y的均值。

在确定最合适的趋势时,必须进行统计检验,以确保趋势可靠(显著)。

如果无法检测到明显的断点,则必须采用无断点回归。

例子

Thumb
分段线性回归,3b型

右边的蓝色图给出了芥菜产量(Yr = Ym, t/ha)和土壤盐化x = Ss,用土壤溶液导电率EC表示,单位为dS/m)之间的关系:[3]

BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035(不显著), R22 = 0.395(显著),以及:

  • Ym = 1.74 t/ha                        对于Ss < 4.93(断点)
  • Ym = −0.129 Ss + 2.38 t/ha     对于Ss > 4.93(断点)

表明土壤盐度< 4.93 dS/m是安全的,而土壤盐度> 4.93 dS/m则会使土壤盐度每增加一个单位减产0.129 t/ha。

下图还显示了置信区间和不确定性。

测试程序

Thumb
时间序列实例,5型
Thumb
ANOVA表示例:本例中引入断点非常重要。

以下统计检验用于确定趋势类型:

  1. 将BP表示为回归系数A1、A2与y数据均值Y1、Y2,以及x数据均值X1、X2(BP的左右),利用加法和乘法的误差传播规律计算BP的标准差(SE),并应用T检验,从而确定断点(BP)的显著性
  2. 应用T分布和A1、A2的标准差SE,检验A1、A2的显著性
  3. 利用A1、A2差的SE,采用T分布检验差的显著性
  4. 利用Y1、Y2差的SE,运用T分布检验差的显著性
  5. 检验是否有断点的一种更正式的统计方法是伪分数检验,无需估计分段线。[4]

此外,还使用了所有数据的相关系数(Ra)、决定系数或解释系数、回归函数的信赖区间ANOVA分析。[5] 在显著性检验设定的条件下,所有数据的决定系数(Cd)应达到最大值,其计算公式为

其中Yr是根据前回归方程得出的y的预期(预测)值,Ya是所有y值的均值。

Cd系数介于0(完全没有解释)和1(完全解释,完全匹配)之间。
在纯粹的非分段线性回归中,Cd=Ra2。在分段回归中,Cd要明显大于Ra2才能证明分段的合理性。

可找到断点的最优值,使Cd系数得极大值

无效应范围

Thumb
X=0到X=7.85之间没有影响的范围

分段回归常用于检测解释变量(X)对因变量(Y)无效应的范围。 无效应范围可能在X域的前部,也可能在后部。对于“无效应”分析,应用最小二乘法进行分段回归分析[6]可能不是最合适的技术,因为其目的是找到Y-X关系可被视为零斜率的最长延伸段,在之外,斜率与零有显著差异,但有关该斜率最佳值的知识并不重要。找到无效应范围的方法是对该范围进行渐进式部分回归[7],小步扩展范围,直到回归系数与零有显著差异。

在下图中,X=7.9时找到了断点,而对于相同的数据(芥菜产量见上图蓝色部分),最小二乘法仅在X=4.9时得到断点。后者的值较低,但对间断点以外数据的拟合效果更好。因此,采用哪种方法取决于分析的目的。

另见

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.