Remove ads
来自维基百科,自由的百科全书
分段回归是一种回归分析方法,将自变量划为若干区间,并分别拟合出单独的线段。通过对各种自变量分区,也可以对多元数据进行分区回归分析。自变量聚类为不同组别时,这些区域的变量之间会表现出不同的关系,这时分段回归就非常有用。分段之间的界限就是间断点。
分段线性回归就是分段回归,通过线性回归得到区间内的关系。
分2段线性回归的段间有1个间断点,可用来量化影响因素(x)变化的响应函数(Yr)的突然变化。间断点可解释为临界值、安全值或阈值,过该值会产生(非)预期效果。间断点对决策非常重要。[1]
这些图表说明了可获得的一些结果和回归类型。
分段回归分析基于一组( y, x )数据,其中y是因变量,x是自变量。
最小二乘法分别适用于每个分段,通过这种方法,两条回归线可以分别拟合数据集,同时使因变量观测值(y)与计算值(Yr)之间的差值平方和(SSD)最小化:
其中
数据可能显示多种类型或趋势,[2]见图。
该方法还能得到2个相关系数(R):
及
其中
,而
在确定最合适的趋势时,必须进行统计检验,以确保趋势可靠(显著)。
如果无法检测到明显的断点,则必须采用无断点回归。
右边的蓝色图给出了芥菜产量(Yr = Ym, t/ha)和土壤盐化(x = Ss,用土壤溶液导电率EC表示,单位为dS/m)之间的关系:[3]
BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035(不显著), R22 = 0.395(显著),以及:
表明土壤盐度< 4.93 dS/m是安全的,而土壤盐度> 4.93 dS/m则会使土壤盐度每增加一个单位减产0.129 t/ha。
下图还显示了置信区间和不确定性。
以下统计检验用于确定趋势类型:
此外,还使用了所有数据的相关系数(Ra)、决定系数或解释系数、回归函数的信赖区间及ANOVA分析。[5] 在显著性检验设定的条件下,所有数据的决定系数(Cd)应达到最大值,其计算公式为
其中Yr是根据前回归方程得出的y的预期(预测)值,Ya是所有y值的均值。
Cd系数介于0(完全没有解释)和1(完全解释,完全匹配)之间。
在纯粹的非分段线性回归中,Cd=Ra2。在分段回归中,Cd要明显大于Ra2才能证明分段的合理性。
分段回归常用于检测解释变量(X)对因变量(Y)无效应的范围。 无效应范围可能在X域的前部,也可能在后部。对于“无效应”分析,应用最小二乘法进行分段回归分析[6]可能不是最合适的技术,因为其目的是找到Y-X关系可被视为零斜率的最长延伸段,在之外,斜率与零有显著差异,但有关该斜率最佳值的知识并不重要。找到无效应范围的方法是对该范围进行渐进式部分回归[7],小步扩展范围,直到回归系数与零有显著差异。
在下图中,X=7.9时找到了断点,而对于相同的数据(芥菜产量见上图蓝色部分),最小二乘法仅在X=4.9时得到断点。后者的值较低,但对间断点以外数据的拟合效果更好。因此,采用哪种方法取决于分析的目的。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.