Loading AI tools
来自维基百科,自由的百科全书
在统计学中,典型相关分析(英语:Canonical Correlation Analysis)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 并且它们是相关的,那么典型相关分析会找出 Xi 和 Yj 的相互相关最大的线性组合。[1]T·R·Knapp指出“几乎所有常见的参数测试的意义可视为特殊情况的典型相关分析,这是研究两组变量之间关系的一般步骤。”[2] 这个方法在1936年由哈罗德·霍特林首次引入。[3]
给定两个随机向量和,我们可以定义互协方差矩阵 为 的矩阵,其中 是协方差 。实际上,我们可以基于 和 的采样数据来估计协方差矩阵。(如从一对数据矩阵)。
典型相关分析求出向量 和 使得随机变量 和 的相关性 最大。随机变量 和 是 第一对典型变量。然后寻求一个依然最大化相关但与第一对典型变量不相关的向量;这样就得到了 第二对典型变量。 这个步骤会进行 次。
设 和 。需要最大化的参数为
第一步是定义一个基变更以及
因此我们有
根据柯西-施瓦茨不等式,我们有
如果向量 和 共线,那么上式相等。此外,如果 是矩阵 (见Rayleigh quotient) 最大特征值对应的特征向量,那么就可以得到相关的最大值。随后的典型变量对可以通过减少特征值的量级来得到。正交性保证了相关矩阵的对称性。
因此解法是:
相反地,也有:
把坐标反过来,我们有
那么相关变量定义为:
每一行可以用下面的方法检测其重要性。由于相关是排好序的,也就是说行 为 0 意味着所有后续的相关都为 0。如果我们在一个样本中有 个独立观测,对 , 是其估计相关。对第 行,测试统计为:
上面渐近为一个对大 有 个自由度的卡方分布。[6] 由于所有从 到 的相关从逻辑上来说都是 0,所以在这一点之后的乘积都是不相关的。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.