统计学里,“Phi相关系数”(英语:Phi coefficient)(符号表示为:)是测量两个二元变量(英语:binary variables or dichotomous variables)之间相关性的工具,由卡尔·皮尔逊所发明 [1]。他也发明了与Phi相关系数有密切关联的皮尔逊卡方检验(英语:Pearson's chi-squared test。一般所称的卡方检验,若未明指种类,即指此),以及发明了测量两个连续变量之间相关程度的皮尔逊积差相关系数(英语:Pearson's r。一般所称的相关系数,若未明指种类,即指此)。

Phi 相关系数机器学习的领域又称为Matthews相关系数英语Matthews correlation coefficient

定义

首先将两个变量排成2×2列联表英语contingency table,注意 1 和 0 的位置必须如同下表,若只变动 X 或只变动 Y 的 0/1 位置,计算出来的Phi相关系数会正负号相反。Phi相关系数的基本概念是:两个二元变量的观察值若大多落在2×2列联表的“主对角线”(英语:diagonal:左上-右下线)栏位,亦即若观察值大多为 这两种组合,则这两个变量呈正相关。反之,若两个二元变量的观察值大多落在“非对角线”(英语:off-diagonal:主对角线以外的位置)栏位,对应于2×2列联表,亦即若观察值大多为 这两种组合,则这两个变量呈负相关。例如我们从两个随机二元变量(X, Y)抽样得出这样的2×2列联表:

More information , ...
y = 1 y = 0 总计
x = 1
x = 0
总计
Close

其中 n11, n10, n01, n00都是非负数的栏位计次值,它们加总为 ,亦即观察值的个数。由上面的表格可以得出 X 和 Y 的 Phi相关系数如下:

实例

研究者欲观察性别与惯用手的相关性。零假设是:性别与惯用手无相关性。观察对象是随机抽样出来的个人,身上有两个二元变量(性别 X ,惯用手 Y),X 有两种结果值(男=1/女=0),Y也有两种结果值(右撇子=1/左撇子=0)。

观察两个二元变量的相关性可以使用Phi相关系数。假设简单随机抽样100人,得出如下的2×2列联表:

More information 男=1, 女=0 ...
男=1 女=0 总计
右=1 43 44 87
左=0 9 4 13
总计 52 48 100
Close

本例的Phi相关系数:

本处暂不介绍Phi相关系数的显著性检验,仅简介其诠释:假设−0.133的相关系数检验为显著,在本例对变量 1/0 的指定下,代表身为男性与身为右撇子有轻微的负相关,也就是男性右撇子的比例略低于女性右撇子的比例;或者反过来说,男性左撇子的比例略高于女性左撇子的比例。

与Pearson相关系数的异同

“Phi相关系数”与“Pearson相关系数”在诠释上非常类似;事实上,使用Pearson相关系数来计算两个二元变量(各输入成1/0)之间的相关性时,就会得出Phi相关系数[2]

尽管Phi相关系数只是把Pearson相关系数简化为两个二元变量的情况,但诠释这两种相关系数时仍必须注意其差别。Pearson相关系数的值从−1 到 +1,±1 是其两个端点,指出完全正相关与完全负相关,0则是无相关。Phi相关系数的极值则受到两个变量各别的二元结果比例所影响,当两个变量的二元结果都是50:50时,Phi值才会从−1 到 +1。[3]

与Pearson卡方统计值的关系

一个2×2列联表英语contingency table卡方统计值),与Phi相关系数呈下述关系[4]

其中 是观察值的个数。

亦参见

注脚

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.