對於X和Y兩個隨機變數(random variables),要判斷二者是否有線性關係,可以使用:
1. Covariance 共變異數
2. Correlation Coefficient 相關係數
Covariance 共變異數
對於一個母體的共變異數可表示為σXY = cov(X, Y)
維基百科的圖很清楚地說明,cov(X, Y) > 0 時為正相關,cov(X, Y) < 0時為負相關
cov(X, Y) = E { [X - E(X)] [Y - E(Y)] } = E [ (X - μX) (Y - μX) ] = E(XY) - μXμY
對於散佈圖(Scater Plot)上的點來說,每個點是成對的座標值(xi, yi)
X的變異數是Σ(Xi -μX)2/N,Y的變異數則是Σ(Yi -μY)2/N
因此,X和Y的共變異數是Σ(Xi -μX)(Yi -μY)/N
換句話說,共變異數是每個點的X座標Xi與平均值μX的差,乘以每個點的Y座標Yi與平均值μY的差,相乘後每個點得到一個乘積,再將這N個積加總,最後除以N
===
母體相關係數
ρXY = cov(X, Y)/σXσY = σXY/σXσY
X和Y的相關係數是二者的共變異數除以二者標準差的積σXσY
參考資料
Covariance (Wikipedia) / 共變異數 (維基百科)
統計學:觀念、理論與方法(二版),賀力行、林淑萍、蔡明春,前程企業,民90,43-47頁