2021/12/31

Statistics: Covariance 共變異數

對於X和Y兩個隨機變數(random variables),要判斷二者是否有線性關係,可以使用:

1. Covariance 共變異數

2. Correlation Coefficient 相關係數

Covariance 共變異數

對於一個母體的共變異數可表示為σXY = cov(X, Y)

維基百科的圖很清楚地說明,cov(X, Y) > 0 時為正相關,cov(X, Y) < 0時為負相關

cov(X, Y) = E { [X - E(X)] [Y - E(Y)] } = E [ (X - μX) (Y - μX) ] = E(XY) - μXμY

對於散佈圖(Scater Plot)上的點來說,每個點是成對的座標值(xi, yi)

X的變異數是Σ(Xi -μX)2/N,Y的變異數則是Σ(Yi -μY)2/N

因此,X和Y的共變異數是Σ(Xi -μX)(Yi -μY)/N

換句話說,共變異數是每個點的X座標Xi與平均值μX的差,乘以每個點的Y座標Yi與平均值μY的差,相乘後每個點得到一個乘積,再將這N個積加總,最後除以N

===

母體相關係數

ρXY = cov(X, Y)/σXσ= σXYXσY

X和Y的相關係數是二者的共變異數除以二者標準差的積σXσY

參考資料

Covariance (Wikipedia) / 共變異數 (維基百科)

統計學:觀念、理論與方法(二版),賀力行、林淑萍、蔡明春,前程企業,民90,43-47頁

2021/7/16

Tukey, Software, Bit, and FFT

John Tukey (1915-2000)

約翰‧圖基(杜凱)是知名的數學家,在使用統計學的ANOVA(變異數分析)時,很常會用到Tukey post hoc test (事後檢定)。

John Tukey.jpg

在統計學領域,Tukey有許多貢獻,例如盒狀圖(box plot),或稱為盒鬚圖(box-and-whisker plot)。

Box-Plot mit Min-Max Abstand.png

https://en.wikipedia.org/wiki/Box_plot


除了統計學,Tukey還有許多特別的貢獻,例如他發明了資訊方面的新字「Software」(軟體)和「bit」(位元)。

此外,對於訊號處理領域知名的快速傅利葉轉換(Fast Fourier Transform, FFT)來說,Tukey和庫利(James William Cooley, 1926-2016)一起提出了Cooley-Tukey FFT algorithm,是一大貢獻。

統計學家可以與不同領域的學者交流,透過花時間溝通與了解,幫助他們解決統計方面的問題,因此Tukey有一句名言

"The best thing about being a statistician is that you get to play in everyone’s backyard."
作為一名統計學家最棒的一件事,就是你可以去每個人的後院玩耍。

參考資料:

John Wilder Tukey 1973 | National Medal of Science - Mathematics And Computer Science

2021/7/12

Statistics 這個英文字不只是統計學?也是統計量!

談到統計學,對應的英文字自然是Statistics。如果你與我一樣,在讀英文的統計學時讀到Statistics這個字,可是從上下文看來,它指的不是學科、不是統計學這個領域,然後百思不得其解🙄

恭喜你發現英文世界的奧妙!😄 Statistics不只是統計學!

STATISTICS 也可以是統計量!

哇,這樣不是很容易搞混意思嗎?沒錯!所以看英文時要掌握文章脈絡(context,上下文),特別是單複數型態。

先從單數型態來看,statistic這個字是一個統計量(統計值),是可數的,因此它不只可以是一個,也可以是兩個、三個、多個,所以在複數型態時要加上s,因此,就變成了statistics,表示兩個以上的統計量!

所以,單數的statistic前面要加a表示一個,而文法上是單數型態,而statistics則數複數型態,例如:

A statistic is a random variable. (一個統計量是一個隨機變數)

Properties of statistics include completeness, consistency, sufficiency, ... (統計量的屬性包括了完備性、一致性、充分性...) (改自Wikipedia)

回到統計學的部分,就如同其他學科,後面接的字是第三人稱單數型態的be動詞或動詞(加s),例如:

Statistics is a science of analysis (統計學是分析的科學)
Statistics deals with data. (統計學處理著資料)

所以,statistic是只統計量,而statstics除了看上下文,只要清楚句子中的動詞,複數的話就是指好幾個統就量,單數的話通常是指統計學,如此一來,這兩種中文的意思就不難分辨囉!

最後稍微介紹一下統計量,由於統計量是用在統計而不是普查,因此不是直接用在母體(population),而是用在樣本。根據維基百科,統計量就是樣本統計量(sample statistic)

舉例來說,樣本平均數x̅,就是一個統計量。

關於統計量的更多介紹,未來有機會再整理,這個分享就先到這邊囉~

References:

Statistic (Wikipedia)

Basic Statistical Terms 統計學基本名詞 (StudyBME)

2021/3/11

Taxonomic rank 生物分類階元

小時候讀過「界門綱目科屬種」,是林奈體系(Linnaeu's System)的生物分類法(Taxonomic rank),對照英文,原來是這樣:

界 (Kingdom)
門(動物 Phylum/ 植物 Division)
綱(Class)
目(Order)
科(Family)
屬(Genus)
種(Species)

Biological classification L Pengo vflip      Biological classification L Pengo vflip zh


strain 分型 (Wikipedia)

References:

界門綱目科屬種的英文? (Yahoo知識+)