相關係數的小故事
转载
相關係數的發展大約是在十九世紀末期的時候,當時的人們還不太清楚要如何去描述在一群樣本中,兩個隨機變項之間的關係。但是在十九世紀中期的時候,許多的數 學家,像是Pascal, Bernoulli, De Moivre ,Simpson ,Laplace ,Gauss ,還有Quetelet等人,已經發展出來機率的概念,集中趨勢指標的測量,誤差值呈現常態分配,中央極限定理,以及可能的誤差概念等,促成了 Galton發展出相關係數的概念。 |
Galton 會開始研究統計上的問題,是源自於他對遺傳學上的興趣。他在達爾文的「物種原始」一書中提到他對於遺傳的看法:「這些新的觀念激勵了我去從事研究我有興趣 的遺傳學和人類種族的進化。」由於之前已經有人發現誤差值呈現一個常態分配的定理在實際的情況中也可以觀察到,所以Galton就在想,這個定理可能可以 用來描述人類在身體和心理特徵上的差異。在1884年的時候,Galton成立了人體測量實驗室,透過了測量數百人身體的特徵後,證實了人的身體特徵的確 符合了誤差值呈常態分配的理論。但是,Galton不僅僅對身體上的特徵有興趣而已,他認為智力也是經由遺傳而來的。因此,他需要一個方法來描述這一個世 代的智力,與前一個世代的智力是”相關”的。幸運的,Galton知道這種方法在科學上的重要性必需要跟人類的心理特質的研究分開,因為人類的心理特質並 不容易用量化的方式來測量。所以他就藉著研究香豌豆的特徵,和人類身體上的特徵,而發展出了相關和迴歸的概念。 |
Galton 在1888年的論文中定義了相關係數:有兩個隨機變項(X,Y),其中一個變項(X)的變化,或多或少的跟隨著另一個變項(Y)的變化。而且是相同方向的 變化時,這兩個變項(X,Y)被定義為”相關的”。……而在這兩個變項中必定有部份相同的因素同時影響著它們,如果兩者間沒有相同的因素的話,那這兩個變 項就不可能有相關。 |
在Galton 的定義中,顯示了相關係數的特性。相關係數是用來表示線性關係的強度,強度越大,相關係數越靠近1;並且可以藉由一條線性公式互相作預測。另外,相關係數 也具有方向性:如果相關係數為正,表示當其中一個變項增加的時候,另一個變項會跟著增加;而當相關係數為負的時候,其中一個變項的增加會導致另一個變項減 少。但要注意的是,在Galton的定義中,相關係數並沒有代表著因果關係。Galton計算相關係數的方法是請統計學家把資料點畫出來,然後再去畫出與 這些點最適合的直線,最後再去計算這條直線的斜率。Galton並沒有發展出特殊的公式來計算出這條直線,計算相關係數的公式,則是由Karl Pearson所發展出來的。 |
blog comments powered by Disqus