跳到主要內容

【譯文】統計:由內擊破?|Statistics: Destroyed From Within?


文:吳莉瑋
圖:mackproject via photopin cc

本文意譯《Making Economic Sense》書中的《Statistics: Destroyed From Within?》文,Rothbard 先簡略介紹傳統統計手段,並簡要地闡述其所依據之「常態分布」基礎為脆弱且武斷的假設前提,最後帶出統計專業領域中,基於類似的認識而不斷尋求新方法的嘗試,以及後期統計學家坦言數據並非總是以常態分布呈現的事實,Rothbard 由內擊破的論理方式,不僅具有說服力,還相當震撼。

統計:由內擊破?|Statistics: Destroyed From Within?

作者:Murray Rothbard
譯者:吳莉瑋

現在看起來似乎是不可能,但我在大學某段時間的主修是統計。在修畢所有的統計本科課程後,我參加了哥倫比亞大學的數理統計研究生課程,追隨著名的哈羅德.霍特林(Harold Hotelling),也是現代數理經濟學的創始人之一。聽了幾次 Hotelling 的講座後,我體會到一個領悟:我突然意識到整個「科學」的統計推斷,建立在一個毫無根據的關鍵假設。我離開了 Hotelling 的課程與統計的世界,再也沒有回來。

當然,「統計」的內涵遠超過單純的收集數據。統計推論是從這些數據中所得出的結論。特別是,除了美國十年一次的人口普查,我們從來不知道所有的數據,因此,我們的結論必須建立在來自母體的非常小量樣本。在挑選出樣本後,我們必須找到一種讓報表能足以代表母體的方法。例如,假設我們要做出「關於美國男性人口的平均身高」的結論。因為沒有辦法讓我們去測量每一位美國男性的身高,我們會選用其中一種採樣方法來取出小數目的樣本,譬如 500 人,據此推測美國人的平均身高可能是什麼。

在統計科學中,我們從已知樣本推側未知的母體情況是基於一個關鍵假設:在所有的情況下,不管是處理身高、失業率或者是選舉前各候選人的支持率,我們所選出的樣本在母體中是依照「常態曲線(normal curve)」分佈。

統計教科書中的常態曲線大多是呈對稱的鐘形曲線。因為假設所有樣本都根據這條曲線落在母體中,統計學家可以充滿信心地主張:依據他的單一或多個有限樣本,美國人的平均身高人口、失業率或任何其他的數字,在 90% 或 95% 的信賴區間(Confidence interval)內,絕對是 XYZ。簡言之,如果某個平均男性身高的樣本高度為 5 英尺 9 英寸,那麼每 100 個這樣的樣本中,約有 90 或 95 個落於 5 英尺 9 英寸的一定範圍內。這些精確的數字都是基於一個簡單的假設:所有的樣本都依據常態曲線分佈於母體。

由於常態曲線的特性,民意調查機構便以壓倒性的信心斷言,布希受到某一個百分比的選民青睞,而杜卡基斯則是另一個百分比,這些推論數據約有「三個百分點」或「五個百分點」的「誤差」。正是因為常態曲線,允許統計學家不需要知道所有母體的資訊,而僅以幾個百分點的資訊,就能宣稱「絕對的知識」。

那麼,什麼是「常態分佈」這個重要假設的證據?什麼都沒有。這是一個純粹的神秘信仰行為。在我的舊統計教科書中,對於普遍真理「常態曲線」,唯一的「證據」說法是:當槍法很好的步兵開槍擊靶時,打擊點將趨向於在靶心週圍以類似常態曲線的方式分佈。對於統計推斷有效性的重要假設,基於這個難以置信的脆弱基礎。

不幸的是,社會科學傾向遵循已故羅伯特.門德爾松博士(Robert S. Mendelsohn)在醫藥中採用的同樣規律:不管步驟是如何不完善,直到出現一個更佳替代品前,從不省略任何步驟。現在看來,這整個建立在常態曲線的錯誤推理結構,已被高科技證實是過時的。

十年前,斯丹福大學的統計學家布拉德利.埃夫隆(Bradley Efron),以原始樣本為基礎,利用高速電腦產生「人工數據集」,藉由數百萬計的數值計算得出人口估計,而無需使用常態曲線或任何武斷的抽樣分佈數學假設。經過十年的討論和反覆試驗,統計學家普遍能接受實際使用這種「自助法(bootstrap method)」,它現在已經開始接管這個專業領域。另一個斯丹福大學的統計學家杰羅姆.弗里德曼(Jerome H. Friedman),也是新方法的開拓者之一,稱「自助法」是過去 20 年甚至是 50 年內最重要的統計概念。

在這一點上,統計學家終於願意吐露秘密。弗里德曼承認在標準方法下,數據並不總是遵循鐘形曲線,而當數據不以鐘形曲線分佈時,你就會犯錯。事實上,他補充說:數據經常以完全不同於鐘形曲線的方式分佈。是的,我們現在發現「常態曲線」這個國王沒有穿衣服。古老的神秘信仰現在可以放棄了,常態曲線之神已死。