臥底經濟學家的10堂數據偵探課

『2005年，伊安尼迪斯以一篇〈為何大多數已發表的研究結果是不實的〉，引發了小小的騷動。伊安尼迪斯是一位後設研究者(meta-researcher)，他研究的對象就是學術研究。他估計，各種微不足道的偏誤累積造成的效果，很可能代表不實的研究結果。……』*

心理學家所做的實驗，是透過抽樣依循統計檢驗的程序，如果在統計上有顯著性，那代表結果可信。

什麼叫做「統計顯著性」呢？

『在數學層面，這個檢驗很單純。你先假設沒有效果(藥物沒有療效；銅板的投擲結果是公正的；預知能力不存在；提供二十四種果醬和六種果醬的試吃攤位，達到的效果相同)，然後你自問，你觀察到的數據不可能發生的機率有多高。例如：若你假定銅板的投擲結果是公平的，然後你投擲了十次銅板，你預期會得到五次人頭，不過，如果得到六次、甚至七次人頭，你也不會感到驚訝。但是如果連續出現十次人頭，你應該會很吃驚。當你想到這種機率只有不到千分之一時，你就會開始質疑原本的「銅板的投擲結果是公平的」這個假定。統計顯著試驗也倚賴相同的原則：先假設沒有效果，然後再看看你蒐集的數據是否與這個假設牴觸？舉例來說，在進行藥物試驗時，你的統計分析會先假設藥物沒有效果；當你看到許多服用藥物的患者，病情比服用安慰劑的患者好很多，你就會修正你的假設。一般而言，假如隨機觀察的數據和你蒐集的數據一樣極端的機率低於5%，這樣的結果就「顯著」到足以推翻假設，於是就可以做出一個有信心的結論，認為這種藥物有效果，提供較多果醬種類會降低民眾買果醬的機率，人類確實有預知能力。』*

在做統計試驗的時候，對母體進行抽樣重覆實驗的結果。一般可以畫出一個類似鐘形的次數分配圖，在標準化之下，可以變成一個底下面積是100%的機率分布圖。在面積累積到95%的地方劃一條垂直線，這叫做95%的信賴水準(單尾)，如果我們觀察到的結果落在這95%信賴水準的區間之內，那代表統計上是顯著的，相對統計推論錯誤的機會就是那剩下的5%(100%-95%)。

統計告訴我們的不是絕對，而是相對，5%「統計顯著性」就是代表我們有95%的信心水準，已經算是不錯的。

但是，問題往往不是出現在統計的方法，而是抽樣的過程。

做過調查統計的人都會非常驚訝地發現，其實5%「統計顯著性」相當容易達成。

譬如，小樣本。

譬如，抽樣的涵蓋性不夠，族群、性別、貧富、只觀察到幸存者等等偏誤。

譬如，抽樣只做到結果夠顯著就停止。

譬如，把「相關」當成「因果」。

另外，學校評鑒和教授升等需要產生大量的研究報告，會使得研究者傾向於快快發表研究成果。相關專業期刊，當然會對內容聘請同行專家進行審查，但是傾向於刊登新的、有趣的研究，而對於結果不顯著的(再現)研究，可能就置之不理。這些都會造成資訊發佈的偏誤。

對這些研究的可信度最好的測度，就是後來接續的再現研究。由不同的研究者再做一次抽樣統計，結果會一樣嗎？事實證明，心理學在關於「意志力」、「威力姿勢」或「促發效應，等等的研究，都很難在後續的複製實驗重現一樣的結果。所以那些研究，非常可能是僥倖跨過了統計顯著性的門檻了。

學術研究都已經是如此了，那就更不用說電視的名嘴或報紙上煽情的、斷章取義的引用了。

『……在生活中，總有某個地方會讓小心眼、態度強硬的懷疑論者起疑，問道，這是在耍什麼把戲？這個說謊的笨蛋為什麼要騙我？面對令人驚訝的統計數字時，雖然有時可以用「我不相信」起頭，不打破砂鍋問到底的話，那就是懶，不會有什麼結果。』*

做為閱聽人，永遠有懷疑的權利。對於看起來愈有趣的因果關係，愈完美的統計調查結果，愈要懷疑。

*：《臥底經濟學家的10堂數據偵探課》，提姆·哈福特著，廖建容廖月娟譯

2022/6/11 臥底經濟學家的10堂數據偵探課 Damakey

臥底經濟學家的10堂數據偵探課

優質人變一流人的破牆7法

折柳

You may also like

Leave a Comment Cancel Reply