統計學的「子群體效應」
整體不等於個體。甲對乙的整體影響在統計上不顯著,不能排除甲對乙的部分個體有影響。
整體推個體的謬誤
給一千個感染症病人吃 penicillin,統計結果可能和全給安慰劑差不多。
我們現在知道,感染症有很多種,不同的細菌要用不同的抗生素打,黴菌、病毒也得用不同的藥物處理;penicillin 適用的對象,只是感染症中的一小群。
假設 penicliin 只對梅毒有效,但百分之百有效,然而梅毒只佔所有感染症病人之中的 0.1%。這樣下去做統計,結果將會是只有 0.1% 的梅毒病人被治好,而另外 99.9% 都和安慰劑一樣,結論很可能會是「penicillin 對感染症之療效與安慰劑無統計上之顯著差異」。
然而,如果以上假設是真的,這個實驗應該會觀察到「極少數卻療效出眾」的現象。
如果我們足夠好奇,理論上可再進一步篩選,把療效出眾的群體抓出來,研究其共性;沒啥效果的群體抓出來,研究其共性。如此我們便能逐漸瞭解,哪些人吃 penicillin 有神效,哪些人吃 penicillin 沒啥效果。
所以,看統計不能只看結果,還應該根據其詳細的實驗過程做整體判斷。
論文通常只會拿平均值、標準差等統計數據去做統計分析,而不會列出原始數據,然而,療效出眾的 0.1% 畢竟只是「少數個案」,往往無法改變整個群體的統計數據。
這篇論文刊出以後,人們往往只會簡單地相信「penicillin 治感染症無效」。如果有人說「我之前用 penicillin 真的治好了幾個感染症病人」(上帝看到他們都是梅毒),他們就說:「個案是不可信的。你看統計已經證明 penicillin 對感染症沒效了!」。
整體推子群體的謬誤
假設有個統計研究發現,X藥依A原則使用於B病,三個月後C指數下降 200 以上的比率為 82%。現在甲醫師在A原則下將X藥用於B病,追蹤觀察發現三個月C指數下降 200 以上的只有 10% 。你會怎麼解釋:
- 這個統計研究的結論是錯的/假的
- 甲醫師的觀察結果是錯的/假的
- 甲醫師的觀察對象屬於某個條件下的子群體
其實,1, 2, 3 都有可能。
1. 2. 姑且不提。如果是 3. ,真相可能是:年齡 60 歲以上者,將X藥依A原則使用於B病,三個月後C指數下降 200 以上的機率為 10%;年齡低於 60 歲者,將 X藥依A原則使用於B病,三個月後C指數下降 200 以上的機率為 100%。該統計研究沒有針對年齡分群,但原始樣本中,年齡 60 歲以上者佔 20%,年齡低於 60 歲者佔 80%。
若是如此,根據條件機率可算出整體結果為 82%:
20% * 10% + 80% * 100% = 82%
而湊巧地,甲醫師是老人醫師,他的病人之中,年齡 60 歲以上者佔 100%。
如果是這樣,統計研究的結論是對的,然而甲醫師的臨床觀察也符合事實。
如果針灸真能治病,為何經常統計不出來?
現行的中醫統計研究,往往是根據西醫病名、診斷,施予特定種類的療法。比如:
把經痛病人分成二組,一組「刺公孫、血海穴並留針 30~40 分鐘」(真針灸,實驗組)以及「刺公孫、血海穴旁邊的非穴道部分並留針 30~40 分鐘」(偽針灸,對照組),以量化的疼痛量表比較經痛的改善程度。統計結果是,二組無顯著差異,比如 p=0.059。
然而,中醫並不會所有經痛都刺公孫、血海,也不會都留針 30~40 分鐘,而是會把經痛分為氣滯、血瘀、寒凝、血熱等多種情況。有可能其中只有一兩種適合以上的針刺治療,而這一兩種適合的病人佔所有經痛病人的比例偏低。
這篇論文出刊後,如果我們遇到一位女士說她之前經痛給某中醫刺公孫、血海穴並留針 30~40 分鐘,療效迅速又驚人,請瞭解:不一定是她搞錯或唬爛,有可能她恰好是那一兩種適合這麼治療的病人。然而,如果她想推薦其他飽受經痛之苦的女性同胞接受同樣治療,10 個可能有 9 個不會滿意(嚴格說來這句話是錯的,理由不妨想想)。
這種驗證程序其實不太公平,因為一開始就沒有篩選出最適當的群體。如果我們反過來,以中醫的疾病分類對西藥做實驗:
- penicillin 對氣滯症病人…統計無顯著療效…
- penicillin 對血瘀症病人…統計無顯著療效…
- penicillin 對陽虛症病人…統計無顯著療效…
- penicillin 對痰飲症病人…統計無顯著療效…
- penicillin 對實熱症病人…統計無顯著療效…
- ……
我們能不能這樣下結論說「penicillin 根本不能治病嘛」?
留言
張貼留言
1.本格歡迎任何留言,只有廣告和垃圾留言會刪。
2.希望您盡量留下代稱,以方便大家討論、回覆。
3.如果您打算長篇大論,建議在您自己的部落格貼文,然後留下連結和摘要。