為什么已發(fā)表的研究結果大多是錯的?
2017-03-30 by:CAE仿真在線 來源:互聯網
科學的可重復性危機
科學的可重復性危機已經成為舉世矚目的熱點議題。
自2005年斯坦福大學教授 John Ioannidis 在 PLOS Medicine 雜志上發(fā)表論文《為什么已發(fā)表的研究結果大多是錯的》(Why Most Published Findings Are False)以來,越來越多錯誤、誤導性或不可重復的科研成果紛紛被曝出。
兩大制藥公司各就具有“里程碑”意義的癌癥生物學論文進行取樣,分別只證實了6%、11%的研究結果。還有一項類似的驗證實驗,結果也不盡如人意:在重新驗證藥效時,70種用于治療老鼠肌萎縮(ALS)的潛在藥物靶點全部呈陰性。
在心理學領域,研究人員們試圖重復100項同行評議過的研究,僅有39項重復成功……盡管大多數重復實驗集中于生物醫(yī)學、健康以及心理學領域,但近期的一份由多領域1500位科學家進行的調查顯示,科研結果可重復性低的問題是廣泛存在的。
起于科學界流言的“可重復性危機”,已搖身一變?yōu)榕e世矚目的熱點議題。幾乎所諸多主流報紙、TED 主題演講、電視節(jié)目都曾熱議這一問題。
對于這一問題的解讀分為兩種:
-
科學就是這樣??茖W本身具有不確定性,矛盾屢見不鮮。問題是我們沒有擺正自己對科學的期許。解決方法就是把還沒蓋棺定論的科研成果和已經確定的科研成果區(qū)分開來。
-
科學并非如此。矛盾的研究意味著有瑕疵的科學。相應的解決方法則是改變科學研究的操作方式。
可重復性的證據表明兩者皆對:科學固有不確定性,且其方法有待改進。
如果科學的方法是“科學”的,為什么相同的實驗會產生不同的結果呢?
為了便于理解,我們可以設想一個測試重力理論的簡單實驗。幾個世紀中,亞里士多德的理論盛行:物體下落的速度與其重量成比例。如果你同時扔一個石頭和羽毛,重點兒的石頭比輕點兒的羽毛下降的快。這證明了亞里士多德的理論嗎?
現在我們來想象一下,亞里士多德理論的質疑者伽利略同時扔下炮彈和步槍彈。這是對于一個相同理論的不同驗證方法。盡管各自的重量是大有不同的,兩個球仍同時落地。這個演示有效地證明了亞里士多德的理論是錯誤的(盡管沒有任何證據顯示伽利略本人做過)。
故事的意義不是亞里士多德徹底地錯了。他的觀察仍然是對的,一片羽毛總是比石頭下落的慢(在地球上)。僅僅是他的結論錯了。
這個思想實驗說明了科學家得出的結論如何超出了實際證據——這一過程就是所謂的歸納法。歸納是科學進程里的本質部分,沒有兩個實驗可以完全相同,這顯而易見的事實可以解釋為什么許多科學理論會失敗。
在17世紀,羅伯特·波義耳(Robert Boyle)的氣泵是研究真空屬性的一個關鍵設備。另一位科學家克里斯蒂安·惠更斯(Christiaan Huygens)打造了他的空氣泵(當時世界上僅有的幾個空氣泵之一),并發(fā)現一個現象:在空氣泵中,水懸浮于玻璃罐內。
他稱之為水的“異常懸浮”。但是波義耳無法在他的氣泵里重復效果,遂拒絕了惠更斯主張。爭議持續(xù)幾個月后,惠更斯前往英格蘭用波義耳的氣泵重復出了水懸浮的效果,于是水的異常懸浮現象被接受。它為何出現、意味著什么仍然是謎,但是實驗重復成功了。
最近,加州大學伯克利分校的乳腺癌研究員 Mina Bissell 和哈佛大學的合作者 Kornelia Polyak 發(fā)生了類似的爭議。這兩個實驗室利用熒光激活細胞分選(FACS)人類乳腺癌細胞,發(fā)現無法重復彼此的實驗。
最終他們通過共同進行實驗解決了這一問題。他們發(fā)現,結果取決于振蕩細胞的方式——“大力攪拌”或者“較輕微地搖晃”。排除方法上的差異后,兩個實驗室獲得了一致的流式細胞儀數據,從而得以繼續(xù)深入研究。
亞里士多德與伽利略、波義耳與惠更斯以及 Bissell 與 Polyak 的爭議,都源于實驗中的不一致之處。如果所有實驗條件都相同,實驗的現象就會很穩(wěn)定。實驗結果不一樣,就說明有些條件是有差別的,問題就在于,你能不能發(fā)現差別在哪里。
然而也并非所有的科學研究都會如此。
1978年,陶氏化學研究者 Richard Kociba 進行了關于癌癥和二噁英關系的研究。在這項研究中,科學家對老鼠喂食二噁英兩年,隨后對其肺部切片,以檢測腫瘤的生長。
在1978年研究中,服用化學物質的50只老鼠中有20只長了肺部腫瘤。1980年,環(huán)境保護局重新分析了相同的肺部切片。這一次,他們發(fā)現有29只老鼠患了腫瘤。
隨后在1990年,造紙行業(yè)委托另一個分析報告發(fā)現只有9只老鼠患腫瘤。3個不同的結果均來自相同的切片。(1990年的分析由七位病理學家組成的團隊完成,當團隊無法對腫瘤判斷達成一致時,采取少數服從多數原則。)
Kociba 的切片告訴我們:變化、不確定性和判斷可以使給定的一個觀察實驗指向不同的結果。
同樣的事情也發(fā)生在統計分析中。
2015年,Brian Nosek 和開放科學中心做了一項研究,研究問題是足球裁判給深膚色球員的紅牌是否比淺膚色的球員多。Nosek 和他的同事們將相同的數據分別給了29支分析師團隊,咨詢他們的意見(分析師們都知道他們的結果會與他人的對比)。
就像 Kociba 的肝臟切片一樣,完全相同的足球數據產生了不同的結果。有幾個團隊報道淺膚色和深膚色之間沒有差別,也有人指出深膚色球員被判紅牌的幾率比淺膚色球員高近3倍,而其他人則認為這個增長值約有20%~40%。
這些研究中的科學問題,本質上與亞里士多德的重力研究、波義的真空問題、Bissell 的熒光激活細胞分選完全不一樣。
當談論到二噁英、肝癌或者膚色深淺和紅牌數量時,關鍵的可變因素難以測量,結果難以預測。一些未注射二噁英的老鼠也會長腫瘤;深膚色并不代表一定得到紅牌,淺膚色也不會總得到赦免。
最終人們證明二噁英與癌癥有關;在足球裁判案例中,膚色確實影響了拿紅牌的概率。對這兩個案例而言,怎樣產生影響、影響到什么程度仍然很難確定,但不一致并不總是意味著研究毫無意義。
結果不一致,不一定意味著哪里出錯了,或者哪里需要調整。相反,實驗常會受到研究體系或測量方法的干擾。當重復含有大量干擾的研究時,說它們“不可重復”可能不太恰當。如果你匯總多個相同的研究(這一過程稱為薈萃分析),最終結論將趨于事實的真相。
在某些情況下,不可重復性確實反映了不確定性。但另一些情況下,它也意味著疏忽、欺騙和不當行為。
頂級醫(yī)學雜志《柳葉刀》的主編 Richard Horton,在2015年寫道:“大部分的科學文獻,也許一半,都可能是不真實的。由于研究樣本較小、效果甚微、無效的探索性分析、明顯的利益沖突,再加上癡迷追求若有若無的‘重大發(fā)現’,科學已轉向黑暗?!?span>而值得注意的是,Horton 的聲明雖然僅指向醫(yī)學文獻,但也對科學真理的晴雨表——同行評議提出了質疑。
同行評議期刊已經成為科學可信度的守門人。但隨著從科學期刊撤稿的數量增多,這頭銜也搖搖欲墜。自2001年到2009年,撤稿數增加了十倍,2012年的一項分析發(fā)現:生物醫(yī)學數據庫(PubMed)上三分之二的撤稿緣于學術不端。
這些問題在醫(yī)學學科尤其嚴重。例如,人們發(fā)現一乳腺癌細胞系實際上是皮膚癌細胞系,導致超過1000個研究被判無效。另一起案例中,專業(yè)數據統計包的軟件缺陷可能導致數以萬計的功能磁共振成像研究失效。
當安進生物科技公司(Amgen)證實了53個“里程碑”癌癥實驗中僅有6個能夠重復,第一作者格倫貝格利指出,“不可重復的研究有一些共性,包括關鍵試劑的不當使用、缺乏陰性和陽性對照、不當統計和未重復試驗。如果研究人員重復了實驗,數據往往已經過重重‘選擇’,維護他們想要的結果。”在這種情況下,首要問題不是重復性,而是實驗設計是否得當。
有些研究對實驗方法和數據分析的介紹不全面,這是個同行評議完全可以修正的缺陷。有些科學家沒有透露如何分析數據,從而說明他們的結果統計顯著——即使它們并不顯著。
例如,一個社會心理學家團隊曾證明一個離譜的假設:聽兒歌可以使人減齡。他們公開的研究技術(俗稱“p-hacking”)“證明”,聽兒歌后人確實變年輕了。不僅如此,研究者還用這些技術處理了電腦隨機生成的數據,發(fā)現有高達61%的概率得到標準的統計顯著結果(p<0.05,統計學上的傾向)。
故意的 p-hacking 行為構成欺詐,但在研究過程中,當科學家必須做出會影響科研結果的決定時,不當行為與無心之差的界限就變得非常模糊。
在足球裁判的研究中,進行足球數據分析的29組團隊,20組發(fā)現結果是“統計顯著”而九組沒有。現在想象一下,一個研究人員做了所有29組分析,只能選擇一個報告。如果你想發(fā)表成果,你會選擇哪一個?這樣的選擇,也許是已發(fā)表論點不可重復或被證偽的最大原因。
重復性危機和可能的解決方式起源于上世紀七十年代。
1976年,海盜1號宇宙飛船在火星上干尼亞地區(qū)(Cydonia region)拍攝的照片看起來就像一個人的臉。數天后,NASA 發(fā)布了這張“臉”的照片,立刻引起了媒體界的轟動,當時甚至有人出書聲稱,火星上有著類人生物的文明,還建了金字塔。
/海盜1號拍攝的火星上的“人臉”/
當然,NASA 的科學家視其作為一種光學錯覺不予考慮。隨后從不同角度拍攝的高分辨率照片上看,“人臉”看上去完全不像一張臉。
如今,一些科學家仍在欣賞自己數據里的火星臉圖。在預算緊張、就業(yè)市場競爭激烈的情況下,他們選擇將存疑的結果寫進簡歷,但也僅此而已。當有人用改進的技術或者不同的角度回顧,正如之后干尼亞的圖像,大多數原有的結論已站不住腳。
但不論結果如何,重復的驗證都會給我們更多的信心,相信科學終將揭示真相——無論它真的是一張臉,還是只是一塊石頭。
編后語:
有些情況下,無論結果最終被證明是否正確,求知的過程從某種程度上來說也是一種進步!
來源:PBS
相關標簽搜索:為什么已發(fā)表的研究結果大多是錯的? Ansys有限元培訓 Ansys workbench培訓 ansys視頻教程 ansys workbench教程 ansys APDL經典教程 ansys資料下載 ansys技術咨詢 ansys基礎知識 ansys代做 Fluent、CFX流體分析 HFSS電磁分析 Abaqus培訓