一些科學研究可能錯誤的原因之一

: By 拉籌伯大學的傑夫·卡明（Geoff Cumming）

感謝造訪 InnerSelf.com，哪裡有 20,000+ 宣傳“新態度和新可能性”的改變生活的文章。所有文章均翻譯為 超過30種語言. 訂閱每週出版的《內在自我》雜誌和瑪麗·T·拉塞爾的《每日靈感》。 InnerSelf雜誌 自 1985 年起出版。

一些科學研究可能錯的原因之一

有一個可複制性危機在科學中 - 身份不明的“誤報”是甚至遍布我們的頂級研究期刊.

假陽性是指一種效果存在，而實際上它不存在。沒有人知道發表的論文中有多少比例含有這種不正確或誇大的結果，但也有跡象表明比例不小.

流行病學家John Ioannidis在2005的一篇著名論文中對這一現像給出了最好的解釋，標題為“為什麼大多數發表的研究結果都是假“。 Ioannidis給出瞭如此多的錯誤結果的原因之一被稱為“p “黑客攻擊”，這源於研究人員認為具有統計意義的壓力。

什麼是統計學意義？

為了從數據中得出結論，研究人員通常依賴顯著性測試。簡單來說，這意味著計算“p 價值“，這是我們的結果的概率，如果真的沒有效果。如果 p 值足夠小，結果被宣佈為具有統計意義。

傳統上，a p 小於.05的值是重要性的標準。如果您舉報 p<.05，讀者可能會相信您已經找到了真正的效果。但是，也許實際上沒有任何效果，並且您報告了誤報。

許多期刊只會發表可以報告一項或多項統計學顯著影響的研究。研究生很快就學會了實現神話 p

這種壓力來實現 pp黑客。

誘惑 p 黑客

為了顯示 p 黑客，這是一個假設的例子。

布魯斯最近獲得了博士學位，並獲得了一項著名的獎學金，加入了他所在領域的頂級研究團隊之一。他的第一個實驗效果不佳，但布魯斯很快完善了程序並進行了第二次研究。這看起來更有希望，但仍然沒有給出一個 p 值小於.05。

布魯斯深信他正在做些什麼，他會收集更多數據。他決定放棄一些結果，這看起來很明顯。

然後他注意到他的一項措施給出了更清晰的圖景，因此他專注於此。還有一些調整和布魯斯最終確定了一個稍微令人驚訝但卻非常有趣的效果 p

布魯斯努力想要找到他的效果知道在某個地方潛伏著。他也感受到了打擊的壓力 p

只有一個問題：實際上沒有效果。儘管取得了統計學上的顯著成果，布魯斯發表了一個誤報。

布魯斯覺得他在開始學習後採取了各種步驟，利用他的科學洞察力揭示了潛伏的影響：

他收集了更多數據。
他放棄了一些看似異常的數據。
他放棄了一些措施，專注於最有希望的。
他對數據的分析略有不同，並做了一些進一步的調整。

麻煩的是所有這些選擇都已經完成後看到數據。布魯斯可能在不知不覺中一直在挑剔 - 選擇和調整直到他獲得難以捉摸的東西 pp

統計學家有一種說法：如果你足夠折磨數據，他們就會承認。在查看數據後做出的選擇和調整是值得懷疑的研究實踐。有意或無意地使用這些來實現正確的統計結果 p 黑客，這是發表的一個重要原因，統計上顯著的結果可能是誤報。

發布結果的比例有多大？

這是一個很好的問題，也是一個非常棘手的問題。沒有人知道答案，這在不同的研究領域可能會有所不同。

在2015上發表了大量令人印象深刻的回答社會和認知心理學問題的努力。由Brian Nosek和他在開放科學中心的同事領導可複制性項目：心理學（RP：P）世界各地的100研究小組都對100公佈的結果進行了仔細的複制。總體，大致40複製得相當好而在60病例周圍，複製研究獲得的影響更小或更小。

100 RP：P複製研究報告的平均效果僅為原始研究報告的效應的一半。仔細進行的複制可能會提供比可能更準確的估計 p 黑客入侵原始研究，因此我們可以得出結論，原始研究平均高估了兩倍的真實影響。那令人震驚！

如何避免 p 黑客

避免的最佳方法 p 黑客攻擊是為了避免在看到數據後進行任何選擇或調整。換句話說，避免可疑的研究實踐。在大多數情況下，最好的方法是使用 預註冊.

預註冊要求您事先準備詳細的研究計劃，包括應用於數據的統計分析。然後，您可以預先註冊帶有日期戳的計劃開放科學框架或其他一些在線註冊表。

然後進行研究，按照計劃分析數據，並報告結果，無論它們是什麼。讀者可以檢查預先註冊的計劃，從而確信分析是事先指定的，而不是 p 黑客攻擊。對於許多研究人員來說，預註冊對於一個具有挑戰性的新想法，但可能是未來的方式。

估計而不是 p 值

誘惑 p hack是依賴的一大缺點 p 值。另一個是那個 p而是說效果存在或不存在。

但世界並非黑白分明。為了識別無數的灰色陰影，使用起來要好得多估計而非 p 值。估計的目的是估計效果的大小 - 可能是小的或大的，零，甚至是負的。在估計方面，假陽性結果是比效果的真實值更大或更大的估計。

讓我們假設研究治療的影響。例如，該研究可能估計治療平均會產生焦慮的7點降低。假設我們根據數據計算a 置信區間 - 我們最佳估計兩側的一系列不確定性 - [4，10]。這告訴我們，我們對7的估計很可能是在真實效果的焦慮量表上的3點左右 - 治療的真正平均益處量。

換句話說，置信區間表示我們的估計精確程度。知道這樣的估計及其置信區間比任何信息都要多得多 p 值。

我將估算稱為“新統計數據”之一。這些技術本身並不新鮮，但使用它們作為從數據中得出結論的主要方式對許多研究人員來說都是新的，並向前邁出了一大步。它還有助於避免由此引起的扭曲 p 黑客攻擊。

關於作者

傑夫卡明，名譽教授， 拉籌伯大學

這篇文章最初發表於談話。閱讀原創文章.

可用語言

關注InnerSelf

內在自我作者

閱讀量最高的

最受關注