清理混亂關聯和因果關係 

這是您可能不知道的歷史花絮。 在1860和1940之間,隨著居住在新英格蘭的衛理公會牧師人數的增加,進口到波士頓的古巴朗姆酒的數量也增加了 - 他們都以極其相似的方式增加了。 因此,衛理公會牧師必須在那個時期購買大量的朗姆酒!

實際上不,這是一個愚蠢的結論。 真正發生的是,這兩個數量 - 衛理公會牧師和古巴朗姆酒 - 都受到其他因素的推動,例如人口增長。

在得出錯誤的結論時,我們犯了太常見的錯誤 因果關係混亂的關係.

有什麼不同?

據說有兩個數量 相關  如果兩者一起增加和減少(“正相關”),或者如果一個增加而另一個增加,反之亦然(“負相關”)。

方法是通過統計測量,隨時檢測 皮爾森的相關係數,表示兩個數量緊密鎖定在一起的範圍,從-1(完全負相關)到0(完全不相關)到1(完全正相關)。


內在自我訂閱圖形


 causation1tylervigen.com

但僅僅因為兩個量是相關的並不一定意味著一個是直接的 造成 另一個要改變。 相關並不意味著因果關係,就像多雲的天氣並不意味著降雨,即使情況正好相反。

如果兩個數量相關,則可能存在真正的因果關係(例如降雨量和繖形銷售額),但也許其他變量同時驅動(例如 海盜數量和全球變暖),或許這只是巧合(例如 美國奶酪消費和床單扼殺).

即使因果關係存在,我們必須謹慎,不要混淆事業的影響,否則我們可能會得出結論,例如,增加使用電熱水器導致更冷的天氣。

為了建立原因和影響,我們需要超越的統計數據,尋找不同的證據(科學或歷史)和邏輯推理。 關聯可能會促使我們去尋找在第一名的證據,但它絕不是在自己的權利證明。

微妙的問題

雖然上面的例子顯然很傻,相關性非常常被誤認為是在不是在現實世界中顯而易見的方式因果關係。 閱讀和解釋統計數據時,必須採取非常謹慎,以了解數據及其統計數據意味著什麼 - 更重要的是,它們是什麼 任何監管機構都不批准 暗示。

 causation2

最近一個在解釋數據需要謹慎的例子是興奮今年早些時候圍繞突破性明顯 檢測引力波 - 似乎已經發布的公告 過早在考慮影響數據的所有變量之前。

不幸的是,分析統計,概率和風險是不是連接到一個技能我們 人的直覺,所以很容易被誤入歧途。 整本書 已經寫過關於統計數據被誤解(或用於誤導)的微妙方式。 為了保持警惕,以下是您應該注意的一些常見的滑動統計問題:

1)健康工作者效應,有時兩個組無法在公平競爭環境中直接進行比較。

考慮一項假設的研究,比較一組辦公室工作人員的健康狀況與一組宇航員的健康狀況。 如果研究顯示兩者之間沒有顯著差異 - 健康與工作環境之間沒有相關性 - 我們是否可以得出結論,在宇宙中生活和工作對宇航員沒有長期的健康風險?

沒有! 這些團體並不是站在同一個基礎上:宇航員團隊篩選申請人以找到健康的候選人,然後他們保持全面的健身狀態,以便主動對抗生活在“微重力”中的影響。

因此,我們希望他們平均比辦公室工作人員更健康,如果他們不這樣做,應該正確地關注他們。

2)分類和階段遷移效應 - 在群體之間改組人群可以對統計結果產生顯著影響。

這也被稱為 威爾·羅傑斯 據報導,這位美國喜劇演員曾打趣過:

當Okies離開俄克拉何馬州,搬到加州,他們提出了在這兩個州的平均智力水平。

為了說明,想像一下將一大群朋友分成“短”組和“高”組(可能是為了安排他們拍照)。 這樣做,一次提高兩組的平均高度是非常容易的。

只需要求“高”組中最矮的人切換到“短”組。 “高大”組失去了他們最短的成員,從而提高了他們的平均身高 - 但“短”組獲得了他們最高的成員,因此也獲得了平均身高。

這在醫學研究中具有重要意義,在測試新治療的過程中,患者通常被分為“健康”或“不健康”組。 如果診斷方法有所改善,一些非常不健康的患者可能會被重新分類 - 導致兩組的健康結果都有所改善,無論治療效果如何(或不有效)。

 causation3在數據中挑选和選擇可能會導致錯誤的結論。 當數據確實顯示出長期變暖(綠色)時,懷疑者會看到冷卻時間(藍色)。 skepticalscience.com 

3)數據挖掘 - 當數據豐盈存在,星星點點可以櫻桃採摘來支持任何所需的結論。

這是不好的統計實踐,但是 如果故意這樣做的話 如果不了解原始的完整數據集,很難發現。

考慮上面的圖表,例如,顯示全球變暖數據的兩種解釋。 或者氟化物 - 少量它是歷史上最有效的預防藥物之一,但如果只考慮有毒量的氟化物,那麼積極效果就會完全消失。

出於類似的原因,重要的是在實驗開始之前將給定統計實驗的程序固定到位,然後在實驗結束之前保持不變。

4)聚類 - 即使在完全隨機的數據中也是如此。

考慮一項醫學研究,研究特定疾病,如癌症或多發性硬化症 地理分佈。 如果疾病隨機發作(並且環境沒有影響),我們期望看到許多患者群體是理所當然的。 如果患者分佈均勻,那麼分佈確實是最不隨意的!

因此,單個群集或一些小群集的存在是完全正常的。 需要復雜的統計方法來確定需要多少聚類才能推斷該區域的某些東西可能導致疾病。

不幸的是,任何一個集群 - 即使是一個非重要的集群 - 都會讓一個簡單的(乍一看,引人注目的)新聞標題變得簡單。

 causation4

像任何其他強大工具一樣,必須非常謹慎地使用統計分析 - 特別是,在根據兩個量相關的事實得出結論時,必須始終小心。

相反,我們必須始終堅持單獨的證據來爭論因果關係 - 並且證據不會以單一統計數字的形式出現。

看似令人信服的相關性,比如給定的基因和 精神分裂症 或之間的 高脂飲食 和心髒病,可能會變成基於非常可疑的方法。

我們或許是一個認知不良的物種,準備應對這些問題。 作為加拿大教育家 基蘭伊根 把它放在他的書中 從一開始就搞錯了:

壞消息是,我們的進化使我們能夠生活在小型,穩定,狩獵 - 採集社會中。 我們是更新世的人,但我們的語言大腦為我們創造了大規模,多元文化,技術複雜和快速變化的社會。

因此,我們必須不斷抵制誘惑,看到偶然的意義,並混淆相關性和因果關係。談話

這篇文章最初發表於 談話
閱讀 原創文章.


關於作者

Borwein真喬納森Jonathan Borwein(Jon)是紐卡斯爾大學數學獎獲得者。 他是紐卡斯爾大學數學系的獲獎者教授,計算機輔助研究數學及其應用中心(CARMA)主任。 他曾在Carnegie-Melon,Dalhousie,Simon Fraser和滑鐵盧大學工作過,並曾在計算機領域擔任過兩位加拿大研究主席。

玫瑰邁克爾Michael Rose是紐卡斯爾大學數學與物理科學學院博士候選人。澳大利亞紐卡斯爾大學榮獲Jonate Borwein教授監督的數學博士生。 目前正在協助研究應用分形數學來模擬腦突觸分佈。

披露聲明: 作者不為任何可從本文受益的公司或組織工作,諮詢,擁有股份或獲得資金。 他們也沒有相關的隸屬關係。


推薦書:

金錢,慾望,戰爭,噶:為佛教革命的注意事項
作者:David R. Loy。

金錢,慾望,戰爭,噶:為佛教革命由David R.洛伊注意事項。大衛·洛伊已經成為佛教世界觀最有力的倡導者之一,並不像其他人那樣解釋其改變現代世界社會政治格局的能力。 在 錢,性,戰爭,業力他提供了經常被誤解的佛教主題的清晰甚至令人震驚的清晰呈現 - 業力的工作,自我的本質,個人和社會層面的麻煩的原因 - 以及我們集體意識背後的真正原因“永遠不夠,“無論是時間,金錢,性別,安全......甚至是戰爭。 大衛的“佛教革命”不過是對我們如何處理我們的生活,我們的星球,遍及我們的語言,文化,甚至我們的靈性的集體妄想的徹底改變。

點擊此處獲取更多信息和/或在亞馬遜上訂購此書。