Twitter如何讓科學家進入人類幸福和健康的窗口

自從多年前公開發布10以來,Twitter一直被用作朋友之間的社交網絡平台,智能手機用戶的即時通訊服務以及企業和政客的推廣工具。

但對於像我一樣的研究人員和科學家來說,它也是一個寶貴的數據來源,他們想研究人類在復雜社會系統中的感受和運作方式。

通過分析推文,我們已經能夠在受控實驗室實驗之外觀察和收集數百萬“野外”人們的社交互動數據。

它使我們能夠開髮用於監控的工具 大量人口的集體情緒, 找出 美國最快樂的地方 等等。

那麼,Twitter究竟如何成為計算社會科學家的獨特資源呢? 它讓我們發現了什麼?


內在自我訂閱圖形


Twitter給研究人員的最大禮物

七月15,2006,Twittr(當時已知) 公然 推出 作為一種“移動服務,可以幫助朋友群體通過短信隨機​​反复思考。”發送免費140字符組文本的能力驅使許多早期採用者(包括我自己)使用該平台。

隨著時間的推移,用戶數量 爆炸:從20的2009百萬到200的2012百萬和今天的310百萬。 用戶不是直接與朋友溝通,而是簡單地告訴他們的追隨者他們的感受,積極或消極地回應新聞,或者開玩笑。

對於研究人員來說,Twitter最大的禮物就是提供大量的開放數據。 Twitter是第一個通過稱為應用程序編程接口(API)提供數據樣本的主要社交網絡之一,它使研究人員能夠向Twitter查詢特定類型的推文(例如,包含某些單詞的推文),以及用戶信息。

這導致了利用這些數據的研究項目的激增。 今天,谷歌學者搜索“推特”產生600萬次點擊,相比之下,“Facebook”有500萬次點擊。鑑於Facebook大致有差異,這種差異尤為突出 用戶數量是Twitter的五倍 (並且比兩歲大)。

Twitter的慷慨數據政策無疑為公司帶來了一些優秀的免費宣傳,因為有趣的科學研究得到了主流媒體的認可。

學習快樂和健康

由於傳統的人口普查數據收集緩慢而且成本高昂,像Twitter這樣的開放數據源有可能提供實時窗口來查看大量人口的變化。

佛蒙特大學 計算故事實驗室 成立於2006,研究應用數學,社會學和物理學的問題。 自2008以來,故事實驗室通過Twitter的“Gardenhose”提要收集了數十億條推文,該提供了一個實時流式傳輸所有公開推文中10百分比的隨機樣本。

我在計算故事實驗室工作了三年,很幸運能夠成為使用這些數據的許多有趣研究的一部分。 例如,我們開發了一個 hedonometer 它可以實時測量Twittersphere的幸福感。 通過專注於從智能手機發送的地理定位推文,我們能夠 地圖 美國最幸福的地方。 也許不出所料,我們發現了 夏威夷是最幸福的州和葡萄種植納帕最幸福的城市 為2013。 

來自13的2013百萬地理定位美國推文的地圖,以幸福著色,紅色表示幸福,藍色表示悲傷。 PLOS ONE,作者提供來自13的2013百萬地理定位美國推文的地圖,以幸福著色,紅色表示幸福,藍色表示悲傷。 PLoS ONE的,作者提供。這些研究有更深層次的應用:將Twitter詞彙使用與人口統計相關聯,幫助我們了解城市中潛在的社會經濟模式。 例如,我們可以將單詞使用與肥胖等健康因素聯繫起來,因此我們建立了一個 lexicocalorimeter 衡量社交媒體帖子的“卡路里含量”。 來自特定地區的推文提到高卡路里食物增加了該地區的“卡路里含量”,而提及運動活動的推文則降低了我們的指標。 我們發現這個簡單的措施 與其他健康和福祉指標相關聯。 換句話說,推文能夠在特定時刻為我們提供城市或地區整體健康狀況的快照。

利用豐富的Twitter數據,我們也能夠 以前所未有的細節看待人們的日常運動模式。 反過來,了解人類流動模式有能力改變疾病模型,開闢新的領域 數字流行病學.

對於其他研究,我們調查了旅行者在Twitter上表達的幸福感是否比留在家裡的人(答案:他們這樣做)以及是否表達了更多 快樂的人傾向於在社交網絡中團結起來 (再次,他們這樣做)。 確實, 積極性似乎被融入語言本身從某種意義上說,我們有更積極的話語而不是消極的話語。 這不僅僅是在Twitter上,而是在各種不同的媒體(例如書籍,電影和報紙)和語言中。

這些研究 - 以及來自世界各地的成千上萬的其他研究 - 只有通過Twitter才有可能實現。

接下來的10年

那麼我們可以期待在接下來的10年中從Twitter學到什麼呢?

目前一些最激動人心的工作涉及將社交媒體數據與數學模型聯繫起來,以預測疾病爆發等人口水平現象。 研究人員已經在用推特數據增加疾病模型方面取得了一些成功,以預測流感,尤其是流感 FluOutlook 由東北大學和科學交流研究所開發的平台。

儘管如此,仍然存在一些挑戰。 社交媒體數據遭受非常低的“信噪比”。換句話說,與特定研究相關的推文經常被無關的“噪音”淹沒。

因此,我們必須不斷意識到被稱為“大數據狂妄自大“在開發新方法時,不要對我們的結果過於自信。 與此相關的應該是從這些數據產生可解釋的“玻璃盒”預測(而不是“黑盒”預測,其中算法隱藏或不清楚)。

社交媒體數據經常(相當)被批評為小型, 不具代表性的樣本 更廣泛的人口。 研究人員面臨的主要挑戰之一是弄清楚如何在統計模型中解釋這些偏差數據。 而 每年都有更多的人使用社交媒體,我們必須繼續嘗試了解這些數據的偏見。 例如,數據仍然傾向於以較老的人口為代價而過度代表年輕人。

只有在開發出更好的偏差校正方法後,研究人員才能從推文中做出完全自信的預測。

關於作者

劉易斯米切爾,應用數學講師, 阿德萊德大學

這篇文章最初發表於 談話。 閱讀 原創文章.

相關書籍

at InnerSelf 市場和亞馬遜