劍橋Analytica的Facebook定位模型如何真正發揮作用您在線查詢的準確程度如何? Andrew Krasovitckii / Shutterstock.com

研究人員的工作是中心的 Facebook-Cambridge Analytica數據分析和政治廣告嘩然 已經透露他的方法很像那個 Netflix用於推薦電影.

在給我的電子郵件中,劍橋大學學者亞歷​​山大·高根解釋了他的統計模型如何處理劍橋Analytica的Facebook數據。 他聲稱的準確性表明它的工作原理和 建立了選民定位方法 基於種族,年齡和性別等人口統計數據。

如果得到確認,Kogan的帳戶將意味著Cambridge Analytica使用的數字建模 幾乎不是虛擬水晶球 一些人聲稱。 然而,高根提供的數字 也表明 什麼是 - 而不是 - 實際上可行 by 結合個人數據 機器學習 為了政治目的。

然而,關於一個關鍵的公眾關注點,Kogan的數字表明有關用戶個性的信息或“消費心理學“這只是該模式如何針對公民的一小部分。 嚴格來說,這不是一種人格模型,而是將人口統計學,社會影響,人格和其他一切都歸結為一個大相關的問題。 即使所銷售的產品不像收費那樣,這種全面關聯和調用它的個性化方法似乎也創造了一種有價值的競選工具。


內在自我訂閱圖形


人格定位的承諾

在特朗普競選顧問Cambridge Analytica使用的揭露之後 來自50百萬Facebook用戶的數據 Facebook在2016美國總統大選期間以數字政治廣告為目標 股票價值損失數十億美元,政府 大西洋兩岸開展調查,還有一個新生兒 社會運動 呼籲用戶 #DeleteFacebook.

但一個關鍵問題仍然沒有答案:劍橋Analytica真的能夠根據他們的個性特徵 - 甚至是他們的“有效地將競選信息定位到公民身上內心的惡魔,“作為公司舉報人涉嫌?

如果有人知道劍橋Analytica用其龐大的Facebook數據做了什麼,那就是亞歷山大·高根和約瑟夫·錢塞爾。 它是 他們的創業公司Global Science Research 從中收集的個人資料信息 270,000 Facebook用戶和數以千萬計的朋友 使用名為“thisisyourdigitallife”的個性測試應用程序。

的一部分 我自己的研究 注重理解 機器學習 方法,和 我即將出版的書 討論數字公司如何使用推薦模型來構建受眾。 我對Kogan和Chancellor的模型如何運作有所預感。

所以我給Kogan發了電子郵件詢問。 Kogan還是一個 劍橋大學研究員; 他的合作者 Chancellor現在在Facebook工作。 在一次非凡的學術禮儀中,Kogan回答道。

他的回答需要一些拆包和一些背景知識。

從Netflix獎到“心理測量學”

回到2006,當它仍然是一個DVD-by-mail公司時,Netflix提供了一個 $ 1萬元的獎勵 對於那些開發出更好的方法來預測用戶電影排名的人比公司已有。 一個驚喜的頂級競爭對手是 獨立軟件開發人員使用假名Simon Funk,其基本方法最終被納入所有頂級球隊的參賽作品。 Funk採用了一種名為“奇異值分解,“將用戶對電影的收視率縮小為” 一系列因素或組成部分 - 基本上是一組推斷類別,按重要性排名。 作為Funk 在博客文章中解釋,

“因此,例如,一個類別可能代表動作片,頂部有很多動作的電影,底部的電影很慢,相應的用戶喜歡頂部的動作片,而那些喜歡慢動作的人則喜歡底部。”

因素是人工類別,並不總是像人類想出的類別。 該 Funk早期Netflix模型中最重要的因素 是喜歡“珍珠港”和“婚禮策劃師”等電影的用戶定義的,同時也討厭“失落的翻譯”或“一塵不染的心靈的永恆陽光”等電影。他的模型展示了機器學習如何找到群體之間的相關性。人類和電影群體,人類自己永遠不會發現的。

Funk的一般方法使用50或100對用戶和電影最重要的因素,以便對每個用戶如何評價每部電影進行合理的猜測。 這種方法通常被稱為 降維 或矩陣分解,並不新鮮。 政治學研究人員證明了這一點 使用唱名表決數據的類似技巧 可以用90的準確率來預測國會議員的投票。 在心理學中“五大“模型也被用來通過將人格問題聚集在一起來預測行為,這些問題往往得到類似的回答。

儘管如此,Funk的模型還是一個很大的進步:它使得該技術能夠很好地處理大量數據集,即使是那些有大量數據丟失的數據集 - 比如Netflix數據集,其中一個典型的用戶在公司的數千個電影中只評了幾十部電影。圖書館。 Netflix獎競賽結束十多年後, 基於SVD的方法, 或者 隱式數據的相關模型,仍然是許多網站預測用戶將閱讀,觀看或購買的工具。

這些模型也可以預測其他事物。

Facebook知道你是否是共和黨人

在2013,劍橋大學的研究人員Michal Kosinski,David Stillwell和Thore Graepel發表了一篇關於該文章的文章 Facebook數據的預測能力,使用通過在線人格測試收集的信息。 他們的初步分析幾乎與Netflix獎項上使用的分析相同,使用SVD將他們“喜歡”的用戶和事物分類為最高100因子。

該論文表明,用戶的Facebook“喜歡”單獨製作的因子模型是 95準確率 在區分黑人和白人的受訪者中,93在區分男性和女性方面的準確度是準確的,而88在區分識別為男同性戀者和識別為男性的男性方面的準確度是準確的。 它甚至可以正確區分共和黨人與民主黨人85的百分比。 雖然不那麼準確,但它也很有用 預測用戶的分數 關於“五大”人格測驗。

公眾嘩然 作為回應; 幾週內Facebook就有了 讓用戶喜歡私密 默認情況下。

Kogan和Chancellor,當時也是劍橋大學的研究人員,開始使用Facebook數據進行選舉目標,作為與Cambridge Analytica的母公司SCL合作的一部分。 Kogan邀請Kosinski和Stillwell加入他的項目,但它 沒有成功。 據報導,Kosinski懷疑Kogan和Chancellor可能有 反向設計Facebook“喜歡”模式 對於Cambridge Analytica。 Kogan否認了這一點,稱他的項目“建立了我們所有的模型 使用我們自己的數據,使用我們自己的軟件收集。“

Kogan和Chancellor實際上做了什麼?

當我跟踪故事的發展時,很明顯Kogan和Chancellor確實通過thisisydigititife應用程序收集了大量自己的數據。 他們當然可以建立一個預測性的SVD模型,就像Kosinski和Stillwell發表的研究中所描述的那樣。

所以我給Kogan發了電子郵件,詢問他是否就是這麼做的。 令我驚訝的是,他回信道。

“我們沒有完全使用SVD,”他寫道,並指出,當某些用戶比其他用戶擁有更多“喜歡”時,SVD可能會掙扎。 相反,Kogan解釋說,“這種技術實際上是我們自己開發的......它不屬於公共領域。”沒有詳細說明,Kogan將他們的方法稱為“多步驟” 共生 辦法“。

然而,他的信息繼續證實他的方法確實類似於SVD或其他矩陣分解方法,如Netflix獎競賽和Kosinki-Stillwell-Graepel Facebook模型。 Facebook數據的維度降低是他模型的核心。

它有多準確?

Kogan建議使用的確切模型並不重要 - 重要的是其預測的準確性。 根據Kogan的說法,“預測分數與實際分數之間的相關性......在所有人格維度上都在[30%]左右。”相比之下,一個人之前的五大分數是關於 70到80的百分比準確 在他們重新參加考試時預測他們的分數。

當然,Kogan的準確性聲明無法獨立驗證。 任何處於如此高調醜聞之中的人都可能有動力低估自己的貢獻。 在他的 出現在CNN上,Kogan向一位越來越不相信的Anderson Cooper解釋說,事實上,這些模型實際上並沒有很好地發揮作用。

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan回答有關CNN的問題。

事實上,高根聲稱的準確性似乎有點低,但似乎有道理。 Kosinski,Stillwell和Graepel報告的結果可比或略好一些 其他學術研究 使用數字足跡來預測個性(儘管其中一些研究的數據多於Facebook“喜歡”)。 令人驚訝的是,如果現成的解決方案看起來同樣準確,那麼Kogan和Chancellor就會遇到設計自己的專有模型的麻煩。

但重要的是,該模型對人格評分的準確性可以將Kogan的結果與其他研究進行比較。 在猜測人口統計和政治變量方面,發布的模型在預測人格方面具有同等的準確性。

例如,類似的Kosinski-Stillwell-Graepel SVD模型在猜測黨派關係中的準確度是85%,即使不使用除喜歡之外的任何個人資料信息。 Kogan的模型具有相似或更好的準確性。 即使添加有關朋友或用戶人口統計信息的少量信息,也可能會將此準確度提高到90%以上。 關於性別,種族,性取向和其他特徵的猜測可能也會超過90%的準確度。

至關重要的是,這些猜測對於最活躍的Facebook用戶尤其有用 - 模型主要用於定位的人。 分析活動較少的用戶可能無論如何都不在Facebook上。

當心理特徵主要是人口統計學

了解模型的構建方式有助於解釋Cambridge Analytica顯然相互矛盾的陳述 的作用 - 要么 缺乏 - 在其建模中發揮個性剖析和心理特徵。 它們在技術上與Kogan描述的一致。

像Kogan這樣的模型可以估算出任何一組用戶可用的每個變量。 這意味著它會自動發生 估計五大人格評分 對於每個選民。 但這些人格得分是模型的輸出,而不是輸入。 所有模型都知道某些Facebook喜歡和某些用戶傾向於組合在一起。

通過這個模型,劍橋Analytica可以說它正在識別低開放度和高度神經質的人。 但同樣的模型,對每個用戶都有完全相同的預測,可以準確地聲稱是識別受教育程度較低的老共和黨人。

Kogan的信息也有助於澄清劍橋Analytica是否存在混淆 實際上刪除了它的寶庫 Facebook數據,當從數據構建模型時 似乎還在流傳,甚至 正在進一步發展.

談話降維模型的全部要點是以更簡單的形式在數學上表示數據。 就像劍橋Analytica拍攝了一張非常高分辨率的照片,將其調整為更小,然後刪除原始照片。 照片仍然存在 - 只要劍橋Analytica的模型存在,數據也有效。

關於作者

Matthew Hindman,媒體與公共事務副教授, 喬治華盛頓大學

這篇文章最初發表於 談話。 閱讀 原創文章.

相關書籍

at InnerSelf 市場和亞馬遜