你在Twitter上的朋友如何讓你遠離你的匿名

當您瀏覽互聯網時,在線廣告商會跟踪 幾乎每個訪問過的網站,積累了大量關於您的習慣和喜好的信息。 當你訪問一個新聞網站時,他們可能會看到你是籃球,歌劇和神秘小說的粉絲,因此選擇適合你口味的廣告。

廣告商使用此信息來創建高度個性化的體驗,但他們通常不知道您到底是誰。 他們只觀察您的數字線索,而不是您的身份本身,因此您可能會覺得您保留了一定程度的匿名性。

但是,在我合著的一篇論文中 與Ansh Shukla,Sharad Goel和Arvind Narayanan,我們證明這些匿名的網頁瀏覽記錄實際上通常可以與現實世界的身份相關聯。

為了測試我們的方法,我們建立了 一個網站 為了本研究的目的,人們可以捐贈他們的瀏覽歷史記錄。 然後我們試圖看看我們是否可以僅使用公開數據將他們的歷史記錄鏈接到他們的Twitter個人資料。 我們嘗試去匿名化的人中有72%被正確識別為搜索結果中的最佳候選人,而81百分比是15的最佳候選人之一。

privacy2 2 8去匿名化網站的屏幕截圖。

據我們所知,這是迄今為止最大規模的去匿名化演示,因為它從數以億計的Twitter用戶中挑選出了正確的用戶。 此外,我們的方法只需要一個人點擊他們的社交媒體供稿中出現的鏈接,而不是他們發布任何內容 - 所以即使那些小心他們在互聯網上分享的內容的人仍然容易受到這種攻擊。


內在自我訂閱圖形


如何運作

在高層次上,我們的方法基於簡單的觀察。 每個人都有一個非常獨特的社交網絡,包括來自學校,工作和生活的各個階段的家人和朋友。 因此,您的Facebook和Twitter Feed中的鏈接集非常獨特。 點擊這些鏈接會在瀏覽歷史記錄中留下一個標記。

通過查看個人訪問過的網頁集,我們能夠選擇類似的社交媒體供稿,從而產生可能生成該網絡瀏覽歷史記錄的候選人列表。 通過這種方式,我們可以將一個人的真實世界身份與他們訪問過的幾乎完整的鏈接相關聯,包括從未在任何社交媒體網站上發布的鏈接。

實施這一戰略涉及兩個關鍵挑戰。 第一個是理論上的:您如何量化特定社交媒體Feed與給定Web瀏覽歷史的相似程度? 一種簡單的方法是測量瀏覽歷史記錄中也出現在Feed中的鏈接分數。 這在實踐中運行得相當好,但它誇大了大型Feed的相似性,因為它們只包含更多鏈接。 我們採取替代方法。 我們假設網絡瀏覽行為的風格化概率模型,然後計算具有該社交媒體饋送的用戶產生觀​​察到的瀏覽歷史的可能性。 然後我們選擇最有可能的社交媒體Feed。

第二個挑戰涉及實時識別最相似的飼料。 在這裡我們轉向推特,因為Twitter推特(與Facebook相反)主要是公開的。 但是,即使提要是公開的,我們也不能簡單地創建Twitter的本地副本,我們可以根據這些副本運行查詢。 相反,我們應用一系列技術來大幅減少搜索空間。 然後,我們將緩存技術與按需網絡爬網相結合,構建最有希望的候選者的源。 在這個減少的候選集上,我們應用我們的相似性度量來產生最終結果。 給定瀏覽歷史記錄,我們通常可以在60秒內執行整個過程。

我們的方法對於更積極地瀏覽Twitter的人來說更準確。 在Twitter上點擊100或更多鏈接的百分之九十的參與者可以與他們的身份相匹配。

即使沒有參與者的同意,許多公司也有跟踪資源來進行像這樣的攻擊。 我們嘗試僅使用特定跟踪公司可見的瀏覽歷史部分對每個實驗參與者進行去匿名化(因為這些公司在這些頁面上都有跟踪器)。 我們發現有幾家公司有資源準確識別參與者。

隱私2 8其他去異化研究

其他幾項研究使用公開的足跡來對敏感數據進行去匿名化。

也許沿著這些方向進行的最著名的研究是由 Latanya Sweeney 在2002的哈佛大學。 她發現了這一點 87百分比的美國人是唯一可識別的 基於他們的郵政編碼,性別和出生日期的組合。 這三個屬性在公共選民登記數據(她為20購買)和匿名醫療數據(廣泛分發,因為人們認為數據是匿名的)中都有。 通過連接這些數據源,她找到了馬薩諸塞州州長的醫療記錄。

在2006, Netflix舉辦了一場比賽 提高其電影推薦的質量。 他們發布了人們電影評級的匿名數據集,並向團隊提供了1百萬美元,可以通過10百分比提高他們的推薦算法。 電腦科學家 Arvind Narayanan維塔利Shmatikov 我們注意到人們觀看的電影非常獨特,數據集中的大多數人都可以根據他們電影的一小部分進行唯一識別。 換句話說,基於Netflix電影選擇和IMDB評論,研究人員能夠確定Netflix用戶實際上是誰。

隨著社交媒體的興起,越來越多的人分享看似無害的信息,但實際上卻揭示了很多個人信息。 由...領導的一項研究 Michal Kosinski 在劍橋大學使用Facebook喜歡預測人們的 性取向,政治觀點和人格特質.

另一支隊伍領導 吉爾伯特Wondracek 在維也納科技大學,建立了一個“去匿名機器”,它找出了人們參與社交網絡Xing的哪些群體,並用它來弄清楚他們是誰 - 因為你所參與的群體往往足以唯一地識別您。

你可以做什麼

除非你停止使用互聯網或參與公共生活,否則大多數攻擊都很難防禦。

即使您停止使用互聯網,公司仍然可以收集您的數據。 如果您的幾個朋友將他們的電話聯繫人上傳到Facebook,並且您的號碼在他們的所有聯繫人列表中,那麼即使您不使用他們的服務,Facebook也可以對您做出預測。

防範像我們這樣的去匿名算法的最好方法是限制有權訪問您的匿名瀏覽數據的人。 瀏覽器擴展名 Ghostery 阻止第三方跟踪器。 這意味著,即使您正在訪問其網站的公司知道您正在訪問它們,但在其網頁上展示廣告的廣告公司也無法收集您的瀏覽數據並將其匯總到多個網站。

如果您是網站站長,則可以讓用戶使用瀏覽您的網站來保護用戶 HTTPS。 使用HTTP瀏覽允許攻擊者通過嗅探網絡流量來獲取您的瀏覽歷史記錄,這可以讓他們執行此攻擊。 許多網站已經切換到HTTPS; 當我們從網絡流量嗅探器的角度重複我們的去匿名化實驗時,只有31百分比的參與者可以被去匿名化。

但是,一般來說,你幾乎無法保護自己免受去匿名攻擊,也許最好的行動方案就是調整一個人的期望。 在這個數字時代,沒有什麼是私密的。

關於作者

Jessica Su,Ph.D。 斯坦福大學學生, 斯坦福大學

這篇文章最初發表於 談話。 閱讀 原創文章.

相關書籍

at InnerSelf 市場和亞馬遜