在線說謊6 29

生活中有三件事你可以確定:死亡,稅收和撒謊。 英國近期的英國脫歐公投確實證明了後者的確如此 離開廣告系列 服務承諾 看起來更多 点讚 豬肉餡餅 而不是堅實的事實。

但從互聯網廣告,簽證申請和學術文章到政治博客,保險索賠和約會檔案,我們可以分辨無數的數字謊言。 那麼如何才能發現這些在線資訊呢? 來自威斯敏斯特大學的Stephan Ludwig,來自倫敦城市大學Cass商學院的Ko de Ruyter,Louvain天主教大學的Mike Friedman,你的真正開發了一個數字測謊儀 - 它可以發現一大堆互聯網的不實之詞。

在我們的新研究中,我們使用語言線索來比較數以萬計的預先確定為謊言的電子郵件與已知的真實電子郵件。 通過這種比較,我們開發了一種可以檢測欺騙的文本分析算法。 它分三個層次。

1。 用詞

在處理大量數字數據時,關鍵字搜索可能是一種合理的方法。 因此,我們首先發現了兩個文檔集之間的字使用差異。 這些差異識別可能包含謊言的文本。 我們發現謊言的人通常使用較少的人稱代詞,例如我,你和他/她,以及更多的形容詞,例如聰明,無所畏懼和崇高。 他們也使用較少的第一人稱單數代詞,例如我,我,我的,帶有差異的單詞,例如can,should,would,以及更多第二人稱代詞(你,你的)和成就詞(賺,英雄) ,贏)。

較少的人稱代詞表明作者試圖將自己與言語分離,而使用更多的形容詞則試圖通過一連串多餘的描述來分散謊言。 較少的第一人稱單數代詞與差異詞相結合表明缺乏微妙性和積極的自我形象,而更多的第二人稱代詞與成就詞相結合表明試圖恭維收件人。 因此,我們在算法中包含了搜索項的這些組合。


內在自我訂閱圖形


2。 結構審查

解決方案的另一部分在於分析認知過程詞的變化,例如原因,因為,知道和應該 - 並且我們確定了結構詞和謊言之間的關係。

說謊者不能從實際記憶中產生欺騙性電子郵件,因此他們避免自發逃避檢測。 這並不意味著說謊者總體上比說實話的人使用更多的認知過程詞,但他們確實更一致地包括這些詞。 例如,他們傾向於將每個句子連接到下一個 - “我們知道這是因為這個,因為這應該是這種情況”。 我們的算法檢測通信中過程詞的這種用法。

3。 跨電子郵件方法

我們還研究了電子郵件發件人在與其他人交換大量電子郵件時改變其語言風格的方式。 這部分研究表明,隨著交換的繼續,發送者傾向於使用接收者使用的功能詞。

功能詞是有助於語法或結構的詞,而不是句子的意思 - 例如,a,am,to。 並且發件人修改了他們的消息的語言風格以匹配接收者的語言風格。 因此,我們的算法識別並收集這種匹配。

令人興奮的應用程

消費者監管機構可以使用這種技術為可疑性質的廣告分配“可能說謊”的分數。 安全公司和國家邊防部隊可以使用該算法評估簽證申請和登陸卡等文件,以更好地監控訪問和進入規則和法規的遵守情況。 高等教育秘書考試委員會和學術期刊編輯可以改進他們的校對工具,自動檢查學生論文和學術文章的抄襲。

事實上,潛在的應用程序一直在繼續。 政治博客可以成功地監控他們的社交媒體互動以獲得文本異常,而約會和評論網站可以根據用戶“可能說謊”的分數對用戶提交的消息進行分類。 保險公司可以更好地利用他們的時間和資源進行索賠審計。 會計師,稅務顧問和法醫專家可以通過我們的算法調查財務報表和稅收索賠,並找到欺騙性的吸煙槍。

人類在有意識地發現欺騙行為方面非常糟糕。 確實, 發現謊言的人的準確性只是54%,幾乎沒有機會。 與此同時,我們的數字測謊儀的準確度為70%。 它可以用於打擊計算機化內容中出現的欺詐行為,隨著技術的發展,其Pinocchio警告可以完全自動化,其準確性將進一步提高。 正如Pinocchio的鼻子反射性地表示虛假,我們的數字測謊儀也是如此。 纖維者要小心。

關於作者

談話Tom van Laer,倫敦城市大學市場營銷高級講師

這篇文章最初發表於 談話。 閱讀 原創文章.

相關書籍

at InnerSelf 市場和亞馬遜