Christopher Marlowe的可能肖像。 (信用:通過Wikimedia Commons匿名)

新的統計分析認為克里斯托弗馬洛可能是威廉莎士比亞三人的共同作者 亨利六世 播放。

自從吟遊詩人自己的一生以來,莎士比亞是否真正在他戲劇的每個場景中寫下每一個字的問題一直在流傳。 更為狂野的陰謀理論聲稱劇作家從未真正存在過,或者只是演員而不是劇作家。 文學學者一直在爭論哪些劇本可能是合著的 - 而那些未經認可的合著者可能是誰。

賓夕法尼亞大學工程與應用科學學院的信息科學家與德蒙福特大學的莎士比亞學者合作,正在使用一種新的統計方法來深入研究這個問題。

莎士比亞得到了幫助

在即將發表的一篇文章中 莎士比亞季刊,他們提供了所有三個新證據 亨利六世 戲劇包含由另一位作者撰寫的語言。 他們的分析認為Christopher Marlowe是最有可能的候選人,儘管其他作家也可能參與其中。

“更可靠的方法是使用功能性而非有意義的詞語:'the','and,''或'to','等等。”


內在自我訂閱圖形


有一件事是肯定的:莎士比亞沒有自己寫這些劇本。

甚至在計算機出現之前,文學學者就試圖量化作者在解決歸因問題方面的風格。 然而,可靠技術的嚴謹性 - 通常涉及人工計數 - 引發了爭議。 計算方法使該領域重新煥發活力,有望提高可靠性和客觀性。

“使用信息科學來回答有關爭議作者身份的問題可以追溯到二十年前,而且它隨著計算能力的增長而增長。 但我們的方法不僅僅是計算,“電氣和系統工程系副教授亞歷杭德羅·里貝羅說。

專注於小詞

早期的計算方法試圖通過詞彙和用法來量化作者風格。 計算某些單詞的頻率並將它們跨文本進行比較,用於創建作者詞彙的簡介。 然而,這種方法有一個缺陷 - 文本中使用的單詞的分佈可能比其作者更受其主題的影響。

“更可靠的方法是使用功能性而非有意義的詞語:'the','and,''或'to','等等,”共同作者Santiago Segarra說。 “每個人都必須使用這些詞語,因此分析作者之間的差異如何接近客觀衡量'風格'。”

Penn團隊並沒有簡單地計算這些詞的頻率,而是測量了它們彼此的接近程度。 在構建出現在目標文本中的50-100功能詞之間的列表之後,研究人員應用算法從它們中導出“詞鄰接網絡”。

每對功能詞基於它們彼此出現的單詞數量給出分數。 這些得分在同一作者的不同文本之間非常一致,充當了一種風格的“指紋”。

“例如,”里貝羅說,“如果我們訓練這個系統是由我和聖地亞哥的戲劇,然後給我們其中一個人寫的另一個劇本,它可以告訴哪個人在98中寫了百分之一的時間。 “

訓練算法

由於了解莎士比亞作者身份正在進行的爭論,賓夕法尼亞大學團隊與德蒙福特的莎士比亞研究教授加布里埃爾伊根合作,以確保他們在學術共識的範圍內工作。 例如,學者現在廣泛接受約翰弗萊徹作為莎士比亞後期戲劇的合著者, 兩位貴族親屬。 一些莎士比亞早期的作品,如 亨利六世 戲劇和 泰特斯,被認為是合作,但多少和誰不太清楚。 這使它們成為深入分析的良好目標。

“語言是最終的'大數據'問題。”

研究人員將他們的算法訓練在整個莎士比亞戲劇的語料庫中,為他開發了一個風格指紋。 他們還為幾位著名的同時代人開發了指紋,包括Fletcher,Christopher Marlowe,Thomas Middleton,Ben Jonson,George Peele等。 最後,他們將所有候選人的所有文本合併為一個簡介,基本上是那個時代英語作家的“平均”指紋。

對莎士比亞語料庫中鄰接網絡指紋一詞的分析提出了三者 亨利六世 戲劇是莎士比亞戲劇中的風格異常。 這種異常使得Shakespare完全不可能完整地編寫這些劇本,這證實了其他團隊的計算方法所產生的結果。

“我們看到不同方法的獨立研究收斂於同一個結論,”伊根說,“這些獨立方法越多,我們就越有信心。”

自信的 亨利六世 戲劇是異常值,接下來的任務是看看他們可能包含的其他風格指紋。 克里斯托弗馬洛和喬治皮爾,長期以來一直被認為是未命名的合作者 泰特斯,是兩個主要候選人。

“如果你必須挑選一名候選人,那就是Marlowe,”Segarra說。 “如果你必須選擇兩個,那麼你會選擇Marlowe和Peele,但在後者的情況下,我們沒有足夠大的樣本來完全訓練分類器。 一旦你將這與歷史證據結合起來,Marlowe顯然顯然是首選合著者。“

伊根相信歷史證據會向Marlowe傾斜。 “其他使用完全不同方法的調查人員最近發現了使馬洛成為主要候選人的證據。”

“這裡有一場非常著名的騷亂場面 亨利六世2部分,“伊根說,”革命者傑克凱德的追隨者之一說,“我們做的第一件事就是殺死所有的律師。” 我認為Marlowe負責Jack Cade的場景。 當然,我們不知道他們是否坐在一起並擔任共同作者。 例如,莎士比亞之後可能會調整這些段落。“

由莎士比亞和馬洛

伊根和他的共同編輯 新牛津莎士比亞全集 將Marlowe確定為莎士比亞所有三人的共同作者 亨利六世 播放。 新牛津莎士比亞,其中包含所有莎士比亞作品的現代和原始拼寫版本,加上分析和評論,被認為是劇作家中最具權威性的學術資源。

“這些關於語言的問題在ENIAC的計算機誕生地得到解決是恰當的,”Egan說。

“語言是最終的'大數據'問題,將作者身份歸於其合法所有者既是技術挑戰,也是編輯的道德義務。 二十一世紀來自不同背景和不同但互為補充的技能的作家的合作應該能夠揭示出十六世紀的合作,這種合作的起源也是多種多樣的。“

資源: 賓夕法尼亞大學

相關書籍:

at InnerSelf 市場和亞馬遜