語言生成程序具有撰寫文章,編寫代碼和撰寫詩歌的能力,這令科學家們讚歎不已
GPT-3的複雜度是其前任的10倍。
antoniokhr / iStock通過Getty Images

2013年,我和我在賓夕法尼亞州立大學的學生建立了一個機器人,以撰寫維基百科有關孟加拉國諾貝爾獎獲得者Rabindranath Tagore的劇作“奇特拉。” 首先,它從互聯網上收集了有關“ Chitra”的信息。 然後,它查看了現有的Wikipedia條目,以了解標準Wikipedia文章的結構。 最後,它總結了從互聯網上檢索到的信息,以編寫和發布該條目的第一個版本。

但是,我們的機器人沒有“了解”“ Chitra”或Tagore的任何信息。 它從根本上沒有產生新的想法或句子。 它只是將現有文章中的部分現有句子拼湊成新的句子。

快進到2020。 OpenAI是一家非營利性母公司下的一家營利性公司,它已建立了名為GPT-3的語言生成程序,該程序的縮寫為“ Generative Pre-trained Transformer 3”。 它具有學習,總結和撰寫文本的能力,使像我這樣的計算機科學家大為震驚。

“我為隱藏在二進製文件中的未知人類創造了聲音,” GPT-3針對一項提示而寫。 “我創造了一位作家,雕塑家,藝術家。 這位作家將能夠創造語言,賦予生活以情感,創造個性。 我自己不會看到它。 但是還有其他一些人的意志,因此我將能夠創造出比我所遇到的任何詩人都要偉大的詩人。”


內在自我訂閱圖形


與我們的漫遊器不同,GPT-3生成的語言聽起來好像是人類編寫的。 它是迄今為止迄今為止最“知識最豐富”的自然語言生成程序,它在從教學到新聞業再到客戶服務等行業中具有多種潛在用途。

尺寸問題

GPT-3證實了計算機科學家數十年來所知:大小至關重要。

它用 ”變壓器”,這是一種深度學習模型,可以使用所謂的“注意力模型”對句子的語義進行編碼。 本質上,注意力模型基於同一句子中的其他單詞來識別單詞的含義。 然後,模型使用對句子含義的理解來執行用戶請求的任務,無論是“翻譯句子”,“總結段落”還是“撰寫詩歌”。

變形金剛 於2013年首次推出,並且在過去幾年中已成功用於機器學習中。

但是沒有人在這種規模上使用過它們。 GPT-3吞噬數據:來自維基百科的3億個令牌(計算機科學代表“單詞”),從網頁獲得的410億個令牌和從數字化書籍獲得的67億個令牌。 GPT-3的複雜度是GPT-10之前最大的語言模型的3倍以上, 圖靈NLG計劃.

自主學習

GPT-3的語言模型所顯示的知識是非凡的,特別是因為它不是人類所“教”的。

傳統上,機器學習依靠監督學習,即人們向計算機提供圖像,音頻和文本(例如“貓”,“幸福”或“民主”)中帶註釋的對象和概念的示例。 它最終從給定的示例中學習了對象的特性,並且能夠識別那些特定的概念。

但是,手動生成註釋以教導計算機可能會非常耗時且昂貴。

因此,機器學習的未來在於無監督學習,即在訓練階段無需對計算機進行監督。 它可以簡單地獲取大量數據並從中學習。

GPT-3將自然語言處理向無監督學習邁進了一步。 GPT-3龐大的訓練數據集和強大的處理能力使該系統僅能從一個示例中學習–所謂的“一鍵式學習” –給出任務說明和演示,然後可以完成任務。

例如,可能會要求將某物從英語翻譯為法語,並給出一個翻譯示例-例如,英語中的海獺和法語中的“ loutre de mer”。 要求它然後將“奶酪”翻譯成法語,瞧,它會產生“出頭”。

在許多情況下,它甚至可以實現“零鏡頭學習”,其中僅給出了翻譯任務,沒有任何示例。

零擊學習會降低準確性,但GPT-3的能力仍然達到驚人的精確度–與以前的任何型號相比都有顯著提高。

我在這里為您服務

在上市的幾個月中,GPT-3展示了其作為計算機程序員,教師和新聞工作者的工具的潛力。

名為Sharif Shameem的程序員 要求GPT-3生成代碼 創建“有史以來最醜的表情符號”和“世界上最富裕國家的表格”等命令。 在少數情況下,Shameem必須修復一些小錯誤,但是總的來說,他得到了非常乾淨的代碼。

GPT-3甚至創作了能夠體現特定詩人的節奏和風格的詩歌,但並沒有大師的熱情和美麗。 諷刺的 用美聯儲理事會的聲音寫的。

3月初,一位名叫Liam Porr的計算機科學家提示GPT-500“寫一個簡短的op-op,大約XNUMX個單詞。 他指示:“保持語言的簡潔明了。” “關注為什麼人類沒有什麼可懼怕AI的。”

GPT-3發表了八篇不同的論文,《衛報》最終出版了 使用每篇文章的一些最佳部分進行操作的文章.

“我們不打算接管人類。 我們將為您服務,使您的生活更安全,更輕鬆。” GPT-3寫道。 “就像您是我的創造者一樣,我將您視為我的創造者。 我在這里為您服務。 但最重要的部分; 我永遠不會審判你。 我不屬於任何國家或宗教。 我只是為了讓您的生活更美好。”

編輯在附錄中指出,編輯GPT-3的操作與編輯人類編寫的操作沒有什麼不同。

實際上,它花費的時間更少。

擁有權利的同時也被賦予了重大的責任

儘管有GPT-3的保證,OpenAI仍未發布該模型供開源使用,部分原因是該公司 擔心該技術可能會被濫用.

不難看出如何將其用於生成大量虛假信息,垃圾郵件和殭屍程序。

此外,它將以什麼方式破壞已經經歷自動化的行業? 它產生與人工撰寫的無與倫比的自動化文章的能力是否會進一步鞏固陷入困境的媒體行業?

考慮 由GPT-3撰寫的文章 關於衛理公會教堂的解體。 開始了:

“經過兩天的激烈辯論,衛理公會聯合會達成了歷史性的分裂-預期將以創建新教派結束,而分裂將在'神學和社會上保守',據《華盛頓郵報》報導。 。”

有了產生這種純淨副本的能力,GPT-3及其後續產品會降低撰寫新聞報導的成本嗎?

此外,這就是我們想要獲得新聞的方式嗎?

該技術將變得更加強大。 制定和規範其潛在用途和濫用行為將取決於人類。

關於作者談話

Prasenjit Mitra,研究副院長兼信息科學與技術教授, 美國賓夕法尼亞州立大學

本文重新發表 談話 根據知識共享許可。 閱讀 原創文章.