AI Can Book A Restaurant Or A Hair Appointment, But Don't Expect A Full Conversation 確保您的AI助手可以為您預訂約會,但是有意義的對話又如何呢? Shutterstock / Bas Nastassia

谷歌最近 亮相 其最新的語音AI,稱為Duplex。 雙工聽起來像一個真實的人,有停頓,“嗯”和“ ahhs”。

這家科技巨頭表示,可以與人們通電話預約和檢查營業時間。

雙工安排美髮沙龍約會。 谷歌445 KB (下載)

在Google揭幕戰上錄製的對話中,它與接收方的人員進行了無縫對話,他們似乎完全不知道自己沒有與其他人交談。

叫餐廳的雙工。 谷歌399 KB (下載)

這些電話離開了 Google展會上以技術為導向的觀眾大聲歡呼。 在一個示例中,AI甚至可以理解與之交談的人甚麼時候變得很困惑,並且能夠繼續跟進對話,並在被告知不需要預訂時得到適當的響應。


innerself subscribe graphic


人工智能助手的興起

如果您使用了任何當前可用的語音助手,例如 Google Home,Apple的Siri或Amazon Echo,這種靈活性可能會讓您感到驚訝。 這些助手是 眾所周知的困難 用於標準請求以外的任何其他功能,例如給聯繫人打電話,播放歌曲,進行簡單的網絡搜索或設置提醒。

當我們與這些新一代助手交談時,我們總是意識到我們正在與AI交談,並且我們經常會相應地調整我們所說的內容,以期希望最大程度地發揮其功能。

但是與Duplex通話的人不知道。 他們猶豫,回溯,跳過單詞,甚至在句子中途更改事實。 雙層公寓不容錯過。 它似乎真的很了解發生了什麼。


閱讀更多: 智能揚聲器可能成為家庭自動化的轉折點


那麼,未來到來的時間比人們預期的要早嗎? 世界上充滿了在線(和電話)人工智能助手,他們開心地聊天並為我們做一切嗎? 或更糟糕的是,我們會突然被聰明的AI包圍著,他們的想法和思想可能包括人類,也可能不包括人類。

答案是肯定的“否”。 要了解原因,可以快速了解如何驅動諸如此類的AI。

雙面:如何運作

這就是 雙工AI系統 好像。

傳入的聲音通過ASR系統進行處理。 這將生成文本,並使用上下文數據和其他輸入進行分析,以生成通過文本語音轉換(TTS)系統大聲讀取的響應文本。 谷歌

系統採用“輸入”(如左圖所示),這是它正在電話上與之交談的人的聲音。 語音通過自動語音識別(ASR),然後轉換為文本(書面文字)。 ASR本身是一種先進的AI系統,但在現有語音助手中已經普遍使用。

然後掃描文本以確定句子的類型(例如問候語,陳述,問題或指示),並提取所有重要信息。 然後,關鍵信息成為上下文的一部分,這是額外的輸入,可以使系統與對話中到目前為止所說的保持最新。

然後,將來自ASR和上下文的文本發送到Duplex的心臟,稱為人工神經網絡(ANN)。

在上圖中,ANN由圓圈和連接它們的線表示。 人工神經網絡粗略地模擬了我們的大腦,其中有數十億個神經元連接在一起形成巨大的網絡。

還不算腦子

但是,人工神經網絡比我們的大腦要簡單得多。 這個人唯一要做的就是將輸入的單詞與適當的響應相匹配。 通過向ANN展示預訂餐廳的人的數千次對話的筆錄來學習。

通過足夠的示例,它可以了解正在與之交談的人期望輸入什麼樣的句子,以及對每個輸入者給出什麼樣的響應。

然後,將ANN生成的文本響應發送到文本語音轉換(TTS)合成器,該合成器將其轉換為語音,然後在電話上播放給人。

再一次,這款TTS合成器是一種先進的AI –在這種情況下,它比手機上的AI更先進,因為它的發音幾乎與任何普通語音都無法區分。

這裡的所有都是它的。 儘管它是最先進的,但係統的核心實際上只是一個文本匹配過程。 但是您可能會問–如果這麼簡單,為什麼我們以前不能這樣做呢?

博學的回應

事實是,人類語言以及現實世界中的大多數其他事物太易變且無序,無法由普通計算機很好地處理,但是這種問題對於AI來說是完美的。

請注意,AI產生的輸出完全取決於它在學習時所顯示的對話。

這意味著需要培訓不同的AI來進行不同類型的預訂-例如,一個AI可以預訂餐廳,而另一個AI可以預訂髮型。

這是必要的,因為對於不同類型的預訂,問題和回答的類型可能相差很大。 這也是Duplex可以比需要處理多種類型請求的常規語音助手更好的原因。

所以現在很明顯,我們不會很快與AI助手進行隨意的對話。 實際上,我們當前所有的AI都不過是模式匹配器(在這種情況下,就是文本的匹配模式)。 他們不了解所聽到的,所看的內容或所說的內容。

模式匹配是我們大腦要做的一件事,但是它們也做得更多。 創建更強大的AI的關鍵可能是釋放更多的大腦秘密。 我們要嗎? 好吧,那是 另一個問題.The Conversation

關於作者

博士後研究員斯特拉頓(Peter Stratton), 昆士蘭大學

本文重新發表 談話 根據知識共享許可。 閱讀 原創文章.