Shutterstock/Valentyn640

1956 年,20 歲出頭的數學家和理論生物學家傑克·D·考恩(Jack D. Cowan) 在為期一年的倫敦之旅中拜訪了威爾弗雷德·泰勒(Wilfred Taylor) 和他的奇怪新“學習機」。當他到達時,他對面前的“大量設備”感到困惑。考恩只能袖手旁觀,看著「機器做它的事」。它似乎正在做的事情是執行「聯想記憶方案」——它似乎能夠學習如何找到聯繫並檢索資料。

它可能看起來像是笨重的電路塊,透過大量電線和盒子手工焊接在一起,但考恩親眼目睹的是神經網路的早期模擬形式——這是當今最先進的人工智慧的先驅,包括討論很多 ChatGPT 具有回應幾乎任何命令生成書面內容的能力。 ChatGPT 的底層技術是神經網路。

當考恩和泰勒站著看著機器工作時,他們真的不知道它是如何完成這項任務的。泰勒神秘的機器大腦的答案可以在它的「模擬神經元」的某個地方找到,在它的機器記憶所形成的關聯中,最重要的是,在它的自動化功能無法真正被完全解釋的事實中。這些系統需要幾十年的時間才能找到它們的用途並釋放其力量。

神經網路這個術語包含了廣泛的系統,但集中的是, 根據IBM,這些「神經網路——也稱為人工神經網路(ANN)或模擬神經網路(SNN)——是機器學習的子集,是深度學習演算法的核心」。至關重要的是,該術語本身及其形式和「結構受到人腦的啟發,模仿生物神經元相互發送信號的方式」。

在最初階段,人們可能對其價值仍有一些懷疑,但隨著時間的推移,人工智慧時尚已經堅定地轉向神經網路。它們現在通常被認為是人工智慧的未來。它們對我們以及人類的意義有重大意義。我們聽說過 最近這些擔憂的迴聲 呼籲暫停新的人工智慧開發六個月,以確保對其影響的信心。


內在自我訂閱圖形


如果認為神經網路僅僅與光鮮亮麗、引人注目的新玩意有關,那肯定是錯的。它們已經在我們的生活中紮根了。有些實用性很強。早在 1989 年,AT&T 貝爾實驗室的 Yann LeCun 領導的團隊就使用反向傳播技術來訓練系統 辨識手寫郵遞區號。 最近的 微軟的公告 Bing 搜尋將由人工智慧提供支持,使其成為“網路副駕駛”,這說明我們發現的事物以及我們如何理解它們將越來越成為這種自動化的產物。

利用大量資料來尋找模式人工智慧同樣可以被訓練來快速執行影像辨識等任務,從而將它們納入到 面部識別, 例如。這種識別模式的能力催生了許多其他應用,例如 預測股市.

神經網路也正在改變我們解釋和溝通的方式。由有趣的標題開發 谷歌大腦團隊, Google Translate 是神經網路的另一個突出應用。

您也不會想與其中一個下西洋棋或將棋。他們對規則的掌握以及對策略和所有記錄的走法的回憶意味著他們非常擅長遊戲(儘管 ChatGPT 似乎 與 Wordle 的鬥爭)。困擾人類圍棋棋手(圍棋是出了名的棘手策略棋盤遊戲)和西洋棋大師的系統是 由神經網路製成.

但他們的影響力遠遠超出了這些實例,而且還在持續擴大中。僅限於提及確切短語「神經網路」的專利檢索會產生 135,828 個結果。隨著這種快速且持續的擴張,我們能夠充分解釋人工智慧影響的機會可能會變得越來越渺茫。這些都是我在研究中一直在研究的問題 和我關於演算法思維的新書.

神秘的「不可知性」層

回顧神經網路的歷史告訴我們一些關於自動化決策的重要訊息,這些決策定義了我們的現在或可能在未來產生更深遠的影響。他們的存在也告訴我們,隨著時間的推移,我們對人工智慧的決策和影響的了解可能會更少。這些系統不僅僅是黑盒子,它們不僅僅是系統中無法看到或理解的隱藏部分。

這是不同的東西,植根於這些系統本身的目標和設計的東西。人們對無法解釋的事物有著長期的追求。越不透明,系統就被認為越真實和先進。這不僅僅是系統變得更加複雜或知識產權控制限制存取(儘管這些是其中的一部分)。相反,這就是說,驅動它們的精神對「不可知性」有著特殊而內在的興趣。這個謎團甚至被編碼到神經網路的形式和話語中。它們具有深深的堆積層——因此有了「深度學習」這個詞——而在這些深度中是聽起來更神秘的「隱藏層」。這些系統的奧秘深藏在表面之下。

人工智慧對我們的生活產生的影響越大,我們就越不了解它是如何產生的以及為什麼會產生這種影響。如今,人工智慧的發展勢頭強勁,這是可以解釋的。我們想知道它是如何運作的以及它如何做出決策和結果。歐盟非常擔心潛在的「不可接受的風險」甚至「危險」的應用,因此目前正在推進 新的人工智慧法案 旨在為「發展安全、值得信賴和道德的人工智慧」制定「全球標準」。

這些新法律將基於可解釋性的需要, 要求 「對於高風險的人工智慧系統,高品質資料、文件和可追溯性、透明度、人工監督、準確性和穩健性的要求對於減輕人工智慧對基本權利和安全構成的風險是絕對必要的」。這不僅是像自動駕駛汽車這樣的事情(儘管確保安全的系統屬於歐盟的高風險人工智慧類別),人們也擔心未來出現的系統會對人權產生影響。

這是更廣泛呼籲人工智慧透明度的一部分,以便其活動可以被檢查、審計和評估。另一個例子是英國皇家學會 關於可解釋人工智慧的政策簡報 他們在其中指出,「世界各地的政策辯論越來越多地呼籲某種形式的人工智慧可解釋性,作為將道德原則嵌入到人工智慧系統的設計和部署中的努力的一部分」。

但神經網路的故事告訴我們,未來我們可能會離這個目標更遠,而不是更接近。

受到人類大腦的啟發

這些神經網路可能是複雜的系統,但它們有一些核心原理。受到人類大腦的啟發,他們尋求複製或模擬生物和人類思維的形式。在結構和設計方面,它們是: IBM 也解釋說,由「節點層,包含輸入層、一個或多個隱藏層和輸出層」組成。其中,「每個節點或人工神經元都連接到另一個」。因為它們需要輸入和資訊來創建輸出,所以它們「依靠訓練資料來學習並隨著時間的推移提高其準確性」。這些技術細節很重要,但根據人腦的複雜性對這些系統進行建模的願望也很重要。

掌握這些系統背後的雄心壯志對於理解這些技術細節在實踐中的意義至關重要。在一個 1993採訪神經網路科學家 Teuvo Kohonen 得出結論,“自組織”系統“是我的夢想”,其運行“類似於我們的神經系統本能地做的事情”。作為一個例子,科霍寧描繪了一個「自組織」系統,一個自我監控和管理的系統,「可以用作任何機器的監控面板......在每架飛機、噴射機、或每個核電廠、或每輛車」。他認為,這意味著將來「你可以立即看到系統處於什麼狀態」。

首要目標是擁有一個能夠適應周遭環境的系統。它將是即時的、自主的,以神經系統的方式運作。那是一個夢想,擁有能夠自我處理而無需太多人為幹預的系統。大腦、神經系統和現實世界的複雜性和未知性很快就會影響神經網路的開發和設計。

“這件事有些可疑”

但回到 1956 年,那台奇怪的學習機,泰勒在建造它時所採取的實踐方法立即引起了考恩的注意。顯然,他在組裝這些零碎的東西時付出了很大的努力。泰勒, 考恩觀察到 在接受採訪時,他自己講述了這些系統的故事,「他沒有透過理論做到這一點,也沒有在電腦上做到這一點」。相反,有了手中的工具,他「實際上構建了硬體」。它是一個物質的東西,是零件的組合,甚至可能是一個裝置。考恩指出,這一切“都是用類比電路完成的”,泰勒花了“幾年的時間來建造和使用它”。一個反覆試驗的案例。

可以理解的是,考恩想要掌握他所看到的一切。他試圖讓泰勒向他解釋這個學習機器。澄清沒有到來。考恩無法讓泰勒向他描述這東西是如何運作的。模擬神經元仍然是一個謎。考恩認為,更令人驚訝的問題是泰勒「自己並不真正了解發生了什麼」。這不僅是兩位不同專業科學家之間溝通的暫時中斷,而且還不止於此。

1990年代中期的採訪回想起泰勒的機器,考恩透露,「直到今天,在已發表的論文中,你還不能完全理解它是如何運作的」。這個結論暗示了未知是如何深深嵌入神經網路中的。這些神經系統的不可解釋性甚至從近七十年前的基礎和發展階段就已經存在。

這個謎團至今仍然存在,並且可以在先進的人工智慧形式中找到。泰勒的機器所產生的聯想功能的深不可測,讓考恩懷疑其中是否有「可疑的地方」。

長而糾結的根

當被問及幾年後他自己的作品受到的歡迎時,考恩回顧了他與泰勒的短暫訪問。考恩反映,進入 1960 世紀 1950 年代,人們「有點遲鈍地認識到模擬神經網路的意義」。考恩回憶道,儘管如此,泰勒在 XNUMX 世紀 XNUMX 年代關於「聯想記憶」的工作是基於「模擬神經元」的。諾貝爾獎得主神經系統專家, 庫柏 (Leon N. Cooper) 總結 1960 世紀 XNUMX 年代大腦模型應用的發展被視為「深奧的謎團」。由於這種不確定性,人們仍然對神經網路可能實現的目標持懷疑態度。但事情慢慢開始改變。

大約 30 年前,神經科學家沃爾特·J·弗里曼 (Walter J. Freeman) 對“卓越神經網路的一系列應用已經被發現,他已經評論了這樣一個事實:他並不認為它們是「一種全新的機器」。它們是一個緩慢的過程,首先技術出現,然後才找到它的後續應用。這需要時間。事實上,為了找到神經網路技術的根源,我們可能會追溯到比考恩參觀泰勒神秘機器更遠的地方。

神經網路科學家詹姆斯·安德森和科學記者愛德華·羅森菲爾德 已經註意到了 神經網路的背景可以追溯到 1940 世紀 1940 年代,正如他們所描述的,一些早期的嘗試是「理解人類神經系統並構建至少有一點像我們一樣行事的人工系統」。於是,在XNUMX年代,人類神經系統的奧秘也成為了運算思維和人工智慧的奧秘。

電腦科學作家總結了這個長篇故事 拉里·哈迪斯蒂指出 神經網路形式的深度學習「70多年來一直流行又過時」。他補充道,更具體地說,這些「神經網路是由芝加哥大學的兩位研究人員Warren McCulloch 和Walter Pitts 於1944 年首次提出的,他們於1952 年搬到麻省理工學院,成為有時被稱為第一個認知科學系的創始成員」。

在其他地方, 1943 有時是作為技術第一年的給定日期。不管怎樣,大約 70 年來的記錄表明,神經網路時而流行,時而不再流行,常常被忽視,但有時又會佔據主導地位,並進入更主流的應用和辯論。不確定性依然存在。這些早期的開發者經常描述他們的研究的重要性被忽視,直到幾年甚至幾十年後才發現其目的。

從 1960 世紀 1970 年代到 1986 年代末,我們可以找到更多有關這些系統的未知特性的故事。即便如此,三十年後,神經網路仍然要尋找目標感。 David Rumelhart 擁有心理學背景,是 XNUMX 年出版的一套書籍的合著者,這些書籍後來將人們的注意力重新帶回了神經網絡,他發現自己正在合作開發神經網絡 和他的同事傑·麥克萊蘭.

除了作為同事,他們最近還在明尼蘇達州的一次會議上相遇,魯梅爾哈特關於「故事理解」的演講引起了代表們的一些討論。

在那次會議之後,麥克萊蘭回來了,他思考瞭如何開發一個可以組合模型以提高互動性的神經網路。這裡重要的是 魯梅爾哈特的回憶 「在電腦上進行數小時的修修補補」。

我們坐下來,在電腦上完成了所有這些工作並建立了這些電腦模型,但我們只是不理解它們。我們不明白它們為什麼有效,為什麼不起作用,或者它們的關鍵之處是什麼。

和泰勒一樣,魯梅爾哈特發現自己也在修改這個系統。他們也創建了一個功能正常的神經網絡,最重要的是,他們也不確定它如何或為何以這種方式工作,似乎是從數據中學習並尋找關聯。

一層又一層地模仿大腦

您可能已經注意到,在討論神經網路的起源時,大腦的圖像及其所引起的複雜性永遠不會遠離。人腦充當了這些系統的某種模板。特別是在早期階段,大腦——仍然是一個巨大的未知數——成為神經網路如何運作的模型。

因此,這些實驗性新系統是以某種東西為模型的,而這些東西的功能本身在很大程度上是未知的。神經計算工程師卡弗·米德 已經透露了 他發現「認知冰山」的概念特別有吸引力。這只是我們意識到並且可見的意識冰山一角。地表以下其餘部分的規模和形式仍然未知。

在1998, 詹姆斯安德森在神經網路領域工作了一段時間,他指出,當談到大腦研究時,「我們的主要發現似乎是意識到我們真的不知道正在發生什麼」。

在詳細的帳目中 2018年金融時報科技記者理查德·沃特斯(Richard Waters)指出,神經網路「是如何根據人類大腦如何運作的理論進行建模的,透過人工神經元層傳遞數據,直到出現可識別的模式」。沃特斯提出,這會產生連鎖問題,因為「與傳統軟體程式中使用的邏輯電路不同,沒有辦法追蹤這個過程來準確識別電腦給出特定答案的原因」。沃特斯的結論是,這些結果是無法改變的。應用這種類型的大腦模型,透過多層獲取數據,意味著答案無法輕易追溯。多層是造成這種情況的一個重要原因。

耐寒 也觀察到這些系統「鬆散地模仿了人腦」。這帶來了建立更多處理複雜性的渴望,以便嘗試與大腦匹配。這一目標的結果是一個神經網絡,「由數千甚至數百萬個緊密互連的簡單處理節點組成」。資料僅沿一個方向通過這些節點。 Hardesty 觀察到,「單一節點可能會連接到其下層中的多個節點(它從中接收資料),以及連接到其上層中的多個節點(它會向其發送資料)」。

人腦模型是這些神經網路從一開始就被構思和設計的一部分。當我們考慮到大腦本身就是當時的一個謎(並且在許多方面仍然是)時,這一點尤其有趣。

“適應就是整個遊戲”

米德和科霍寧等科學家希望創造一個能夠真正適應其所處世界的系統。它會對其條件做出反應。米德很清楚,神經網路的價值在於它們可以促進這種類型的適應。當時,反思這個雄心壯志, 米德補充道 製作改編「就是整個遊戲」。他認為,這種適應是必要的,“因為現實世界的本質”,他的結論是“變化太大,無法做任何絕對的事情”。

他認為,這個問題尤其需要考慮,因為這是「神經系統很久以前就發現的」。這些創新者不僅研究大腦的圖像及其未知因素,還將其與「現實世界」的願景以及由此帶來的不確定性、未知性和可變性結合起來。米德認為,系統需要能夠回應並適應環境 指令。

大約在 1990 世紀 XNUMX 年代的同一時間,史蒂芬·格羅斯伯格(Stephen Grossberg)——一位跨數學、心理學和生物醫學工程的認知系統專家—— 還認為 從長遠來看,適應將是重要的一步。格羅斯伯格致力於神經網路建模時,心想這一切都是「如何設計生物測量和控制系統以快速、穩定地即時適應快速波動的世界」。正如我們之前在 Kohonen 的「自組織」系統的「夢想」中看到的那樣,「現實世界」的概念成為將回應和適應編碼到這些系統中的背景。如何理解和想像現實世界無疑地決定了這些系統如何設計以適應。

隱藏層

隨著層次的增加,深度學習探索了新的深度。神經網路使用訓練資料進行訓練, 哈迪斯蒂解釋道,「被饋送到底層——輸入層——並通過後續層,以複雜的方式相乘和相加,直到最終到達經過徹底轉換的輸出層」。層數越多,變換越大,輸入輸出的距離也越大。 Hardesty 補充道,以遊戲為例,圖形處理單元 (GPU) 的發展「使 1960 世紀 1980 年代的單層網路和 15 年代的兩到三層網路發展為 50、XNUMX 甚至 XNUMX 層網路」。今天的層網路」。

神經網路越來越深入。事實上,根據 Hardesty 的說法,這種層的添加就是「『深度學習』中的『深度』所指的」。他認為,這一點很重要,因為「目前,深度學習在人工智慧研究的幾乎每個領域都建立了最佳表現的系統」。

但謎團卻變得更深了。隨著神經網路的層數越來越高,其複雜性也隨之增加。它也導致了這些深度內所謂的「隱藏層」的成長。關於神經網路中隱藏層的最佳數量的討論正在進行中。媒介理論家 比阿特麗斯·法齊寫道 「由於深度神經網路的運作方式依賴於夾在第一層神經元(輸入層)和最後一層(輸出層)之間的隱藏神經層,深度學習技術通常是不透明或難以辨認的,甚至對於普通人來說也是如此。最初設定它們的程式設計師」。

隨著層數的增加(包括那些隱藏層),它們變得更加難以解釋——即使對於創建它們的人也是如此。著名的跨學科新媒體思想家凱瑟琳海爾斯也提出了類似的觀點 還注意到 「我們對系統了解多少,與神經網路和深度學習演算法中的『隱藏層』相關的結果」是有限的。

追尋無法解釋的事

總而言之,這些長期發展是技術社會學家研究的一部分。 泰娜·布赫 被稱為「未知的問題」。哈里·柯林斯 (Harry Collins) 將其對科學知識有影響力的研究擴展到人工智慧領域 指出 神經網路的目標是它們可以由人類生成,至少在最初是這樣,但是「一旦編寫,程式就會有自己的生命;如果不付出巨大的努力,該程序到底是如何運作的仍然是個謎」。這與人們長期以來對自組織系統的夢想相呼應。

我想補充一點,未知的,甚至可能是不可知的,從最初階段起就被視為這些系統的基本組成部分。人工智慧對我們的生活產生的影響越大,我們就越不了解它是如何產生的以及為什麼會產生這種影響。

但如今許多人對此並不認同。我們想知道人工智慧是如何運作的,以及它如何做出影響我們的決策和結果。隨著人工智慧的發展繼續塑造我們對世界的認識和理解,我們發現什麼,我們如何被對待,我們如何學習、消費和互動,這種理解的衝動將會增長。當談到可解釋和透明的人工智慧時,神經網路的故事告訴我們,未來我們可能會離這個目標更遠,而不是更接近。

大衛比爾,社會學教授, 約克大學

本文重新發表 談話 根據知識共享許可。 閱讀 原創文章.