神經科學家發現，聽覺處理和語言處理在大腦中是並行處理的

（人腦左半球聽覺皮層的位置和分區示意圖）

受到生物神經網路的啓發，目前深度神經網路已經被證實效果很好。如今，深度神經網路和深度學習在電腦視覺、語音辨識和自然語言處理等許多重要問題上，有著出色的表現。

神經網路本身是一般的函數逼近，這就是為什麼它們幾乎可以應用於任何從輸入到輸出空間複雜映射的機器學習問題。

然而深度神經網路更多的是關心所謂端到端學習，內部發生什麼事情它並不關心。這在認知科學裡面叫「弱等價」，也就是說人和機器可以做同一件事，但是它們的內部過程並不是一樣的，或者和生物智慧類似，深度神經網路要在增加內部的認知過程中，也應該和生物系統類似。

此時，站在生物神經學的參照系下，或許能賦予AI語言處理更精細的洞察。

經過多年研究，神經科學家發現了人類大腦中處理語言聲音的運行規則

8月18日，美國加州大學舊金山分校的研究人員在《細胞》雜誌上發表論文稱，聽覺處理和語言處理是並行進行的。這與長期以來認為大腦先處理聽覺訊息，然後將其轉化為語言訊息的理論相矛盾。

最新研究表明，當含有語意的聲音傳到耳中，耳蝸將其轉換成電訊號，然後發送到位於顳葉的聽覺皮層。

幾十年來，科學家們一直認為，聽覺皮層在處理語音時，像工廠流水線一樣有先後工序。首先，初級聽覺皮層處理簡單的聲音訊息，比如聲音頻率，然後，顳上回（superior temporal gyrus，STG）提取更重要的特徵，如輔音和元音，將聲音轉換為有含義的單詞。

但一直以來，這一理論缺乏直接證據的支持，因為它需要整個聽覺皮層極高時空分辨率的詳細神經生理學記錄。這是一個挑戰，原因是初級聽覺皮層位於大腦額葉和顳葉的裂口深處。

美國加州大學舊金山分校神經科學家和神經外科醫生Edward Chang說：「所以，我們進行了這項研究，希望找到聲音等低級表徵轉化為詞彙等高級表徵的證據。」

這項研究的開始，離不開一些患者的支持。幾年時間裡，有9名患者參與了實驗，因為需要切除腦部腫瘤或定位引發癲癇的病灶，這些患者接受了神經外科手術。與此同時，他們同意讓醫生在手術過程中，將微電極陣列放置在他們的聽覺皮層，收集神經訊號，用於分析語言功能和定位癲癇，以及研究聽覺皮層如何處理語音訊息。

「這是我們第一次可以直接從大腦表面，同時覆蓋聽覺皮層的所有區域，研究聲音到字詞的轉換。」Chang教授說。相比過去只能在有限的幾個點記錄神經活動的電訊號，無疑是巨大的進步。

接著，在實驗中，研究人員開始向參與者播放詞組和短句，試圖尋找訊息從初級聽覺皮層流向顳上回的跡象，按照原來的假設，這兩個腦區應該會先後被啟動。

然而，事實並非如此。他們觀察到，播放句子時，顳上回某些區域的反應速度與初級聽覺皮層一樣快，也就是說，這兩個區域同時開始處理聲音訊息。

在另一項實驗中，研究人員用微弱的電流刺激患者的聽覺皮層。按照原來的假設，刺激初級聽覺皮層，很可能會扭曲患者對言語的感知。然而，這些患者表示，儘管刺激引起了某些聲音的幻聽，但他們仍能清楚地聽到並重複對他們播放的字詞。

相反，當研究人員用電流刺激患者的顳上回，患者報告說他們能聽到有人在講話，但分辨不出字詞。「事實上，有一名患者說，聽起來就像單詞的音節發生了互換。」Chang教授說道。

綜合這些證據，研究小組認為，大腦聽覺皮層對聲音和語音的資訊處理是並行的，而不是傳統模型所認為的串行處理。

傳統語音處理模型過於簡化，甚至很可能是錯誤的。研究人員推測，顳上回可能獨立於初級聽覺皮層而發揮作用，而不是作為初級聽覺皮層處理的下一步。

語言處理的並行性，可能會給醫生提供治療誦讀困難症等病症的新思路，患有這些疾病的兒童在辨識語音方面存在困難。

「雖然這是向前邁出的重要一步，但我們還不瞭解這個平行聽覺系統。這些發現表明，聲音訊息的傳遞可能與我們想像的非常不同，這無疑帶來了更多問題。「Chang說。

站在生物神經學的參照系下，AI語言處理被賦予更精細的洞察

生物神經元構成一層一層的網路，一層一層進行特徵提取，這是深度學習已經模擬的，其實大腦還有一個根本不同，我們辨識物體的時候，不是像深度學習網路一樣由簡單到複雜的特徵提取，而是有多條通路：「我們看到一個物體的時候，第一步會快速的從皮層下通路，對物體的整體的性質進行辨識，這些訊息到了高級腦區，和記憶、先驗知識等進行融合，先猜測出來是什麼東西，通過神經回饋再和深度學習模擬的慢速腹側通路進行動態交互，這個過程可能會經過幾個回合，整個辨識過程都是輸入和大腦內部的先驗知識不斷的相互比較印證的過程，而這個過程在目前是深度學習沒有包含的，也是圖像理解這個數學上不適定問題（ill-posed problem）的一個解決方案。」

那為什麼我們好像深度學習網路用的很好，我們沒有包含動態的過程，由粗到細、由global到local的過程，也能做的挺好。或許是因為現在我們的任務太簡單了，如果只是做靜態圖像的識別根本不需要這個，但是如果真的要做一個能夠與環境動態交互、很自主的機器人，這樣的計算需求就會出現，那個時候就需要動態交互的過程了。

而深度學習一般認為是黑盒子，每個人的模型得到大致相同的結果，但是也不完全一樣，那麼這裡的一致性和不一致性到底體現在哪裡。如果生物神經在語言處理方面搞得很清楚的話，實際上對深度神經網路的架構也會很有幫助。

本文為雷鋒網授權刊登，原文標題為「最新研究：聲音和詞語在大腦中並行處理」