AI如何重塑聽障人士的數位體驗

我們之前寫過一篇文章——《別再問我聾人為什麼要去音樂節了》，介紹了海外音樂節的特別職位：手語翻譯員。

聽障人士雖然聽不見或聽不清音樂，但他們可以透過手語翻譯員極具感染力的手部動作、臉部表情、肢體語言，感受到音樂的律動、氛圍的熱烈。

這可能是有健康聽力的人意想不到的手語場景。其實無論線上線下，需要手語翻譯員的地方還有很多，然而僧多粥少。

英國人 Sally Chalk 在 2002 年開了一家英國手語翻譯公司，經過 20 年的經營，公司規模可觀，預約手語翻譯員的時間也縮短到了 30 分鐘，但她還是不滿足。

聽障人士能不能馬上獲取手語翻譯，就像在影片網站打開字幕一樣？

她的答案是，讓 AI 加入進來。

從線上到線下，應該讓聽障人士多用「母語」

2022 年，Sally Chalk 開了一家新的新創公司——Signapse，專注開發生成式 AI 手語翻譯軟體，將書面文字即時翻譯為美國手語和英國手語。

今年 5 月，Signapse 拿到了 200 萬英鎊的種子輪融資，其中 50 萬來自英國政府。

他們瞄準的一個線下場景，是火車站、機場等交通樞紐。

美國的辛辛那提/北肯塔基國際機場，已經和 Signapse 合作，在螢幕上投放美國手語，提供歡迎、安全、出發、到達等資訊。

AI 是如何發揮作用的？Signapse 基於大型手語資料庫，並透過生成對抗網路（GAN）和深度學習技術，創造了逼真的、翻譯盡可能準確的虛擬手語翻譯員。

這些虛擬形象基於真人手語翻譯員，每次被商用時，真人都會拿到分成。

考慮到機場的目的地、出發時間、站台號碼經常變動，透過與交通數據整合，Signapse 的手語翻譯可以做到即時更新。

同時，Signapse 沒有忽視線上的需求，也為網站和影片串流媒體提供手語翻譯。

儘管 YouTube 等網站都有隱藏式字幕了，但相比字幕，聽障人士往往更喜歡手語，因為手語具有獨立於其他語言的語法結構和表達形式，會讓他們的上網體驗更好。

你應該有注意到，提到手語時，我們會用美國手語、英國手語的說法。就像全世界的口語和文字互不相通，手語也包羅萬象。

聯合國統計，全世界大約有 7000 萬人將手語作為主要的交流形式，全世界使用的手語有 300 多種不同類型。僅在美國，就有 50 萬人使用美國手語。

所以，Signapse 目前所做的其實也很有限，只覆蓋到了使用美國和英國手語的少部分人，以及有限的垂直場景。過去兩年，Signapse 每天創造約 5000 個英國手語交通公告。

Signapse 希望，未來他們的服務可以更加普及，拓展到教育等場景，也更加個人化，支援使用者自己設定虛擬手語翻譯員的外觀。

一方的水土養一方的 AI，中國大廠也有類似的手語產品。

AI 手語主播們，曾經出現在騰訊的王者榮耀直播間、華為的開發者大會。

2022 年冬奧會，央視新聞和百度智慧雲曦靈聯合打造的 AI 手語主播上線，天津理工大學聾人工學院參與了手語語料標註。

而在 AI 手語主播背後，百度智慧雲曦靈的 AI 手語平台，還能滿足醫院、車站、銀行等不同場景的快速手語翻譯需求，和 Signapse 英雄所見略同。

更順利的旅遊、更沉浸的觀看體驗、更無障礙的服務……

如果說手語翻譯的改進空間比海更深，至少聽障人士獲取公共資訊的方式，正在被 AI 改變，持續地泛起可見的浪花。

手語界的多鄰國們

聽障人士也要「聽」音樂？聽障人士看文字是不是就夠了？這是典型從健康聽力人的邏輯出發考慮問題。

其實，我們應該反過來問：音樂節怎麼讓聽障人士也能有參與感？網路怎麼讓聽障人士有更愉快的衝浪體驗？

所以，不是某個人流如織的車站多出了一塊螢幕，而是那塊螢幕本就該出現在那裡。

更多公司、更多個體正在藉助技術的力量，讓手語變得越來越有存在感。

讓健康聽力的人學習手語，就是其中一種比較容易想到的思路。

PopSign 是一款邊玩邊學手語的 app，使用 AI 手語模型，由 Google、羅徹斯特理工學院、喬治亞理工學院合作開發，可在 Android 和 iOS 上使用，最主要的使用者群體是聽障孩子的健康聽力父母。

吸取背單字從「abandon」（放棄）開始、也以放棄終結的教訓，PopSign 不是無聊地播放手語影片，而是用小遊戲增強學習手語的興趣和信心，和瘋狂催你打卡的多鄰國異曲同工。

想做手語界「多鄰國」的，還有一家叫作 SLAIT 的美國公司。他們提供的也是沉浸式的互動課程和測驗，如果你做對了，AI 導師會給予你即時回饋，提供適量情緒價值。

不過，教手語只是 SLAIT 退而求其次的選擇，一開始他們想做的，其實是即時視訊聊天和翻譯的 AI 手語工具。

但巧婦難為無米之炊，SLAIT 是個小團隊，沒有足夠的數據，也沒有足夠的資金，比起直接翻譯手語句子，教單個手語詞彙更加簡單，但同樣有價值。

翻譯手語的辛苦工作，就交給財大氣粗的巨頭們解決了。

2023 年 8 月，聯想巴西開發了一款基於 AI 的即時聊天翻譯 app，用來翻譯葡萄牙語手語，未來計劃覆蓋到全球更多手語。

當聽障人士對著裝置的攝影鏡頭打手語，演算法會即時將其翻譯成葡萄牙語文字，傳送給另一端的接收者。

這樣的工具應該多多益善，恰好和手語教學服務互補，讓聽障人士站在更主動的位置，更多地成為對話的發起方。

Google 則更加產品導向，發起了 2023 年 Kaggle AI 手語識別競賽。

這場競賽的主題很有意思——參賽者們基於聽障人士自拍得到的 300 多萬個手指拼寫字符，構建使用智慧相機快速追蹤手指、手掌和臉部的手指拼寫模型。

手指拼寫屬於手語的一種，使用手指的不同形狀和位置來表示字母。對於很多殘障人士來說，使用手指拼寫，比在智慧型手機的虛擬鍵盤上打字快得多。

所以，改進手語識別、建構手指拼寫模型，是為了讓聽障人士可以直接用更擅長的手語，而不是打字和說話，在手機上使用搜尋、地圖、簡訊等功能。

更進一步，這也有助於開發手語轉語音的應用，打破聽障人士無法用語音召喚數位助理的僵局。

或者說，很多語音優先的產品，從一開始就沒有考慮不善口語的用戶，是時候補上漏洞了。

Google 首席無障礙研究產品經理 Sam Sepah，在接受富比世採訪時提到，他們的目標是，讓手語成為使用 Google 產品時的通用語言選項。

其實，這也應該是整個網路的目標——讓手語成為數位世界的通用語言。

多鄰國作為一款語言學習軟體，為每個人提供了平等的受教育機會。而 AI 手語產品們讓人感覺到的是，本不該有的限制正在解除，哪裡都可以互通有無。

AI 越強大，越要珍視人性

5 月，GPT-4o 發布時，一個 Demo 影片很打動人，GPT-4o 充當了眼睛，讓視障人士也能「看到」周圍的環境。

視障人士從 AI 口中知道，白金漢宮上空飄揚著旗幟，河裡的鴨子悠閒地嬉戲，計程車就要到達跟前，他的嘴角隨著 AI 的歡快語調而上揚。

俗話說技術打開了新世界的大門，是否可以反過來理解，殘障人士們原本生活在一個不為他們設計的世界？

世衛組織數據顯示，全球 4.3 億人需要透過康復治療解決殘疾性聽力損失。手語翻譯的數量遠遠不夠，在美國，聽障用戶與美國手語翻譯員的比例大約為 50 比 1。

所以目前來說，AI 手語只是起到補充和錦上添花的作用，還不到「搶飯碗」的地步。

以上提到的 AI 手語產品，基本都是小規模的、垂直的、紮根特定地區的，彌補真人翻譯不可及的地方。

上個月，我還看到了一款很酷的 AI 手語產品。

羅格斯大學、卡內基美隆大學等幾所大學的研究人員，將公開手語影片處理成包含 8 種手語的資料庫，訓練了 SignLLM——第一個多語言手語生成模型。

覆蓋多種手語，可以透過文字提示生成手語，那不是太方便了嗎？但研究人員說了，請外界不要誇大他們的研究成果，示範影片並非模型的直接輸出，實際製作起來仍然很麻煩。

同時，也有聽障專家站出來表示，這些影片的手語翻譯品質參差不齊，有的讓人半懂不懂，有的完全理解不了，而且缺乏臉部表情，專案有潛力，但還要改善。

最重要的是，要讓聽障使用者參與，發表他們的意見，共同完善產品，因為「沒有我們的參與，就沒有關於我們的決策」。

一個微妙的感受是，無障礙產品似乎很難做得「性感」。

它們往往沒法像大模型和 AI 硬體的發布一樣讓人心神激盪，總是和你說，功能有哪些，服務於誰，希望以後可以做到更好，不會「貪多嚼不爛」。

並且在風投的眼裡，它們也是小眾的、潛力未知的、未必有投資回報的。

但「AI 教母」李飛飛曾說，AI 是為了幫助人，AI 越強大我們越要珍視人性。

所有人都應該不怕錯過航班，所有人都應該可以和產品互動，所有人都應該享受音樂節。

那些曾經不被看到的、聽到的也該被技術的光芒照耀。打個共鳴的響指吧，讓更多人的需求被滿足，更多人的能力被增強，讓我們得到更多，失去更少。

本文由愛范兒授權刊登，原文標題為「這些 AI 產品，正在打破 4.3 億人的障礙」