AI如何重塑聽障人士的數位體驗
愛范兒 / 洪嘉鎂編譯
2024-07-05 07:40

我們之前寫過一篇文章——《別再問我聾人為什麼要去音樂節了》,介紹了海外音樂節的特別職位:手語翻譯員。

聽障人士雖然聽不見或聽不清音樂,但他們可以透過手語翻譯員極具感染力的手部動作、臉部表情、肢體語言,感受到音樂的律動、氛圍的熱烈。

這可能是有健康聽力的人意想不到的手語場景。其實無論線上線下,需要手語翻譯員的地方還有很多,然而僧多粥少。

英國人 Sally Chalk 在 2002 年開了一家英國手語翻譯公司,經過 20 年的經營,公司規模可觀,預約手語翻譯員的時間也縮短到了 30 分鐘,但她還是不滿足。

聽障人士能不能馬上獲取手語翻譯,就像在影片網站打開字幕一樣?

她的答案是,讓 AI 加入進來。

從線上到線下,應該讓聽障人士多用「母語」

2022 年,Sally Chalk 開了一家新的新創公司——Signapse,專注開發生成式 AI 手語翻譯軟體,將書面文字即時翻譯為美國手語和英國手語。

今年 5 月,Signapse 拿到了 200 萬英鎊的種子輪融資,其中 50 萬來自英國政府。

他們瞄準的一個線下場景,是火車站、機場等交通樞紐。

美國的辛辛那提/北肯塔基國際機場,已經和 Signapse 合作,在螢幕上投放美國手語,提供歡迎、安全、出發、到達等資訊。

AI 是如何發揮作用的?Signapse 基於大型手語資料庫,並透過生成對抗網路(GAN)和深度學習技術,創造了逼真的、翻譯盡可能準確的虛擬手語翻譯員。

這些虛擬形象基於真人手語翻譯員,每次被商用時,真人都會拿到分成。

考慮到機場的目的地、出發時間、站台號碼經常變動,透過與交通數據整合,Signapse 的手語翻譯可以做到即時更新。

同時,Signapse 沒有忽視線上的需求,也為網站和影片串流媒體提供手語翻譯。

儘管 YouTube 等網站都有隱藏式字幕了,但相比字幕,聽障人士往往更喜歡手語,因為手語具有獨立於其他語言的語法結構和表達形式,會讓他們的上網體驗更好。

你應該有注意到,提到手語時,我們會用美國手語、英國手語的說法。就像全世界的口語和文字互不相通,手語也包羅萬象。

聯合國統計,全世界大約有 7000 萬人將手語作為主要的交流形式,全世界使用的手語有 300 多種不同類型。僅在美國,就有 50 萬人使用美國手語。

所以,Signapse 目前所做的其實也很有限,只覆蓋到了使用美國和英國手語的少部分人,以及有限的垂直場景。過去兩年,Signapse 每天創造約 5000 個英國手語交通公告。

Signapse 希望,未來他們的服務可以更加普及,拓展到教育等場景,也更加個人化,支援使用者自己設定虛擬手語翻譯員的外觀。

一方的水土養一方的 AI,中國大廠也有類似的手語產品。

AI 手語主播們,曾經出現在騰訊的王者榮耀直播間、華為的開發者大會。

2022 年冬奧會,央視新聞和百度智慧雲曦靈聯合打造的 AI 手語主播上線,天津理工大學聾人工學院參與了手語語料標註。

而在 AI 手語主播背後,百度智慧雲曦靈的 AI 手語平台,還能滿足醫院、車站、銀行等不同場景的快速手語翻譯需求,和 Signapse 英雄所見略同。

更順利的旅遊、更沉浸的觀看體驗、更無障礙的服務……

如果說手語翻譯的改進空間比海更深,至少聽障人士獲取公共資訊的方式,正在被 AI 改變,持續地泛起可見的浪花。

手語界的多鄰國們

聽障人士也要「聽」音樂?聽障人士看文字是不是就夠了?這是典型從健康聽力人的邏輯出發考慮問題。

其實,我們應該反過來問:音樂節怎麼讓聽障人士也能有參與感?網路怎麼讓聽障人士有更愉快的衝浪體驗?

所以,不是某個人流如織的車站多出了一塊螢幕,而是那塊螢幕本就該出現在那裡。

更多公司、更多個體正在藉助技術的力量,讓手語變得越來越有存在感。

讓健康聽力的人學習手語,就是其中一種比較容易想到的思路。

PopSign 是一款邊玩邊學手語的 app,使用 AI 手語模型,由 Google、羅徹斯特理工學院、喬治亞理工學院合作開發,可在 Android 和 iOS 上使用,最主要的使用者群體是聽障孩子的健康聽力父母。

吸取背單字從「abandon」(放棄)開始、也以放棄終結的教訓,PopSign 不是無聊地播放手語影片,而是用小遊戲增強學習手語的興趣和信心,和瘋狂催你打卡的多鄰國異曲同工。

想做手語界「多鄰國」的,還有一家叫作 SLAIT 的美國公司。他們提供的也是沉浸式的互動課程和測驗,如果你做對了,AI 導師會給予你即時回饋,提供適量情緒價值。

不過,教手語只是 SLAIT 退而求其次的選擇,一開始他們想做的,其實是即時視訊聊天和翻譯的 AI 手語工具。

但巧婦難為無米之炊,SLAIT 是個小團隊,沒有足夠的數據,也沒有足夠的資金,比起直接翻譯手語句子,教單個手語詞彙更加簡單,但同樣有價值。

翻譯手語的辛苦工作,就交給財大氣粗的巨頭們解決了。

2023 年 8 月,聯想巴西開發了一款基於 AI 的即時聊天翻譯 app,用來翻譯葡萄牙語手語,未來計劃覆蓋到全球更多手語。

當聽障人士對著裝置的攝影鏡頭打手語,演算法會即時將其翻譯成葡萄牙語文字,傳送給另一端的接收者。

這樣的工具應該多多益善,恰好和手語教學服務互補,讓聽障人士站在更主動的位置,更多地成為對話的發起方。

Google 則更加產品導向,發起了 2023 年 Kaggle AI 手語識別競賽。

這場競賽的主題很有意思——參賽者們基於聽障人士自拍得到的 300 多萬個手指拼寫字符,構建使用智慧相機快速追蹤手指、手掌和臉部的手指拼寫模型。

手指拼寫屬於手語的一種,使用手指的不同形狀和位置來表示字母。對於很多殘障人士來說,使用手指拼寫,比在智慧型手機的虛擬鍵盤上打字快得多。

所以,改進手語識別、建構手指拼寫模型,是為了讓聽障人士可以直接用更擅長的手語,而不是打字和說話,在手機上使用搜尋、地圖、簡訊等功能。

更進一步,這也有助於開發手語轉語音的應用,打破聽障人士無法用語音召喚數位助理的僵局。

或者說,很多語音優先的產品,從一開始就沒有考慮不善口語的用戶,是時候補上漏洞了。

Google 首席無障礙研究產品經理 Sam Sepah,在接受富比世採訪時提到,他們的目標是,讓手語成為使用 Google 產品時的通用語言選項。

其實,這也應該是整個網路的目標——讓手語成為數位世界的通用語言。

多鄰國作為一款語言學習軟體,為每個人提供了平等的受教育機會。而 AI 手語產品們讓人感覺到的是,本不該有的限制正在解除,哪裡都可以互通有無。

AI 越強大,越要珍視人性

5 月,GPT-4o 發布時,一個 Demo 影片很打動人,GPT-4o 充當了眼睛,讓視障人士也能「看到」周圍的環境。

視障人士從 AI 口中知道,白金漢宮上空飄揚著旗幟,河裡的鴨子悠閒地嬉戲,計程車就要到達跟前,他的嘴角隨著 AI 的歡快語調而上揚。

俗話說技術打開了新世界的大門,是否可以反過來理解,殘障人士們原本生活在一個不為他們設計的世界?

世衛組織數據顯示,全球 4.3 億人需要透過康復治療解決殘疾性聽力損失。手語翻譯的數量遠遠不夠,在美國,聽障用戶與美國手語翻譯員的比例大約為 50 比 1。

所以目前來說,AI 手語只是起到補充和錦上添花的作用,還不到「搶飯碗」的地步。

以上提到的 AI 手語產品,基本都是小規模的、垂直的、紮根特定地區的,彌補真人翻譯不可及的地方。

上個月,我還看到了一款很酷的 AI 手語產品。

羅格斯大學、卡內基美隆大學等幾所大學的研究人員,將公開手語影片處理成包含 8 種手語的資料庫,訓練了 SignLLM——第一個多語言手語生成模型。

覆蓋多種手語,可以透過文字提示生成手語,那不是太方便了嗎?但研究人員說了,請外界不要誇大他們的研究成果,示範影片並非模型的直接輸出,實際製作起來仍然很麻煩。

同時,也有聽障專家站出來表示,這些影片的手語翻譯品質參差不齊,有的讓人半懂不懂,有的完全理解不了,而且缺乏臉部表情,專案有潛力,但還要改善。

最重要的是,要讓聽障使用者參與,發表他們的意見,共同完善產品,因為「沒有我們的參與,就沒有關於我們的決策」。

一個微妙的感受是,無障礙產品似乎很難做得「性感」。

它們往往沒法像大模型和 AI 硬體的發布一樣讓人心神激盪,總是和你說,功能有哪些,服務於誰,希望以後可以做到更好,不會「貪多嚼不爛」。

並且在風投的眼裡,它們也是小眾的、潛力未知的、未必有投資回報的。

但「AI 教母」李飛飛曾說,AI 是為了幫助人,AI 越強大我們越要珍視人性。

所有人都應該不怕錯過航班,所有人都應該可以和產品互動,所有人都應該享受音樂節。

那些曾經不被看到的、聽到的也該被技術的光芒照耀。打個共鳴的響指吧,讓更多人的需求被滿足,更多人的能力被增強,讓我們得到更多,失去更少。

本文由愛范兒授權刊登,原文標題為「這些 AI 產品,正在打破 4.3 億人的障礙