2020年對於公共衛生、職業生活、經濟以及日常生活等所有方面來說,都是獨一無二的一年。雖然一些機會正在消失,但有一些則正在轉變其商業模式,罕見沒有受到衝擊的企業。儘管如此,還是有一些產業正在蓬勃發展,不僅僅是虛擬會議或醫療保健。
自然語言處理(NLP)就是其中一個領域。
事實上,根據MarketsandMarkets™的研究,NLP市場規模預計將從2019年的102億美元,成長到2024年的264億美元。使用用例在醫療保健環境中幫助患者和從業者,簡化客戶服務查詢,甚至虛擬幫助購物者,有幾個成長因素推動了NLP技術的成長。
無論你是新手還是有經驗的數據科學家,NLP都能幫助用戶更快、更聰明、更準確地工作。
想瞭解NLP在未來幾年的發展狀況,我們首先需要瞭解NLP現在的狀況,從挑戰、成功、最普遍的使用案例等方面。為此,John Snow實驗室與Gradient Flow合作,最近發布了新的研究報告,探討了NLP在不同產業、不同地域、不同應用水平的使用情況。
知識就是力量,這項調查的目標是通過瞭解組織如何使用NLP技術,幫助IT領導者實現NLP的全部潛力。
這項全球調查詢問了來自50多個國家的近600名受訪者,全面瞭解了2020年NLP的採用和實施狀況。下面的關鍵調查結果將有助於為產業樹立一個基準,並預測我們在未來一年內NLP的發展方向。
NLP支出正在上升:儘管今年IT支出不景氣,但有趣的是,NLP預算全面增加,報告的NLP技術預算比去年增加了10~30%。考慮到該調查是在全球COVID-19大流行的高峰期進行的,而當時全球的IT支出都在下降,這一點尤其重要(Gartner)。53%的受訪者是技術領導者,他們表示他們的NLP預算與2019年相比至少增加了10%,其中31%的受訪者表示,他們的預算比前一年至少增加了30%。
同樣的趨勢也適用於大公司(員工人數超過5000人的公司),其中61%的受訪者表示2020年的預算會增加。
雲端運算的使用帶來了挑戰。77%的受訪者表示,他們至少使用列出的四種NLP雲端服務中的一種,谷歌、AWS、Azure或IBM。儘管基於雲端的服務很受歡迎,但受訪者認為成本是他們在使用NLP雲端服務時,面臨的主要挑戰。
此外,人們還擔心可擴展性,因為許多NLP應用依賴於特定領域的語言使用,而雲端提供商在服務這些市場需求方面進展緩慢。儘管如此,53%的受訪者表示至少使用了兩大NLP庫中的一個,即Spark NLP和spaCy,這是一個更準確和更具成本效益的選擇,做出這個選擇這並不奇怪。
準確性很重要,也很有挑戰性。超過40%的受訪者指出,準確性是他們評估NLP庫的最重要標準。考慮到NLP在關鍵應用中的使用,如電子健康記錄或在醫療環境中檢測不良藥物事件,這一點尤為重要;另一方面,準確性也是所有受訪者最常提到的挑戰。
然而,當觀察技術領導者時,這種情況略有改變。集成問題、語言支持、可擴展性與準確性,並列成為緊迫的挑戰。
幸運的是,語言支持等領域正在大幅改善。谷歌和Facebook等公司正在發表150多種語言的預訓練嵌入,而NLP庫也在跟進。
分類和NER是主要用例。NLP最受歡迎的四個應用是文檔分類、命名實體辨識(NER)、情感分析和知識圖譜,來自醫療保健領域的受訪者認為,去識別是另一個常見的NLP用例。
自動化的NLP,曾經是一個極其人工和勞動密集型的過程,現在已經使這一負擔大大減輕。NER和分類,是醫療機構看到巨大價值的另外兩個NLP用例。例如,這些應用可以幫助醫療專業人員快速、準確地辨識患者的藥物不良事件(ADE),改善醫療服務,減輕醫療系統的負擔和成本。
數據來源。來自文件(如pdf、txt、docx等)和數據庫的數據,在NLP項目中使用的數據來源中名列前茅(61%),從法律合約和新聞文章,到醫療記錄和SEC文件,這些輸入文件通常以PDF格式儲存。雖然深度學習模型在過去幾年中有所改進,但在從PDF中提取文本時,有許多困難和數據品質問題。有趣的是,仍在探索NLP的公司,與那些在採用曲線上走得更遠的公司,在數據源上存在一些差異。處於探索階段的受訪者報告使用音頻數據的比例(29%),高於那些更進一步的受訪者(22%)。
根據NLP在過去一年中的成長軌跡,其勢頭很明顯將持續到2021年。隨著時間的推移和即將到來的技術增強,採用和使用案例如何發展將是有趣的。NLP有能力改變我們的工作方式,給予和接受醫療護理、購物以及與客戶服務的接口。
雖然其中一些案例可能比其他案例更具影響力,但它們都將塑造我們更好的工作和生活方式。
本文為雷鋒網授權刊登,原文標題為「2020全球NLP行業報告:NLP技術預算增長高達30%」