英國權威醫學期刊吐槽醫療AI:在乳腺癌檢測上取代放射科醫生是痴人說夢
我在思考中-陳彩嫻 / 何渝婷編譯
2021-09-06 12:20

(示意圖/取自pixabay)

將AI用於疾病診斷已經是一個老話題。

早在2019年8月,倫敦癌症研究所就在NPJ Breast Cancer雜誌上發表了一篇文章,稱他們將AI應用於分析乳腺癌的基因序列與分子數據,最終成功辨識出5種新的乳腺癌亞型,還能辨識出哪些女性對乳腺癌有較好的免疫力。

這項研究吸引了越來越多科研者,加入將AI用於輔助乳腺癌發現或治療的隊伍。

去年1月,谷歌的健康團隊又聯合DeepMind在Nature上發表了一項將AI用於檢測乳腺癌的研究成果。他們開發了一個針對乳腺癌的AI篩查系統,可以對乳腺癌X射線造影數據,進行大規模分析與處理,也引起了廣泛關注。

當時,這項研究的報導稱,通過與6位美國放射科醫生的篩查過程相比,他們所開發的AI系統表現優於所有醫生,AI系統的自動辨識面積比一般放射科醫生要高出11.5%。

芸芸大眾一看,立即拍腿讚嘆:「AI真了不起!AI是不是很快就要超越、甚至取代放射科醫生?」

冷靜、冷靜。

近日,《英國醫學雜誌》(The BMJ)刊登了一篇來自英國華威大學(University of Warwick)醫療科學部門研究人員(以下簡稱「該團隊」)的研究工作。該團隊對近年AI技術用於乳腺癌篩查的工作進行了檢索,希望檢驗AI技術用於乳房X光攝影辨識的準確度。

該團隊得出的研究結論是,目前的研究證據還不足以判斷AI在乳腺癌篩查項目中的準確性,也尚不清楚AI在臨床醫學的哪個環節最有用。

但可以肯定的是,AI系統目前尚無法取代超過兩位放射科醫生合作探討的結果。

研究背景

乳腺癌是奪走全球女性健康與生命的主要原因之一。2015年,全球約有240萬女性被診斷出患有乳腺癌,523,000名女性因此死亡。

乳腺癌在早期時發現會更容易治療,因此許多國家都推出了乳腺癌的篩查計劃。

乳腺癌篩查需要一名或兩名放射科醫生檢查女性的乳房X光照片,以尋找症狀出現前的癌症跡象,從而降低乳腺癌的發病率與死亡率。在篩查的過程中,乳腺癌的發現率為0.6%至0.8%。

值得注意的是,15%至35%的乳腺癌會因為篩查誤差或不易見症狀而沒有被發現。有些被漏診的癌症,在症狀上被稱為「間期癌」(interval cancer)。

2019年,全球有3.8%研究Scopus數據庫的同行評審文章與AI相關。許多研究稱,在乳腺癌篩查的圖像辨識上,AI比經驗豐富的放射科醫生表現更優,並能彌補現有人類醫生篩查的缺陷。比如,AI算法不會「疲勞」,也不會摻入主觀診斷,所以能幫助發現更多乳腺癌病例,減少放射科醫生的工作量,甚至完全取代放射科醫生。

但是,華威大學的研究指出,AI也可能會加劇篩查的危害。比方說,如果AI在乳房圖像篩查中檢測到更多微鈣化(由較低級別的原位導管癌引起),那麼它可能會改變乳腺癌的疾病譜。在這種情況下,AI可能會增加過度診斷與過度治療的概率。

屍檢研究表明,大約4%的女性是帶著乳腺癌死亡,但死因並不是乳腺癌,所以數據儲存了許多不重要的臨床疾病,包括可能被AI檢測到的偶發原位癌。疾病譜與乳房X線圖像的特徵有關(例如,原位導管癌通常與微鈣化有關)。因此,AI系統基於訓練的案例,以及AI系統的結構,可能會對檢測到的疾病譜產生重大影響。 

目前的許多人工智慧系統是不可解釋的,是一個「黑盒子」,與人類決策者的思路可解釋形成鮮明對比。AI算法無法理解圖像的上下文、收集模式與含義,可能產生「抄捷徑」的問題。此前,DeGrave等人在「AI for radiographic COVID-19 detection selects shortcuts over signal」(2020年)一文中,便展示了一些深度學習系統如何通過混雜因子而不是病理來檢測新冠病毒,從而導致系統的泛化性極差。

這項工作對2010年1月1日至2021年5月17日期間Medline、Embase、Web of Science與Cochrane Database of Systematic Reviews(CENTRAL) 等英文文獻數據庫進行了系統檢索。

檢索的主題包含4個:乳腺癌(breast cancer)、人工智慧(artificial intelligence)、乳房X線照相術(mammography)和測試精度(test accuracy)或隨機對照試驗(randomised controlled trials)。

研究發現

回顧常規乳腺癌篩查中所用的AI圖像分析系統,華威大學的研究團隊確定了12項評估商用或內部卷積神經網路AI系統的研究,包含了對131,822名女性的篩查數據,是第一個對AI輔助乳腺癌發現的準確性進行檢測的研究工作。其中,9項研究將AI系統與放射科醫生進行了對比。

三項回顧性研究將AI系統與原始放射科醫生的臨床決策作了比較,研究對象包含79910名女性,其中1878名女性在篩查後的12個月內檢測到癌症或間期癌。在研究所評估的36個AI系統中,有34個(94%)的準確率低於單一的放射科醫生;如果與兩位以上的放射科醫生討論對比,那麼36個AI系統的檢測準確率都比不上人類醫生。

瑞典篩查計劃的DREAM挑戰覆蓋了68,008名女性,發現表現最佳的AI系統也比不上人類放射科醫生(88% vs. 96.7%);當AI的閾值分別設置為第一讀者敏感性與讀者敏感性的共識時,AI的表現也與人類原創的共識決策相差甚遠(81% vs. 98.5%)。八個表現最佳的AI系統的集成方法特性也比不上第一的放射科醫生(92.5% vs. 96.7%)。

瑞典一個更廣泛的研究使用了三個商用AI系統,設置的閾值與原創放射科醫生的特性相當。該研究發現,與第一的放射科醫生相比,一個商用AI系統的靈敏度更高((81.9% vs. 77.4%),其餘兩個商用AI系統的靈敏度較差(67% vs. 67.4%)。而與人類的創新共識決策相比(85%),三個商用AI系統的表現都更差。

而在五項範圍較小(1086位女性、520種癌症)、風險較高且臨床需求較小的研究中,所評估的5個AI系統(獨立替代放射科醫生或閱讀輔助)在閱讀實驗室測試集時的準確率都高於單一的放射科醫生。在三項研究中,用於分類的AI技術可以分別篩選出53%、45%和50%處於低風險的女性,而放射科醫生僅能檢測到10%、4%和0%的癌症。

六項範圍最小的研究(總共覆蓋了4,183名女性)發現,AI比單一的放射科醫生更準確。在這六項研究中,有五項研究裡,放射科醫生是在實驗室環境中檢查932名女性的乳房X光圖像,這種方法不能推廣到臨床實踐中。

而美國的一項篩查研究則發現,AI系統在靈敏性(56% vs. 48%)與獨特性(84% vs. 81%)方面的表現超過單一的放射科醫生。此外,兩項豐富的測試集多案例多閱讀器實驗室研究報告稱,AI在實驗室環境的閱讀中要優於單個放射科的平均表現。

在輔助閱讀上,有三項研究將AI作為閱讀輔助工具,發現放射科醫生在實驗室環境中閱讀豐富測試集的準確性,無法泛化到臨床實踐上。三項研究均顯示,有AI技術輔助的放射科醫生在平均靈敏度上均高於獨立閱讀。

在豐富的測試集多讀者多案例實驗室研究中,一個獨立的內部AI模型(DeepHealth Inc.)能夠檢測到更多的浸潤性癌症(多 12.7%)和更多的原位導管癌(多16.3 %)。AI模型的性能在病變類型、癌症大小和乳房密度上也更佳。

寫在最後

研究團隊得出的結論是:目前的研究證據還不足以判斷AI在乳腺癌篩查項目中的準確性,也尚不清楚AI對臨床醫學的哪些方面最有用。但可以肯定的是,AI系統目前尚無法取代兩位以上放射科醫生的合作探討。

大多數研究都集中在以圖像辨識和解釋為核心的篩查過程中。最近發表的工作還研究了如何將人工智慧和深度學習,用於糖尿病視網膜病變篩查。除了傳統的篩查計劃,深度學習在醫學中的應用也越來越廣泛,並被考慮用於黑色素瘤、眼科疾病(年齡成長所引起的黃斑變性和青光眼)的診斷,以及對組織學、放射學和心電圖圖像的解釋。

該團隊認為,如果用AI協助放射科醫生重新設計乳腺癌篩查流程,而不是與放射科醫生競爭、取代放射科醫生,也許是一種更有潛力的研究方式。比如,我們可以用AI技術預先篩選簡單的常規乳房X光照片,以及對遺漏病例進行補充篩選。同樣地,在糖尿病眼部篩查中,越來越多的證據表明, AI可以篩選出哪些是需要人類審核員查看的圖像,哪些是可以直接返回給女性的圖像。

本文為雷鋒網授權刊登,原文標題為「英國權威醫學期刊 diss 醫療AI:在乳腺癌檢測上取代放射科醫生是痴人說夢