LeCun公開質疑谷歌《Nature》的乳癌AI研究成果
李雨晨 / 何渝婷編譯
2020-01-06 16:18

2020年,醫療AI的第一個大新聞屬於谷歌。

1月2日,Google Health聯合公司旗下DeepMind、倫敦大學學院、劍橋大學、英國吉爾福德皇家薩里郡醫院、新創公司Verily Life Sciences、史丹佛醫療中心、英國皇家馬斯登醫院等多個機構在《Nature》雜誌上發表了一篇論文,介紹了一種新型的深度學習X光影像系統。

這個系統的核心亮點是,能夠有效減少了乳癌被錯誤辨識或遺漏的情況,將乳癌檢測的假陽性率降低了5.7%,假陰性率也降低了9.4%,並號稱擊敗了6名放射科醫生。

谷歌經常會在某些領域「超越」醫生。

2017年,谷歌醫療AI在乳癌診斷中的表現,超過人類專業病理檢驗師。次年,谷歌發布一款針對晚期乳癌的人工智慧檢測系統,可以在99%的情況下,正確區分轉移性癌症。

但是,這個消息的熱度還沒持續48個小時,就有質疑聲音出現了。

LeCun在質疑什麼?

深度學習三巨頭之一的楊立昆(LeCun)首先站了出來。

他糾結的一個點在於,谷歌這篇論文的結果,紐約大學的團隊在2019年10月就已經做過了。如果谷歌要發表這篇文章,就應該引用NYU的研究內容。

雷鋒網查看了一下LeCun的帳號,直到1月3日中午11點半,LeCun還在轉發文章,看來對這件事有著一股深深的執念。

當然,這個事情錯不在谷歌。

DeepMind的負責人Hassabis回覆LeCun說,我們引用了這篇論文,LeCun應該先看清結果再罵。

而後LeCun也解釋了,這個確實沒看到。

不過,圍繞這篇論文的爭論卻沒有散去,有學者站出來公開支持LeCun,質疑這篇論文的實際價值。

Hugh Harvey說到,雖然我們要向谷歌表示祝賀,但是不要忘了,去年紐約大學的團隊就取得了更好的結果,有更多的數據驗證,和更多的放射科醫生進行了對比。並且,紐約大學的代碼和數據都開源了。

上面的這些話都還算客氣,不過Hugh Harvey最後一句可就不留情面了:「只是紐約大學的學者們,沒有PR團隊來引起公眾的注意罷了。」

當然,有人反對,也就有人支持。

巴塞隆納大學機器學習和CV領域的教授Gabriel Oliveira就表示,如果我們不能訪問數據集或代碼,我們應該如何重現結果或驗證它?儘管如此,任何在幫助抗癌方面取得的進展,和付出的努力都是受歡迎的,所以祝賀谷歌這個團隊。

「敢說、敢罵」的批判者

2019年,LeCun與Hinton教授以及Bengio教授三人共同獲得了當年度的圖靈獎,將拿到100萬美元的獎金。

雖然名譽加深,不過LeCun一直以來就是一個批判者,經常會公開發表不同的意見。

在去年ISSCC(國際固態電路研討會)學術會議上發言時,這位「敢說、敢罵」的LeCun,就順便批判了英特爾神經形態計算實驗室主任Mike Davies,在做的神經形態計算,後面自然引起了一場「隔空對戰」。

不過,作為深度學習領域的領軍人物,對於人工智慧的未來,LeCun的措辭一向很謹慎,「AI離我們的目標還非常遠,還達不到我們想要的效果」。

所以,對於谷歌能夠擊敗6名放射科醫生,相信LeCun也會有自己的看法。

準備率99%可靠嗎?

拆台「知名」醫療AI論文的現象一直存在。

雷鋒網瞭解到,2017年12月,吳恩達團隊就宣布,利用CNN算法辨識肺炎的準確率上超越了人類專業醫師。緊接著,阿德萊德大學的放射科在讀博士Luke Oakden-Rayner就發表文章,質疑吳恩達團隊醫學影像數據集的可用性問題。

要知道,當時的ChestX-ray14已經是最大的胸部X光照片數據集,包含14種疾病的10萬張前視圖X光圖像。

為了證明自己的觀點,Luke Oakden-Rayner博士依次對「標籤的準確度」、「標籤的醫學意義」、「標籤對於圖像分析的重要性」等三個問題進行了論述。

而就在上文中,谷歌此前提到的「晚期乳癌的人工智慧檢測系統,可以在99%的情況下正確區分轉移性癌症」,也存有疑問。

我們要知道,電腦工程界常用的評價指標有兩個:

Accuracy  (準確率):判斷正確的樣本數與總樣本數之間的比例。計算方法為,系統正確判斷為陽性與正確判斷為陰性的數量之和除以總樣本數量。

Precision  (精確率):系統判斷為陽性的情況中正確的比例。計算方法為,系統正確的判斷為陽性的數量,除以系統判斷為陽性的總數量。

Recall (召回率):等同於敏感度。

可以發現,準確率Accuracy和精確率Precision,嚴重依賴於樣本總數裡陽性和陰性的配比,舉個極端的案例,設計一個系統,對於所有的輸入都報陽性,即敏感度為100%,特異度為0,這就是個沒有實際用處的系統,那麼此時取100個測試樣本中,99個為陽性、1個為陰性,此時計算出的準確率為99%,精確率也是99%。

因此,現實中,做出一個敏感度高、特異度不高,或者反之的系統是很容易的,可以輕鬆的調整測試樣本的陽性陰性比例來優化其準確率和精確率值。

醫學是講證據的學科,如何證明一項臨床成果的先進性,實用性和穩定性,需要工程團隊給出充分的理由。就「擊敗醫生」這件事而言,在目前看來還很遙遠。「窺一斑而見全豹」這樣的方式,並不適用於以「循證」為特徵的醫學領域。

而數據集、思維方式、評價指標,這些都是醫療AI繞不開的問題。

所以,以後對於類似的「準確率超過99%」、「超過醫生水平」的話術,我們看看就好。畢竟,AI想要達到或者超過醫生的水平,還有很多事情要做。

本文為雷鋒網授權刊登,原文標題為「剛過一天就被拆台?LeCun公開質疑谷歌《Nature》的乳腺癌AI研究成果