哈佛公布新算法:提前2週預測新冠疫情爆發
金亭藩 / 何渝婷編譯
2020-07-07 16:40

(示意圖/取自pixabay)

復工期間,最令人擔心的事情恐怕就是疫情復發了。哈佛團隊一項最新研究顯示,透過對社群媒體、搜索引擎、行動軌跡等數據流的分析,可以搭建一個即時預測疫情復發的新算法。

7月1日,由哈佛大學Mauricio Santillana教授帶領的研究團隊,在論文預印本網站arXiv上發表了一項研究,並展示了一種由大數據分析驅動,用於預測美國各州新冠疫情的綜合性指標,可提前兩周左右預測疫情爆發。

這篇論文的標題為《一種利用多個數據追蹤近乎即時監測新冠肺炎活動的預警方法》(An Early Warning Approach to Monitor COVID-19 Activity with Multiple Digital Traces in Near Real-Time)。研究團隊中還有來自馬里蘭大學、史丹佛大學、薩爾茨堡大學等不同學校、研究機構及企業的國際科學家。目前,這一論文還沒有通過同行評審,尚未正式發表。

與大多數進行預先假設的傳染病模型不同,這篇論文提出的預測方式,主要是通過觀察各地疫情數據和社群媒體、關鍵字搜尋以及手機定位等不同即時數據流之間的關係,並通過概率計算和統計模型對這些數據進行綜合得到的。因而,這一算法可以對人們的即時行為變化進行反應,並將其納入到疫情預測之中。

該研究總共分析了六種資訊流,分別是:新冠相關關鍵字搜尋的谷歌趨勢、新冠相關的Twitter活動、UpToDate平台上新冠相關的醫生搜尋活動、GLEAM流行病學模型預測、由智慧型手機獲取的匿名行動活動數據,以及Kinsa智慧溫度計測量數據。通過綜合這六種資訊流得到的指標,對新冠肺炎確診病例增加預測的提前時間中值為19.5天,而對新冠肺炎死亡病例增加預測的提前時間中值為29天。

研究人員認為,這一指標可以為政策制定者,提供有價值的即時資訊,並可以在復工過程中,起到制熱或制冷系統中溫度調控器的作用。例如,在復工過程中,根據這一指標提供的即時資訊進行預警,可以隨時調整公共衛生干預措施,在不同時間段的啓動、強化或放鬆,更靈活地應對疫情變化,避免復工階段疫情產生二次爆發。

2008年由谷歌推出的Google Flu產品,可以看作是使用即時數據進行疫情分析的第一次嘗試。這種產品的算法,主要基於關鍵字搜尋數據進行搭建,但由於數據來源過於單一,在現實中的表現並不好。自此之後,科學家們便開始嘗試綜合不同的數據流,來開發更好的預測算法。

大數據分析是否能夠在疫情預測中起到重要作用,目前也存在著許多爭議。美國疾病控制與預防中心雖然在分析過程中,已經開始參考包括社群媒體在內的即時數據,但並未將它們看作是疫情預測的核心指標。這些算法是否能夠成為有效的預測模型,還有待現實的檢驗與驗證。不過,新冠疫情持續發展,帶來對疫情預測的需求和大量數據的產生,或許將為它們提供機會。

本文為界面新聞授權刊登,原文標題為「哈佛公佈新算法:提前2周預測疫情爆發