洞查數據背後,MSRA推出新冠數據分析網站
付靜 / 何渝婷編譯
2020-04-29 14:25

(示意圖/取自pixabay)

這場疫情再次拉近了我們和科學家之間的距離。

疫情之下,科研人員的一次次探索與發現,都成為公眾關注的焦點和政策制定的依據。獲取最新科研資訊,對我們建立更立體、客觀的新冠疫情認知,有著關鍵意義。

近日,微軟亞洲研究院(Microsoft Research Asia,MSRA)推出了一個新冠數據分析網站COVID Insights,旨在通過較為全面的疫情數據,達到支持學術研究和向公眾科普的目的。

COVID Insights網站基於計算生物學、數據分析等領域的專業知識和研究經驗,使用了約翰霍普金斯大學、美國疾病控制與預防中心、GISAID等機構的官方數據,主要分為感染數據分析、基因組和蛋白質結構、研究趨勢三大板塊。

跨國家或地區比較傳播動態

哪些地區的疫情發展趨勢比較接近?有些國家的數據降下來了,他們的做法值得參考嗎?

實質上,「感染數據分析」板塊對這類問題給出了答案,通過微軟亞洲研究院對COVID-19數據的分析,流行病學參數對特定國家與地區的疾病傳播動態的影響便一目瞭然。

例如,澳洲2020年2月3日至2020年4月26日的疫情傳播趨勢,與冰島 2月1日至4月17日的趨勢相似度為56%,因此冰島便可以借鑑澳洲的疫情防控措施。

而通過移動光標的位置,將時間限定在3月22日至4月15日,可以發現這一時期澳洲的傳播趨勢,與韓國在2月29日至3月17日的趨勢相似度為80%,因此澳洲便可以參考韓國在2020年3月中下旬的防控措施。

眾所周知,當前美國新冠肺炎確診人數逼近100萬,若利用這一功能,我們可以看到3月20日至4月26日(目前該功能的數據只更新至4月26日)美國的疫情發展趨勢和兩周前的伊朗有75%的相似度,那麼此時參考對方的措施不失為一種可行的方案。

這一功能的數據集,來源於約翰霍普金斯大學系統科學與工程中心公布的新冠疫情數據。

SARS-CoV-2 的病毒學分析結果

相比上述板塊,「基因組和蛋白質結構」板塊則顯得比較抽象了,該板塊展示了SARS-CoV-2(新型冠狀病毒)的病毒學分析結果,主要將目光放在SARS-CoV-2 病毒本身,主要包括以下兩個功能:

第一,基因組與蛋白質結構。

前不久,外媒「新冠病毒來自武漢」的說法引起了軒然大波。實際上,早在2020年2月20日,中國科學院西雙版納熱帶植物園,就曾發布研究成果,稱武漢華南海鮮市場的新型冠狀病毒是從其他地方傳入的 ,於是便出現了新冠病毒「國外起源論」。

在這一研究中,有一幅非常複雜的圖,實際上就反映出了病毒基因組變異的問題。實際上,就病毒基因組變異而言,如今全球已經有了很多的研究數據。

根據網站介紹,微軟亞洲研究院從全球流感序列數據庫GISAID上下載了SARS-CoV-2基因組數據,以病毒株Wuhan-Hu-1作為參考序列,確定出各病毒序列發生變異的氨基酸及其位置。

因此,通過在下拉列表中選定某一個大洲,我們就能直觀地看到特定核酸片段上,發生變異的氨基酸的數目、地區分布與變異時間線。

同時,網站上經SARS-CoV-2病毒核酸序列轉化得到的蛋白質3D結構,也為相關研究提供了參考。

第二,與其他冠狀病毒的比較。

據瞭解,當前在全球肆虐的SARS-CoV-2病毒是目前已知的第7種可以感染人的冠狀病毒,其餘6種中就包括我們可能已經不陌生的SARS-CoV(引發「非典」的病毒)和MERS-CoV(引發中東呼吸綜合徵的病毒)。

除了拿SARS-CoV-2與SARS-CoV、MERS-CoV進行比較,在COVID Insights網站上,還有SARS-CoV和另外兩種病毒的比較。

值得一提的是,這兩種病毒Bat-CoV和Pangolin-CoV,分別來自此前新冠病毒潛在中間宿主的熱門人選中,華菊頭蝠和馬來穿山甲。

根據COVID Insights網站,Bat-CoV、Pangolin-CoV、SARS-CoV、MERS-CoV與SARS-CoV-2的相似度依次遞減,分別為96%、90%、79%、49%。

全球新冠研究趨勢

2020年1月1日至2020年4月22日,眾多領域科研人員都做出了非常多的研究。微軟亞洲研究院通過統計、整合論文開放獲取數據庫COVID-19 Open Research Dataset的數據,根據不同時間段(按周統計),做出了流行病學、社會科學、 病毒學、診斷學四個領域的新冠研究趨勢詞雲。

因此我們可以發現,2020年2月26日至2020年3月4日那一周,流行病學研究中「transmission」(傳播)一詞出現的頻率較高。

2020年4月8日至2020年4月15日那一周,社會科學研究中,「number」(數字)一詞成為關鍵詞。

值得一提的是,COVID Insights網站也將流行病學、社會科學、 病毒學、診斷學四個領域的高引用論文列了出來,這樣一來,公眾也在某種程度上降低了受低品質論文誤導的風險。

實際上,近一段時間以來,疫情相關的學術論文呈現出井噴式成長態勢,低品質研究論文泛濫的現象也相當嚴重。2020年4月23日,卡內基梅隆大學道德與政策中心主任 Alex John London,和麥基爾大學生物醫學倫理部教授兼主任Jonathan Kimmelman,也在《科學》雜誌發表文章,發出呼籲:「不應以COVID-19疫情爆發的緊迫性為藉口,在病毒研究和疫苗研發等方面降低科研標準。」

可見,雖然COVID Insights網站目前的數據並非特別全面,但的確在加速優質科研資訊的互通互享方面發揮了重要的作用。正如比爾·蓋茲所說:「這次疫情是現代社會第一場真正意義的大流行病。這就像一場世界大戰,不同的是,這次我們都在同一條戰線。」

本文為雷鋒網授權刊登,原文標題為「洞查數據背後,MSRA 推出新冠數據分析網站