欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

美國CDC、JHU在用的疫情數(shù)據(jù)庫,來自這個武漢姑娘的華人團(tuán)隊

2020-06-09 18:53
來源:澎湃新聞·澎湃號·湃客
字號

原創(chuàng) 文摘菌 大數(shù)據(jù)文摘

大數(shù)據(jù)文摘出品

作者:劉俊寰

剛剛,根據(jù)CovidNet網(wǎng)站數(shù)據(jù),新冠肺炎導(dǎo)致的美國確診病例累計突破200萬,全球累計確診病例數(shù)突破700萬,除了美國,巴西、俄羅斯、西班牙、英國、印度和意大利6個國家累計確診數(shù)已經(jīng)超過20萬。

“身為武漢人,雖然我無法在武漢為他們做些什么,但我真的想以某種方式提供幫助?!边@是現(xiàn)居住于美國舊金山的華人郭昱在接受采訪時說的話,她和團(tuán)隊想要做的,就是深入疫情數(shù)據(jù),挖掘出有那些溫度的信息,幫助到全世界的人。

數(shù)字無法取代每一個鮮活的生命,但從這些看似冰冷的數(shù)字中,我們?nèi)匀豢梢缘贸鲆恍┯袦囟鹊男畔?,將這些信息分享給更多的人。

基于“一畝三分地”這個北美華人論壇的新型冠狀病毒世界疫情動態(tài)追蹤平臺CovidNet,就是郭昱和團(tuán)隊正在著手經(jīng)營的項目,這是一個實時追蹤新冠疫情數(shù)據(jù)的網(wǎng)站,在1月初美國還沒有其他實時的疫情追蹤網(wǎng)站時,郭昱就已經(jīng)開始和4位全職數(shù)據(jù)工程師著手打造這個網(wǎng)站了。

如今各國都建立起了實時疫情追蹤網(wǎng)站,其中最知名的或許要屬約翰霍普金斯大學(xué)(JHU)新冠追蹤網(wǎng)站,但其實,該網(wǎng)站的美國數(shù)據(jù)完全引用于CovidNet的數(shù)據(jù)。3月26日,美國疾病控制與預(yù)防中心(CDC)正式采用CovidNet的數(shù)據(jù),這也是美國官方對民間數(shù)據(jù)網(wǎng)站的重要肯定。

CovidNet提供了全方位的交互式數(shù)據(jù)可視化工具,以供公眾參考。它有著比CDC更為細(xì)致的地理分布數(shù)據(jù),交互式地圖連通了各個省、州和郡、市的病例分布,數(shù)據(jù)表格可供讀者按照不同的統(tǒng)計量對各個國家和地區(qū)進(jìn)行篩選和排序。

讀者還可以進(jìn)行跨區(qū)域的疫情橫向比較,比如當(dāng)選中國家后可以用鼠標(biāo)滑過不同地區(qū)查看相應(yīng)地區(qū)的疫情數(shù)據(jù),除此之外,CovidNet還提供了各種動態(tài)圖進(jìn)行展示。

在時間趨勢的呈現(xiàn)上,CovidNet同樣綜合了每天的疫情數(shù)據(jù),讀者對疫情可以有更宏觀的分析和掌握。

網(wǎng)站鏈接:

https://coronavirus.1point3acres.com/zh/world

不僅如此,為了讓更多人從中受益,5月14日,郭昱團(tuán)隊將CovidNet的建立過程和技術(shù)細(xì)節(jié)以預(yù)印本形式進(jìn)行了分享,并且向數(shù)據(jù)庫與數(shù)據(jù)挖掘領(lǐng)域的相關(guān)會議進(jìn)行了投遞。

預(yù)印本鏈接:

https://arxiv.org/abs/2005.10948?from=timeline&isappinstalled=0

截止到預(yù)印本發(fā)表時刻,CovidNet已經(jīng)覆蓋了英語、中文、法語、日語、西班牙語5種語言,共覆蓋國家或地區(qū)188個,其中有州或省份級別數(shù)據(jù)的國家有25個,覆蓋州、省份974個,覆蓋北美郡、市3169個,CovidNet的數(shù)據(jù)信息源總數(shù)達(dá)到了2038條,用戶提交的新聞線索報告數(shù)量達(dá)到16240條。

截止至本文發(fā)表,CovidNet已經(jīng)覆蓋39個國家的分省/州數(shù)據(jù),網(wǎng)站訪問量更是超過了2.25億。

由于數(shù)據(jù)發(fā)布的及時準(zhǔn)確,CovidNet已經(jīng)引起了海內(nèi)外不少媒體的興趣,包括《星島日報》、CGTN、鳳凰衛(wèi)視在內(nèi)的多家媒體都已對郭昱以及CovidNet進(jìn)行了跟蹤報道。

美國CDC、JHU引用的全球疫情實時數(shù)據(jù)庫

4月,美國著名學(xué)術(shù)期刊,根據(jù)Gardner的說法,她和實驗室6名學(xué)生共同撐起了整個網(wǎng)站的運(yùn)作,她們的數(shù)據(jù)來源除了地方衛(wèi)生局和各地媒體,美國國內(nèi)3149個郡、市的實時疫情數(shù)據(jù)完全來源于CovidNet。

即使Gardner說得比較克制,但從她的介紹中,我們?nèi)匀荒軌蛳胂笠崟r更新的新冠疫情追蹤網(wǎng)站是有多么不易。相比于約翰霍普金斯新冠追蹤網(wǎng)站,郭昱團(tuán)隊最初只有4位全職工程師,如今CovidNet還擁有了超過50位志愿者。他們共同面對當(dāng)下最具挑戰(zhàn)性的全球性的數(shù)據(jù)追蹤問題,這不僅包括數(shù)據(jù)收集,還要進(jìn)行實時的數(shù)據(jù)核實和深入調(diào)查。

最重要的是,在全世界的監(jiān)督之下,這里的數(shù)據(jù)容不得一點(diǎn)差錯。

首先,數(shù)據(jù)收集就是一個難關(guān)。郭昱表示,在公開數(shù)據(jù)上,CovidNet主要通過以下兩種方式獲取,一個是國家官方系統(tǒng)提供的開源數(shù)據(jù),另一個是官方統(tǒng)計的當(dāng)天最新數(shù)據(jù)。

這其中根據(jù)每個國家報道的范式不同,上述兩種方式還需要細(xì)分。

對于第一種情況,有的國家以病例為單位進(jìn)行報道,比如菲律賓或哥倫比亞,有的國家以行政區(qū)為單位進(jìn)行報道,比如意大利或西班牙。針對此,郭昱團(tuán)隊采取的做法是將前者聚合成后者的數(shù)據(jù)范式,這樣不僅能保持?jǐn)?shù)據(jù)一致性,還能為全面準(zhǔn)確地更新疫情數(shù)據(jù)提供良好的數(shù)據(jù)來源。

對于第二種情況,鑒于歷史數(shù)據(jù)大都以各種格式保存在歷史檔案或新聞存檔中,他們對能夠從官方存檔中獲取到所有的歷史數(shù)據(jù)進(jìn)行匯總,并且僅更新當(dāng)日官方報道的最新數(shù)據(jù)。

除此之外,根據(jù)全球各異的數(shù)據(jù)發(fā)布方式,郭昱團(tuán)隊設(shè)計了不同的數(shù)據(jù)處理機(jī)制。

很多時候,國家/地區(qū)-省/州-郡/縣各級衛(wèi)生機(jī)構(gòu)發(fā)布數(shù)據(jù)的時間節(jié)點(diǎn)不同步,如果以不同級別的信息源各為參照源,就會導(dǎo)致數(shù)據(jù)總和出現(xiàn)差異,例如,在某一時刻,各個郡/市的統(tǒng)計數(shù)據(jù)之和與省/州總數(shù)并不相等,他們會優(yōu)先選擇參照更基層的數(shù)據(jù)來源,同時在網(wǎng)站上公開解釋和高一級官方數(shù)據(jù)源不一致的原因。

除了數(shù)據(jù)上的整合之外,各國的診斷標(biāo)準(zhǔn)不同,從時間上看將出現(xiàn)病例匯報的渠道和方式的前后差異,比如,疫情初期通常是個例報道,每例都會提供詳細(xì)信息,但隨著確診人數(shù)的增加,個例報道逐漸演變成確診數(shù)字統(tǒng)計,從空間上看每個國家處于疫情的不同階段,根據(jù)確診定義的發(fā)展數(shù)據(jù)標(biāo)準(zhǔn)也在同步變化。

這不只表現(xiàn)在不同國家之間,在其他級不同區(qū)域之間同樣存在類似情況,比如某些區(qū)域的數(shù)據(jù)增長過快,或者同一份報告中的數(shù)據(jù)不一致,在總趨勢中出現(xiàn)了累計統(tǒng)計總數(shù)下降等,都是需要考慮的地方。

針對上述種種變化,郭昱表示,為確保質(zhì)量控制和數(shù)據(jù)的準(zhǔn)確,他們結(jié)合自動搜集和人工更改、查驗的方式,同時也會按照當(dāng)?shù)匦l(wèi)生機(jī)構(gòu)統(tǒng)計的方法,隨時針對數(shù)據(jù)獲取和統(tǒng)計方式進(jìn)行修正,包括以人工核查的方式過濾掉媒體或者衛(wèi)生部門報告中的噪聲,在根據(jù)原始信息進(jìn)行更新的基礎(chǔ)上密切關(guān)注后續(xù)發(fā)展,對歷史數(shù)據(jù)進(jìn)行回查等。

這時候,就需要這支50多人組成的去中心化志愿者團(tuán)隊登場了。

根據(jù)郭昱介紹,CovidNet的工程師團(tuán)隊成員都屬于“一畝三分地”的全職工作人員;負(fù)責(zé)數(shù)據(jù)核查的50多位志愿者們則是通過網(wǎng)絡(luò)招募加入,主要是華人群體或北美留學(xué)生,他們中有數(shù)據(jù)科學(xué)家、工程師,也有各專業(yè)學(xué)生、學(xué)者、教授。盡管有著不同的職業(yè)或?qū)I(yè)背景,每個人都能在團(tuán)隊統(tǒng)籌下完成數(shù)據(jù)統(tǒng)計和核實工作,不少志愿者還對流程的制定和迭代優(yōu)化也做出了不小貢獻(xiàn)。

團(tuán)隊是在并行異步地更新數(shù)據(jù),為了保證減少時滯,同時避免數(shù)據(jù)多重更新等難題,團(tuán)隊設(shè)計了相應(yīng)的流程和分級處理,在規(guī)范統(tǒng)籌數(shù)據(jù)更新模式和流程之后,對于不同地區(qū)的數(shù)據(jù)整理和校對,也設(shè)有專人對應(yīng)地進(jìn)行負(fù)責(zé)。

郭昱表示,團(tuán)隊每兩個小時就會查看并檢查是否有最新數(shù)據(jù),如果有,便會把相關(guān)數(shù)據(jù)實時更新到數(shù)據(jù)庫中。

“我們秉承從所能獲取的最原始數(shù)據(jù)出發(fā)的原則,每次更新都對歷史數(shù)據(jù)進(jìn)行全面的核查校對,因此需要用戶在使用我們數(shù)據(jù)庫的時候需要及時更新全部的數(shù)據(jù)庫而僅非當(dāng)天數(shù)據(jù)?!惫耪f道。

事在人為,CovidNet的北美成長史

以北美為例,我們來看看CovidNet的成長史。

在CovidNet之前,全球范圍內(nèi)除了中國丁香園,絕大多數(shù)主流COVID-19追蹤平臺提供的是國家層級的數(shù)據(jù),比如國際衛(wèi)生組織(WHO)和歐洲疾病預(yù)防控制中心(ECDC)等國際組織,但這些數(shù)據(jù)往往滯后于快速發(fā)展的疫情,難以為身處混亂信息中的各地民眾帶來迫切需要的透明、及時的信息。

也正是在這個背景下,3月,北美確診病例數(shù)直線上升,成為世界疫情中心,但想要提供實時更新的數(shù)據(jù),除了要保證在全球?qū)蛹壣系母隆⒖煽亢腿嫱?,還面臨著美國公共衛(wèi)生系統(tǒng)的分級匯報機(jī)制帶來的挑戰(zhàn)。

事在人為。為了彌補(bǔ)官方公共衛(wèi)生渠道在實時性和一致性方面的不足,從1月21日開始,CovidNet數(shù)據(jù)團(tuán)隊展開了對北美確診、死亡、治愈(recover)三項統(tǒng)計數(shù)據(jù)的追蹤,也逐步引入了一系列查證、核實方式,綜合應(yīng)對當(dāng)?shù)胤旨墔R報系統(tǒng)帶來的額外挑戰(zhàn)。

同時,CovidNet團(tuán)隊也與COVID Tracking Project團(tuán)隊展開合作,將檢測數(shù)量和病床占有數(shù)等統(tǒng)計指標(biāo)納入到數(shù)據(jù)展示中,構(gòu)建了對區(qū)域疫情更為完整清晰的刻畫。

比如在疫情爆發(fā)的不同階段,用戶對數(shù)據(jù)的關(guān)注點(diǎn)會有所變化,CovidNet在疫情爆發(fā)的不同階段采用了不同模式的數(shù)據(jù)整合方法,同時把使用不同模式的時期劃分成了疫情的三個階段:

主動搜索模式階段:疫情浮現(xiàn)初期和中期,確診數(shù)目較低。在這一模式下,志愿者團(tuán)隊主動搜索相關(guān)媒體新聞和官方報道,進(jìn)行多來源比對以保證不出現(xiàn)重復(fù)計算;

用戶匯報模式階段:疫情擴(kuò)展期,確診數(shù)目增加、地理擴(kuò)散加速。在這一時期,團(tuán)隊利用早期建立的用戶群基礎(chǔ),開辟用戶匯報通道。主動搜索仍然發(fā)揮著重要角色,而用戶匯報通道模式的開辟也在很大程度上保證了CovidNet數(shù)據(jù)平臺的實時性;

自動收集模式階段:疫情爆發(fā)期后,每日新增確診數(shù)目激增、地理覆蓋廣泛。在這一模式下,工程師團(tuán)隊建立了一套完整的自動化更新系統(tǒng),實時追蹤可靠數(shù)據(jù)源的數(shù)據(jù)更新(包括各地官網(wǎng)和可信的主流媒體平臺),并及時反饋給志愿者團(tuán)隊。志愿者團(tuán)隊則主要負(fù)責(zé)進(jìn)一步查證,以確保數(shù)據(jù)歷史的一致性,完成最終數(shù)據(jù)錄入。

針對不同階段,基于數(shù)據(jù)源所提供信息的詳略程度,工程師團(tuán)隊對后端數(shù)據(jù)的存儲格式也持續(xù)進(jìn)行著相應(yīng)調(diào)整、更新,后端數(shù)據(jù)的儲存格式也會有相應(yīng)的變化:

信息細(xì)化型格式:不同的案例被分別單獨(dú)記錄。每一條記錄中包含以下信息:案例數(shù)目,確診/死亡日期,確診/居住地區(qū),性別,年齡,感染原因,數(shù)據(jù)來源,病例概述等。在疫情初期和中期,此格式作為主要格式被長期使用;

信息密集型格式:數(shù)據(jù)記錄只保留了時間和地點(diǎn)兩大信息。疫情大規(guī)模爆發(fā)后,各大數(shù)據(jù)源逐漸取消了對詳細(xì)案例信息的報道,這使得密集型格式成為更加合理和高效的選擇。這一格式從4月底成為CovidNet數(shù)據(jù)庫主要格式,一直沿用至今。

輔助統(tǒng)計表格:輔助統(tǒng)計表格不作為直接數(shù)據(jù)的記錄方式,用來存儲區(qū)域性數(shù)據(jù)的衍生統(tǒng)計信息。具體實例包括:州、郡數(shù)據(jù)的當(dāng)前案例數(shù)統(tǒng)計。

除了在數(shù)據(jù)整合和呈現(xiàn)上所做的貢獻(xiàn)外,CovidNet還開辟了美國醫(yī)護(hù)人員防護(hù)物資需求整合及發(fā)布板塊、疫情新聞板塊,希望能給更多收到疫情影響的人提供幫助。

提供真實數(shù)據(jù),是整個團(tuán)隊的初心

作為CovidNet的創(chuàng)建人和一畝三分地的聯(lián)合創(chuàng)始人,郭昱曾獲得哈佛大學(xué)生物統(tǒng)計學(xué)博士學(xué)位,目前在Uber自動駕駛機(jī)器學(xué)習(xí)平臺任高級主管一職。

郭昱介紹道,目前她的主要工作是領(lǐng)導(dǎo)整個疫情地圖的開發(fā),決定收取怎樣的數(shù)據(jù),如何用不同的信息源進(jìn)行查證,怎樣做到真實可信,以及自動化的實現(xiàn)等。

“除了吃飯睡覺和上班,我其余時間每一分鐘都用在這上面了。”郭昱說道。

她在領(lǐng)英中寫道:“由于新冠疫情,我的家庭成員和很多幼年朋友仍居家隔離中,2月我的叔叔感染病毒過世。雖然我無法在武漢為他們做些什么,但我真的想以某種方式提供幫助?!?/p>

如今美國疫情依舊肆虐,這對CovidNet來說,工作量也逐漸加強(qiáng),這就需要24小時有人維護(hù)和核實數(shù)據(jù),即使有50多位志愿者的加入和分擔(dān),這依然是不小的工作量。

說到志愿者團(tuán)隊,郭昱介紹道,他們來自不同的地方,參加項目的原因各不相同。盡管如此,大家有一個共同的目標(biāo),就是希望通過疫情網(wǎng)站給用戶提供最接近真實的疫情發(fā)展信息。無論是好是壞,真實數(shù)據(jù)的傳達(dá)不僅可以幫助大家減少恐慌,也可以能幫助大家在疫情期間合理做決策。

這些人平時散落在各個角落,分布在街頭巷尾,就像每天上班途中地鐵上看到的每個普通人一樣,各自為生活努力著。他們和你我一樣,都會受到疫情影響,也會為疫情感到焦慮。

如今,CovidNet的網(wǎng)站訪問量已經(jīng)超過了2.25億,就產(chǎn)品角度而言這可以說是一次巨大的成功,郭昱也表示,“不可避免地會進(jìn)行產(chǎn)品層面上的關(guān)心,但更關(guān)心的是疫情得到控制。實際上,訪問量下降反而是一件好事,這表示疫情過去了”。

“我們做這件事得到了很多人的認(rèn)可,我們也覺得做的事情是很有價值的,希望能把更多信息的透明度帶給大家,在這個基礎(chǔ)上,群眾有什么其他的需求是我們能幫助滿足的,這些我們可以再想一想。如果你做的這個事情對于大多數(shù)人是有用的,那么會有很多人愿意參與進(jìn)來幫助你,也可以做出更大的事情來,對更多的人有更正面的影響?!惫耪f道。

原標(biāo)題:《剛剛,美國確診超200萬!美國CDC、JHU在用的疫情數(shù)據(jù)庫,來自這個武漢姑娘的華人團(tuán)隊》

閱讀原文

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司