NVIDIA Clara 能讓醫(yī)療AI開發(fā)變得有多容易?
2003年,當(dāng)一種冠狀病毒引發(fā)的非典疫情席卷亞洲時(shí),互聯(lián)網(wǎng)尚處于萌芽期,互聯(lián)網(wǎng)在醫(yī)療場景中還沒有落地,人們僅能前往醫(yī)院等待治療。那時(shí),影像科總是人潮涌動(dòng),很多患者因?yàn)樵卺t(yī)院聚集而遭受感染。
今年,一種新的冠狀病毒帶著更強(qiáng)的傳染性席卷全球,但中國僅花費(fèi)不到兩個(gè)月,便控制住了病毒在湖北以外地區(qū)的傳播。在AI的幫助,疫區(qū)影像科的診斷效率迅速上升,患者聚集情況大幅改善;新藥研發(fā)公司也通過創(chuàng)新的基因分析手段探索病毒的RNA結(jié)構(gòu),短短數(shù)日便能篩選出1000多個(gè)RNA聚合酶核苷類抑制劑化合物的可編輯結(jié)構(gòu)化數(shù)據(jù)。
正如我們?cè)谝咔橹杏^察到的,人工智能輔助診斷、基因分析等技術(shù)正因?yàn)槠鋸V袤的前景而吸引著越多越多的研究人員進(jìn)入其中,但由于行業(yè)自身的高門檻,許多擁有豐富經(jīng)驗(yàn)的醫(yī)生、學(xué)者難免在研究路上受挫。
如今,為了讓更多的開發(fā)者能夠體驗(yàn)到NVIDIA的算力支持,并以更加簡單的方式對(duì)數(shù)據(jù)進(jìn)行編輯,NVIDIA在EGX、DGX、云計(jì)算服務(wù)之上開發(fā)了Clara框架,為研究人員提供聯(lián)邦學(xué)習(xí)、遷移學(xué)習(xí)等服務(wù),通過降低數(shù)據(jù)門檻的方式,推動(dòng)研究人員把重心回歸研究本身。
什么是Clara
NVIDIA正式發(fā)布Clara平臺(tái)是在2018年的RSNA之上,那時(shí)NVIDIA的目的僅是為影像學(xué)AI研究者提供一個(gè)醫(yī)學(xué)影像的軟件開發(fā)工具,以標(biāo)準(zhǔn)化影像數(shù)據(jù),并提升AI訓(xùn)練速度。
隨后,NVIDIA的開發(fā)者發(fā)現(xiàn),基因組是一個(gè)更為龐大的數(shù)據(jù)源,要處理億級(jí)的堿基配對(duì),必須找到更理想的算力來源,才能保證試驗(yàn)在成本上可行。在2019年蘇州舉辦的GTC大會(huì)之上,基因組學(xué)已經(jīng)成為Clara要啃掉的另一塊蛋糕。
到了今天,NVIDIA Clara的定位于面向醫(yī)療開發(fā)者的智能計(jì)算軟件平臺(tái)。接下來,所有醫(yī)療行業(yè)的解決方案都會(huì)整合進(jìn)Clara,NVIDIA意欲打造一個(gè)全能的“醫(yī)療百寶袋”,為更想要探索醫(yī)療領(lǐng)域的開拓者提供高效便捷的數(shù)據(jù)分析工具。
NVIDIA Clara
從整體上看,NVIDIA Clara包含了GPU加速庫、3個(gè)SDK以及一系列參考應(yīng)用。在這一階段下,Clara能夠?yàn)榭蒲泄ぷ髡咛峁┑姆⻊?wù)主要聚集于醫(yī)學(xué)影像領(lǐng)域與基因分析領(lǐng)域,而這兩個(gè)領(lǐng)域,正因?yàn)榇髷?shù)據(jù)的浪潮而飛速發(fā)展。
醫(yī)學(xué)影像應(yīng)用:用AI幫助開發(fā)者標(biāo)注3D影像
在醫(yī)學(xué)影像中,如果一個(gè)醫(yī)院或者一個(gè)企業(yè)想利用 AI技術(shù)構(gòu)建一個(gè)深度學(xué)習(xí)算法,并將其投入使用,那么需要完成4個(gè)步驟的工作。
數(shù)據(jù)是構(gòu)建AI的第一步,在獲得原始數(shù)據(jù)后,研究人員首先需要對(duì)數(shù)據(jù)進(jìn)行特定的標(biāo)注,如標(biāo)注出肺部CT影像中的結(jié)節(jié)部分。要構(gòu)建一個(gè)運(yùn)行優(yōu)異的AI算法,這一步操作至關(guān)重要。
有了標(biāo)注數(shù)據(jù)后,研究人員便需要將數(shù)據(jù)導(dǎo)入到選定的AI模型中,開發(fā)適合于研究人員需求的深度學(xué)習(xí)算法。從國內(nèi)的情況而言,很多研究人員通常是使用開源算法進(jìn)行二次開發(fā),或是借助于其他領(lǐng)域表現(xiàn)良好的算法進(jìn)行遷移。
第三步是通過測試集對(duì)已有的算法進(jìn)行檢驗(yàn)。研究人員需要把AI模型放到實(shí)際之中,觀察AI的實(shí)際運(yùn)行情況,如果算法不能很好滿足測試集的要求,研究人員可能就需要修改算法參數(shù),重新開始訓(xùn)練。
當(dāng)研究人員獲得測試表現(xiàn)良好的算法后,便可以嘗試將其部署于設(shè)備端,在真實(shí)的醫(yī)療診斷環(huán)境中進(jìn)行推理工作。到此為止,AI的開發(fā)工作便已基本完成。
NVIDIA開發(fā)Clara AI應(yīng)用平臺(tái)的目的就是為了讓上述的四個(gè)步驟標(biāo)準(zhǔn)化、簡單化,讓研究人員可以更加專注于醫(yī)學(xué)本身的研究。
以數(shù)據(jù)標(biāo)注為例,這一工作本是一件體力活,是“人工”跨向“智能”不可避免的重復(fù)性工作,而醫(yī)生不可能將太多的時(shí)間花在像素點(diǎn)連線之上。所以,一般AI企業(yè)選擇從醫(yī)院尋找剛畢業(yè)的研究生進(jìn)行勾畫,其成本在每組數(shù)據(jù)20-30元,實(shí)習(xí)生處理一組低層數(shù)據(jù)通常需要20-40分鐘,若要使勾畫更精細(xì),則需花費(fèi)1-2小時(shí)的時(shí)間。
這種數(shù)據(jù)獲取方式存在兩個(gè)重要的問題,一是人工智能訓(xùn)練需要的數(shù)據(jù)量大,企業(yè)很難找到足夠多的實(shí)習(xí)生進(jìn)行勾畫,成本也非常高昂;其次,影像的勾畫通常對(duì)工作人員的資歷要求較為嚴(yán)格,實(shí)習(xí)生常常會(huì)出現(xiàn)結(jié)節(jié)遺漏、標(biāo)注錯(cuò)誤等現(xiàn)象。
從這一需求出發(fā),NVIDIA在Clara Train SDK中植入了深度學(xué)習(xí)輔助標(biāo)注的組件AI Annotation Server,開發(fā)者可直接使用這一組件對(duì)醫(yī)學(xué)影像進(jìn)行標(biāo)注。
NVIDIA的實(shí)驗(yàn)數(shù)據(jù)顯示,應(yīng)用這一工具包后,單個(gè)肺結(jié)節(jié)的標(biāo)注時(shí)間可降至8-15分鐘,醫(yī)生的標(biāo)注效率可提升4-8倍。此外,通過粗略計(jì)算,胰腺的標(biāo)注速度可提升4倍,脾的標(biāo)注速度可以提升10倍。
此外,在DGX的加速下,NVIDIA可以將數(shù)周才能完成的計(jì)算任務(wù)提速至數(shù)小時(shí),這將大幅降低醫(yī)療AI企業(yè)的試錯(cuò)成本,企業(yè)甚至可以同步開展多個(gè)算法測試。人工智能的產(chǎn)出,甚至是發(fā)展,都會(huì)因此大大提速。
醫(yī)學(xué)影像應(yīng)用:用聯(lián)邦學(xué)習(xí)破除AI模型魯棒性難題
即便是我們解決了AI開發(fā)中的難題,并不代表就能讓AI走向?qū)嵱。在上述的步驟之中,我們忽略了醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的一個(gè)重要特征——安全性。由于醫(yī)學(xué)數(shù)據(jù)與生命信息息息相關(guān),只有在保證數(shù)據(jù)安全的前提下,我們才能談及數(shù)據(jù)的應(yīng)用。
這意味著,企業(yè)或醫(yī)生在訓(xùn)練AI時(shí),不能把數(shù)據(jù)帶出醫(yī)院,而成熟的AI算法,通常需要克服地域差異,進(jìn)行多中心的試驗(yàn)。如果AI模型不具備魯棒性,就失去了應(yīng)用與臨床的價(jià)值。
雖然數(shù)據(jù)不能出院,但是模型可以,那么我們能否直接將模型融合起來呢?答案是可以的。聯(lián)邦學(xué)習(xí)便是多個(gè)參與單位用各自數(shù)據(jù)訓(xùn)練完成的模型進(jìn)行聚合,以實(shí)現(xiàn)數(shù)據(jù)不出院的情況下多個(gè)模型的統(tǒng)一,最終實(shí)現(xiàn)AI模型的高魯棒性。
聯(lián)邦學(xué)習(xí)與中心訓(xùn)練結(jié)果對(duì)比
通過一個(gè)包含13個(gè)用戶組的融合實(shí)驗(yàn),NVIDIA得到了上圖結(jié)果。圖中的紅線是以數(shù)據(jù)中心模式進(jìn)行訓(xùn)練得到的模型精度曲線變化情況,綠線是聯(lián)邦學(xué)習(xí)下,13個(gè)模型融合后的模型精度曲線變化情況,可以發(fā)現(xiàn)隨著訓(xùn)練迭代次數(shù)的增加,兩條曲線高度重合,這個(gè)實(shí)驗(yàn)一定程度上證明了聯(lián)邦學(xué)習(xí)的可用性。
NVIDIA工程師在GTC2019講解聯(lián)邦學(xué)習(xí)
不過,新的問題也在不斷出現(xiàn)。如果各個(gè)模型差異很大,那么聯(lián)邦學(xué)習(xí)如何自行“去粗取精”呢?“增量學(xué)習(xí)”將是NVIDIA下一步研究的重點(diǎn)。
除了Clara Train SDK,NVIDIA還開發(fā)了Clara Deploy SDK,用于優(yōu)化PACS已有的工作流。同時(shí),利用Clara Deploy SDK,醫(yī)生可以在臨床環(huán)境中靈活快速部署醫(yī)療影像AI模型。
基因組學(xué):數(shù)據(jù)分析與AI構(gòu)造
再談NVIDIA新近瞄準(zhǔn)的基因組學(xué)。2003年首次對(duì)人類基因組進(jìn)行測序以來,整個(gè)基因組測序的成本就一直在下降,而且下降的速度遠(yuǎn)快于根據(jù)摩爾定律所預(yù)測的速度。從新生兒基因組測序到開展全國人口基因組計(jì)劃,該領(lǐng)域正在蓬勃發(fā)展,并且日趨個(gè)體化。
測序技術(shù)的進(jìn)步引發(fā)了基因組數(shù)據(jù)的爆炸式增長。序列數(shù)據(jù)總量每七個(gè)月增加一倍。這一驚人的速度可能會(huì)使得到2025年基因組學(xué)產(chǎn)生的數(shù)據(jù)量比其他大數(shù)據(jù)源(例如天文學(xué)、Twitter和 YouTube)數(shù)據(jù)量總和的10倍還多。
各種新的測序系統(tǒng),比如全球最大的基因組學(xué)研究集團(tuán)——華大集團(tuán)的DNBSEQ-T7等正在推動(dòng)這項(xiàng)技術(shù)的廣泛應(yīng)用。該系統(tǒng)每天可以生成高達(dá)60個(gè)基因組,產(chǎn)出高質(zhì)量數(shù)據(jù)1-6 Tb。
憑借華大集團(tuán)的流動(dòng)池技術(shù)的發(fā)展以及一對(duì)NVIDIA V100 Tensor Core GPU所提供的加速,DNBSEQ-T7的測序速度提高了50倍,令其成為迄今為止吞吐量最高的基因組測序儀。
但測序的加速工作遠(yuǎn)沒有結(jié)束,科學(xué)家在觀察更加微觀的世界時(shí)提出了新的需求。為了滿足這樣的需求,NVIDIA也在不斷探索。
為了通過加速和智能計(jì)算解決基因組測序和分析日益增長的規(guī)模和復(fù)雜性,NVIDIA創(chuàng)造了Clara Genomics。
通過Clara框架下的Clara Genomics Analysis SDK,研究人員可以加快基因數(shù)據(jù)的讀取、序列對(duì)比,以降低分析成本,提升數(shù)據(jù)質(zhì)量。
Clara Genomics
此外,NVIDIA還收購了Parabricks,這是一個(gè)CUDA加速的基因數(shù)據(jù)分析工具包,可用于發(fā)現(xiàn)變異,并能產(chǎn)生與行業(yè)標(biāo)準(zhǔn)GATK最佳實(shí)踐流程一致的結(jié)果。運(yùn)用這個(gè)工具包,相關(guān)計(jì)算可提升30-50倍,并可利用深度學(xué)習(xí)進(jìn)行基因變異檢測。
NVIDIA Parabricks GPU加速的GATK
通過與華大集團(tuán)合作,Parabricks的軟件可以在一小時(shí)內(nèi)完成全基因組的分析。華大集團(tuán)使用一臺(tái)內(nèi)置8個(gè)NVIDIA T4 Tensor Core GPU的服務(wù)器,證明了可以通過提高吞吐量將基因組測序成本降至2美元,這還不到現(xiàn)有系統(tǒng)成本的一半。
NVIDIA 為 COVID-19 研究人員免費(fèi)提供 Parabricks,了解更多請(qǐng)點(diǎn)擊此處。
AI的未來需要所有人共同開創(chuàng)
隨著深度學(xué)習(xí)進(jìn)入越來越多的領(lǐng)域之中,NVIDIA在為眾多開發(fā)者提供算力支持的同時(shí),也為其搭好了強(qiáng)有力的“基底”,在這之上,開發(fā)者能夠?qū)⒏嗟木Ψ旁谥R(shí)的探索之上,而非受制于如何使用數(shù)據(jù)分析工具。
如今,Clara已經(jīng)擁有了眾多的合作伙伴,在中國,聯(lián)影醫(yī)療、安德醫(yī)智均采用了這一平臺(tái)進(jìn)行合作開發(fā),在海外,賽默飛世爾、佳能Vital、約翰霍普金斯大學(xué)也與NVIDIA建立了深入的合作關(guān)系。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 全數(shù)會(huì)2024中國人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會(huì)
-
精彩回顧立即查看>> OFweek 2024中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
10 BD新浪潮
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市