侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

醫(yī)學(xué)影像AI為什么需要小數(shù)據(jù)學(xué)習(xí)?

近年來(lái),深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)一定程度上顛覆了醫(yī)學(xué)影像行業(yè)的發(fā)展路徑,人工智能介入下,影像相關(guān)科室繁雜重復(fù)的工作逐漸由算法接替,醫(yī)生資源短缺這一問(wèn)題似乎出現(xiàn)了解決的希望。

但AI亦有其限制。從當(dāng)前發(fā)展情況看,有效的人工智能算法大多聚集于存在大量標(biāo)準(zhǔn)化數(shù)據(jù)的病種,畢竟要實(shí)現(xiàn)高質(zhì)量AI診斷,需要大量的高質(zhì)量標(biāo)注圖像進(jìn)行前期的算法訓(xùn)練。

這一數(shù)據(jù)相關(guān)的特質(zhì)限制了醫(yī)學(xué)AI的廣泛應(yīng)用,F(xiàn)實(shí)之中,罕見病和疑難雜癥的數(shù)據(jù)較少,囿于患者隱私、數(shù)據(jù)安全等問(wèn)題,數(shù)據(jù)收集行為的開展也較為困難。此外,醫(yī)學(xué)圖像的標(biāo)注過(guò)程成本較高,對(duì)于不同的標(biāo)注內(nèi)容往往需要開發(fā)特殊的標(biāo)注工具并交由有經(jīng)驗(yàn)的醫(yī)生進(jìn)行。多方面原因協(xié)同下,某些醫(yī)學(xué)圖像問(wèn)題的高標(biāo)注質(zhì)量醫(yī)學(xué)圖像數(shù)據(jù)集非常稀缺,其AI自然也難以孕育。

好在AI面臨的困境并非沒有解法;叵肫饋(lái),人類只需通過(guò)極少的樣本就能辨別新的事物,那么機(jī)器是否能以復(fù)制人類的這一能力呢?答案或許是可以的。最近醫(yī)學(xué)AI領(lǐng)域興起的一系列小數(shù)據(jù)學(xué)習(xí)方法便是以模仿人類的判別能力為目標(biāo),嘗試通過(guò)減少需要的數(shù)據(jù)量,實(shí)現(xiàn)特定目標(biāo)圖像的識(shí)別,最終克服醫(yī)學(xué)領(lǐng)域數(shù)據(jù)量少、標(biāo)準(zhǔn)缺乏的問(wèn)題。

以先驗(yàn)知識(shí)為基礎(chǔ)的小樣本學(xué)習(xí)

要實(shí)現(xiàn)小樣本學(xué)習(xí)(few-shot learning)必須要具備一些特定條件,譬如模型學(xué)習(xí)前已經(jīng)吸收了一定類別的大量資料后,再加之新類別的極少量數(shù)據(jù),最終實(shí)現(xiàn)小樣本模型的形成。因此,小樣本學(xué)習(xí)的關(guān)鍵是在算法中納入合適的先驗(yàn)知識(shí)。

具體到醫(yī)療領(lǐng)域之中,很多醫(yī)學(xué)圖像模態(tài)中廣泛存在器官的位置先驗(yàn)信息,例如CT圖像中肝臟主要位于腹腔的右上位置,而脾則在腹腔的左上部分,這些位置先驗(yàn)信息對(duì)于AI識(shí)別特定類別的器官有非常大的幫助。

體素科技在頂級(jí)會(huì)議ISBI2021上發(fā)表的論文《Location Sensitive Local Prototype Network For Few-shot Medical Image Segmentation》便提出了一種基于位置先驗(yàn)信息的局部原型網(wǎng)絡(luò)(location sensitive local prototype network,見圖1)。該論文以肝和脾影像數(shù)據(jù)構(gòu)建訓(xùn)練集,再將其收獲先驗(yàn)信息的算法加入少量腎部影像分割任務(wù),實(shí)現(xiàn)基于小樣本學(xué)習(xí)的AI模型訓(xùn)練。

image.png


圖一:基于位置先驗(yàn)信息的局部原型網(wǎng)絡(luò)框架

在公開的CT器官分割數(shù)據(jù)集Visceral進(jìn)行試驗(yàn)后,其結(jié)果表明,論文提出的新框架比目前的最好方法在Dice Score指標(biāo)上提高了10%,顯著推進(jìn)了小樣本下的器官分割這一領(lǐng)域的技術(shù)進(jìn)展。

利用極端變化一致性來(lái)提高數(shù)據(jù)不足情況下醫(yī)學(xué)圖像分割的魯棒性

除了數(shù)據(jù)獲取困難這一問(wèn)題外,研究人員在訓(xùn)練時(shí)還會(huì)遭遇數(shù)據(jù)來(lái)源不統(tǒng)一的問(wèn)題。

由于醫(yī)學(xué)圖像的拍攝設(shè)備和拍攝環(huán)境和方式多樣,各個(gè)醫(yī)院和體檢中心之間的人群分布差異明顯,因此很難收集和標(biāo)注足量的訓(xùn)練數(shù)據(jù)充分涵蓋不同來(lái)源的圖像特征。如果訓(xùn)練數(shù)據(jù)和實(shí)際測(cè)試數(shù)據(jù)存在明顯的的分布差異(domain shift),生成的模型往往性能不佳。

體素科技在頂級(jí)會(huì)議MICCAI2020上發(fā)表的《Extreme Consistency: Overcoming Annotation Scarcity and Domain Shifts》為解決這一問(wèn)題提供了方向。具體而言,該論文提出了極端一致性(extreme consistency)的概念,核心思想是在訓(xùn)練數(shù)據(jù)中加入極端的圖像變換(比如大量強(qiáng)烈的亮度,對(duì)比度, 旋轉(zhuǎn), 尺寸變換),以增加訓(xùn)練數(shù)據(jù)的多樣性,并假設(shè)這些極端的圖像變換并不影響圖像的語(yǔ)義含義。舉例來(lái)說(shuō),眼底圖像中的血管在經(jīng)過(guò)極端的旋轉(zhuǎn)和亮度對(duì)比度等變換后,依然能夠?qū)?yīng)血管本身。

為了實(shí)現(xiàn)這一構(gòu)想,論文設(shè)計(jì)了一種半監(jiān)督算法(semi-supervised learning, 見圖2), 迫使模型遵守極端變化前和變化后的語(yǔ)義一致性這一約束,進(jìn)而提高模型對(duì)于分布差異的魯棒性。該論文在皮膚病變分割數(shù)據(jù)集(ISIC)和兩個(gè)眼底血管分割數(shù)據(jù)集 (HRF和STARE)上進(jìn)行了測(cè)試,展現(xiàn)了在數(shù)據(jù)不足和分布差異較大情況下,算法的魯棒性和準(zhǔn)確性的優(yōu)勢(shì)。

image.png


圖2:左邊是基于極端一致性的半監(jiān)督學(xué)習(xí)方法的偽代碼,右邊是網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

少標(biāo)注和弱標(biāo)注情況下醫(yī)學(xué)圖像分割如何解決?

除了數(shù)據(jù)的來(lái)源問(wèn)題,對(duì)已有數(shù)據(jù)進(jìn)行分割標(biāo)注同樣需要研究人員付出大量成本。在中國(guó),影像數(shù)據(jù)標(biāo)注非常昂貴,尤其是像素級(jí)別的醫(yī)學(xué)圖像分割標(biāo)注,人力支出更為巨大。因此,近期大量的研究工作試圖解決不完善醫(yī)學(xué)圖像分割數(shù)據(jù)集中的兩類典型問(wèn)題:

· 標(biāo)注稀缺。數(shù)據(jù)集中只有極稀少的圖像數(shù)據(jù)有分割標(biāo)注。

· 弱標(biāo)簽。數(shù)據(jù)集中的圖像數(shù)據(jù)只有部分標(biāo)注、或者標(biāo)注帶有噪聲、或者只有圖像級(jí)的類別標(biāo)簽沒有逐像素的分割標(biāo)注。

對(duì)于這兩問(wèn)題,體素科技發(fā)表在頂級(jí)期刊《Medical Image Analysis》中的文章《Embracing Imperfect Datasets: A Review of Deep Learning Solutions for Medical Image Segmentation》系統(tǒng)性地對(duì)現(xiàn)有方案進(jìn)行了詳細(xì)的回顧和分類總結(jié)(見圖3所示)。根據(jù)醫(yī)學(xué)圖像分割數(shù)據(jù)集的不同缺陷,論文對(duì)這些方案的選擇給出了實(shí)際的指導(dǎo)建議。

image.png


圖3:醫(yī)學(xué)分割圖像數(shù)據(jù)集數(shù)據(jù)集缺陷問(wèn)題及相應(yīng)訓(xùn)練策略總結(jié)

近年來(lái),體素科技和交大科研團(tuán)隊(duì)合作參與了多個(gè)醫(yī)學(xué)AI挑戰(zhàn)賽并獲得佳績(jī)。體素科技團(tuán)隊(duì)在ISBI2020學(xué)術(shù)會(huì)議上舉辦的ADAM比賽黃斑定位任務(wù)上獲得了第三名的成績(jī)。ADAM比賽是由百度靈醫(yī)智慧和中山大學(xué)中山眼科中心聯(lián)合舉辦,包含了黃斑定位等四個(gè)任務(wù),吸引了來(lái)自20多個(gè)國(guó)家的近400支參賽隊(duì)伍。

image.png


黃斑區(qū)域是眼底的一個(gè)特別重要的功能區(qū)域,精確定位黃斑對(duì)于進(jìn)一步的輔助診斷很有幫助。該任務(wù)一大難點(diǎn)是,很多嚴(yán)重影響視力的眼底疾病都發(fā)生在黃斑區(qū)域,使其外觀和正常黃斑相比有較大變化,導(dǎo)致現(xiàn)有常見深度學(xué)習(xí)模型對(duì)于病變黃斑的定位不夠魯棒。體素科技團(tuán)隊(duì)創(chuàng)新性的設(shè)計(jì)了一個(gè)雙流網(wǎng)絡(luò)融合眼底圖像和對(duì)應(yīng)的血管分割信息,可以借助于眼底血管形狀和走向信息來(lái)估計(jì)黃斑的位置,大大提高了嚴(yán)重病變的黃斑區(qū)域定位效果。該模型在ADAM比賽決賽中平均黃斑定位誤差為25個(gè)像素(排名第3), 體現(xiàn)了一定的臨床可用性。

除此之外,體素科技團(tuán)隊(duì)在COVID-19 Lung CT Lesion Segmentation Challenge - 2020(“肺部CT新冠肺炎分割2020”國(guó)際挑戰(zhàn)賽)中獲佳績(jī),在肺炎分割關(guān)鍵指標(biāo)Dice Score上排名第2,所有指標(biāo)加權(quán)排名第3。

image.png


COVID-19-20國(guó)際挑戰(zhàn)賽是由Children‘s National Hospital聯(lián)合英偉達(dá)(NVIDIA)、美國(guó)國(guó)立衛(wèi)生研究院(NIH)和國(guó)際醫(yī)學(xué)圖像計(jì)算和計(jì)算機(jī)輔助干預(yù)協(xié)會(huì)(MICCAI)舉辦的國(guó)際競(jìng)賽,設(shè)置了分割和量化由SARS-CoV-2感染引起的肺部病變(主要是毛玻璃影)的挑戰(zhàn)任務(wù),旨在探究基于深度學(xué)習(xí)的肺炎病灶分割模型用于COVID-19 CT 影像定量分析的可行性,為COVID-19 鑒別診斷提供幫助。COVID-19-20國(guó)際挑戰(zhàn)賽吸引了來(lái)自29個(gè)國(guó)家的200多支參賽隊(duì)伍。

此次獲獎(jiǎng)的新冠肺炎分割模型采用目前在各類醫(yī)學(xué)圖像分割任務(wù)中均表現(xiàn)突出的深度學(xué)習(xí)模型nn-Unet 框架進(jìn)行肺炎病灶分割,對(duì)圖像分割中的各個(gè)環(huán)節(jié),包括圖像預(yù)處理,網(wǎng)絡(luò)架構(gòu)和學(xué)習(xí)過(guò)程等都進(jìn)行了自動(dòng)化的優(yōu)化和參數(shù)估計(jì)。同時(shí)為了解決噪聲標(biāo)注帶來(lái)的模型優(yōu)化方向偏離以及在醫(yī)學(xué)影像中普遍存在的前景背景類別不平衡的問(wèn)題,體素科技團(tuán)隊(duì)選取了Noise-Robust Dice Loss作為模型的優(yōu)化損失。最終該模型在同源測(cè)試集上Dice Score為0.6581(排名第2)。

作者:動(dòng)脈網(wǎng)

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

醫(yī)療科技 獵頭職位 更多
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)