訓(xùn)練醫(yī)學(xué)模型問(wèn)題的相關(guān)解決方案
在醫(yī)學(xué)數(shù)據(jù)集的訓(xùn)練算法期間面臨的許多問(wèn)題中,以下三個(gè)是最常見(jiàn):類別不均衡多任務(wù)數(shù)據(jù)集大小對(duì)于這些問(wèn)題,本文將分享一些解決的方法。類別不均衡挑戰(zhàn)在現(xiàn)實(shí)世界中,我們看到的健康人遠(yuǎn)遠(yuǎn)比患病的人要多得多,這也反映了在醫(yī)學(xué)數(shù)據(jù)集中,健康和患病類別的樣本數(shù)量是不平均。在醫(yī)療數(shù)據(jù)集和信用卡欺詐數(shù)據(jù)集中,你可能會(huì)看到正樣本的數(shù)量是負(fù)樣本的一百倍。所以模型訓(xùn)練的結(jié)果往往被誤認(rèn)為是表現(xiàn)出色的,然而實(shí)際上卻并非如此。如果使用accuracy_score準(zhǔn)確度這樣的簡(jiǎn)單度量,就會(huì)發(fā)生這種情況。準(zhǔn)確度對(duì)于這類數(shù)據(jù)集來(lái)說(shuō)不是一個(gè)很好的度量標(biāo)準(zhǔn),因?yàn)闃?biāo)簽嚴(yán)重傾斜,所以一個(gè)只輸出正常標(biāo)簽的神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率甚至還能略高于90%。
解決方案:終上所述,我們可以定義更有用的指標(biāo),例如F1度量或"精確度/召回率"。精確度定義為"真正例個(gè)數(shù)/(真正例個(gè)數(shù)+假正例個(gè)數(shù))",在假正例很多的情況下,這是一個(gè)很好的度量;另一方面,召回率定義為"真正例個(gè)數(shù)/(真正例個(gè)數(shù)+假反例個(gè)數(shù))",在假反例本很多的情況下,這是一個(gè)很好的度量。醫(yī)療領(lǐng)域的大多數(shù)模型是這種情況,但是我們也經(jīng)常需要同時(shí)考慮假正例個(gè)數(shù)和假反例個(gè)數(shù),這就是F1度量的功能,它在精確度(Precision)和召回率(Recall)之間取得均衡,由公式2 * ((Precision*Recall) / (Precision+Recall))給出。處理類不均衡的另一種流行技術(shù)是"重采樣",這是從多數(shù)類(樣本過(guò)多的那一類)中刪除樣本(稱為欠采樣)或在少數(shù)類中添加樣本(稱為過(guò)采樣)來(lái)在這兩個(gè)類之間取得均衡的行為。盡管它們可以通過(guò)使用復(fù)雜的重采樣技術(shù)來(lái)解決,但它們具有自己的缺點(diǎn),如信息丟失和過(guò)擬合。多任務(wù)挑戰(zhàn)在現(xiàn)實(shí)世界中,通常僅預(yù)測(cè)健康或患病是不夠的,我們經(jīng)常需要將醫(yī)療數(shù)據(jù)分為多個(gè)類別或標(biāo)簽,例如,僅從心律中檢測(cè)出心律失常并沒(méi)有什么市場(chǎng),對(duì)患者進(jìn)行分析判斷得到哪種心律失常更有價(jià)值,例如病狀可能是房顫,室上性心動(dòng)過(guò)速或任何其他類型。從理論上講,可以為需要分類的每個(gè)標(biāo)簽訓(xùn)練單獨(dú)的神經(jīng)網(wǎng)絡(luò)模型,但是這對(duì)于寫(xiě)代碼來(lái)說(shuō)是非常不切實(shí)際的,如果我們可以將所有這些分類模型組合到一個(gè)返回多個(gè)預(yù)測(cè)的單個(gè)深度神經(jīng)網(wǎng)絡(luò)中,就比較有價(jià)值。
解決方案:我們可以使用一種稱為"多類別分類"或"多標(biāo)簽分類"的方法來(lái)應(yīng)對(duì)這一挑戰(zhàn)。這兩種方法略有不同,在多類別中,數(shù)據(jù)樣本的類別是互斥的,而在多標(biāo)簽中,數(shù)據(jù)樣本可以屬于多個(gè)類別。在醫(yī)學(xué)領(lǐng)域,我們通常使用多標(biāo)簽分類,因?yàn)槿绻颊弑辉\斷為肺不張(肺的膨脹不全),則并不意味著他/她就不會(huì)有心臟肥大。我們將模型最后一層的分?jǐn)?shù)再傳遞給Sigmoid激活函數(shù),這會(huì)把最后一層的每個(gè)分?jǐn)?shù)轉(zhuǎn)換為0到1之間的值,而與其他分?jǐn)?shù)無(wú)關(guān)。對(duì)于多標(biāo)簽分類,我們選擇的損失函數(shù)變?yōu)閎inary_crossentropy,其中由于我們使用了Sigmoid激活函數(shù),因此每個(gè)標(biāo)簽都被視為獨(dú)立的伯努利分布。在需要多類的情況下,可以用損失函數(shù)設(shè)置為categorical_crossentropy的softmax激活函數(shù)來(lái)替換Sigmoid激活函數(shù)。數(shù)據(jù)集大小挑戰(zhàn)另外一個(gè)處理醫(yī)學(xué)數(shù)據(jù)集的挑戰(zhàn)為數(shù)據(jù)集的大小。大型訓(xùn)練數(shù)據(jù)集除了具有良好的體系結(jié)構(gòu)外,還對(duì)模型的性能起著重要的作用,但可用于疾病的患者數(shù)據(jù)數(shù)量往往不夠。低數(shù)據(jù)集大小會(huì)導(dǎo)致高偏差和高方差,這些原因?qū)е履P偷耐茝V和優(yōu)化困難。
解決方案:為了解決模型優(yōu)化的困難,我們可以使用一種稱為"遷移學(xué)習(xí)"的方法,其中我們使用從相關(guān)網(wǎng)絡(luò)較低層中學(xué)習(xí)來(lái)訓(xùn)練較高層,而無(wú)需它們從頭開(kāi)始學(xué)習(xí)。由于先前的訓(xùn)練,較低的圖層可以用作良好的特征提取器,因此我們可以根據(jù)數(shù)據(jù)集對(duì)其進(jìn)行微調(diào),該技術(shù)優(yōu)化速度更快,并減少了訓(xùn)練新模型所需的數(shù)據(jù)量。為了解決模型泛化的困難,我們可以使用一種稱為"數(shù)據(jù)增強(qiáng)"的技術(shù),將數(shù)據(jù)提供給模型之前,可以對(duì)樣本進(jìn)行一些隨機(jī)轉(zhuǎn)換,這樣我們可以使模型對(duì)于大小或亮度等微小變化保持不變。諸如水平或垂直翻轉(zhuǎn)圖像,更改圖像的亮度或?qū)Ρ榷龋瑢D像旋轉(zhuǎn)或縮放到一定程度之類的做法都有助于數(shù)據(jù)擴(kuò)充。此技術(shù)在小型數(shù)據(jù)集中避免過(guò)度擬合非常有用。
☆ END ☆
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
-
李飛飛入選美國(guó)國(guó)家醫(yī)學(xué)院
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 全數(shù)會(huì)2024中國(guó)人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會(huì)
-
精彩回顧立即查看>> OFweek 2024中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
8 BD新浪潮
- 1 南京殺出超級(jí)IPO:年入27億,華東第一
- 2 從巨額回購(gòu) 看石藥集團(tuán)的“三張”價(jià)值底牌
- 3 被華為刷屏的腦機(jī)接口芯片,有多前沿?
- 4 中國(guó)藥企出海的“PlanB”
- 5 星形膠質(zhì)細(xì)胞為阿爾茨海默病治療帶來(lái)可能
- 6 聯(lián)影醫(yī)療:貢獻(xiàn)超億元收入上演控制權(quán)迷局
- 7 慢下來(lái)的邁瑞醫(yī)療
- 8 石藥集團(tuán)的陽(yáng)謀
- 9 聯(lián)影醫(yī)療:原子公司變關(guān)聯(lián)方后或“藕斷絲連”
- 10 生物合成NMN獲突破,產(chǎn)量提升超100倍!
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市