讓機器“讀懂”醫(yī)療 天衍實驗室獲CHIP2020評測兩大獎項
日前,第六屆中國健康信息處理大會(CHIP 2020)舉辦的中文醫(yī)學(xué)信息處理評測競賽圓滿結(jié)賽,騰訊天衍實驗室依托其在醫(yī)學(xué)領(lǐng)域的長期技術(shù)積累和創(chuàng)新探索,一舉獲得“中文醫(yī)學(xué)文本命名實體識別”賽道冠軍、“中文醫(yī)學(xué)文本實體關(guān)系抽取”賽道亞軍。
信息抽取(IE)技術(shù)方案突破升級
對于醫(yī)學(xué)領(lǐng)域的自然語言文獻,例如醫(yī)學(xué)教材、醫(yī)學(xué)百科、臨床病例、醫(yī)學(xué)期刊、入院記錄、檢驗報告等,這些文本中蘊含大量醫(yī)學(xué)專業(yè)知識和醫(yī)學(xué)術(shù)語。將實體識別技術(shù)與醫(yī)學(xué)專業(yè)領(lǐng)域結(jié)合,利用機器讀取醫(yī)學(xué)文本,可以顯著提高臨床科研的效率和質(zhì)量,并且可服務(wù)于下游子任務(wù)。但要想讓機器“讀懂”醫(yī)學(xué)數(shù)據(jù),核心在于讓計算機在大量醫(yī)學(xué)文本中準確的提取出關(guān)鍵信息,這就涉及到了命名實體識別、關(guān)系抽取等自然語言處理技術(shù)。
命名實體識別(Named Entity Recognition, NER)和關(guān)系抽。≧elation Extraction, RE)是信息抽取(Information Extraction,IE)的兩大核心任務(wù)。命名實體識別旨在抽取所需實體,以醫(yī)療領(lǐng)域為例,需要從非結(jié)構(gòu)化醫(yī)學(xué)文本中找出醫(yī)學(xué)實體,如疾病、癥狀的過程;實體關(guān)系抽取則需要同時提取出醫(yī)學(xué)實體及實體間的關(guān)系信息,即實體關(guān)系三元組 [頭實體 (subject), 關(guān)系(predicate), 尾實體(object)]。
實體關(guān)系三元組示意
在兩大評測任務(wù)中,騰訊天衍實驗室從數(shù)據(jù)和模型層面做出了針對性設(shè)計。在命名實體識別任務(wù)中,天衍實驗室使用的數(shù)據(jù)集由北京大學(xué)等院校及科研單位智慧醫(yī)療課題組聯(lián)合構(gòu)建;卺t(yī)療領(lǐng)域?qū)I(yè)性、準確性的高標(biāo)準要求,及目前命名實體識別任務(wù)存在的實體頻次稀疏和實體長度偏長問題,天衍實驗室采用指針解碼的特殊方式,對單個實體的頭尾位置進行解碼,經(jīng)過試驗證明,該方法在較長實體中的表現(xiàn)確有明顯提升。同時,天衍實驗室基于自身在醫(yī)療領(lǐng)域的經(jīng)驗,嘗試結(jié)合大量醫(yī)療文本訓(xùn)練領(lǐng)域自適應(yīng)的新預(yù)訓(xùn)練模型,進一步提升了模型表現(xiàn)。最終在評比測試集上,結(jié)合多種不同策略,天衍實驗室以F1值68.35獲得第一名。
實體關(guān)系抽取評測任務(wù)的數(shù)據(jù)來源于中文醫(yī)學(xué)信息抽取數(shù)據(jù)集CMeIE,也是目前最大的中文醫(yī)學(xué)關(guān)系數(shù)據(jù)集。因該數(shù)據(jù)中存在大量實體重疊和關(guān)系重疊的現(xiàn)象,天衍實驗室則采用了層疊指針網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)。首先通過兩個二值分類器提取頭實體的首尾位置,繼而采用Conditional layer normalization的方式融入頭實體信息,再針對每種關(guān)系,分別預(yù)測對應(yīng)的尾實體。此外,為了更好地利用醫(yī)療詞匯的語義信息,天衍實驗室在輸入層融入領(lǐng)域詞向量,有效提升了實體邊界預(yù)測的準確率。最終在測試集上取得單模型第一(F1 61.70),融合模型(F1 63.87)第二的成績。
騰訊天衍實驗室基于自身NLP能力和相關(guān)科研成果,不斷通過一系列信息抽取相關(guān)競賽測試、突破,不僅累積了豐富場景應(yīng)用經(jīng)驗與方法,也將更好的輔助醫(yī)療行業(yè)技術(shù)升級和科研進步。
技術(shù)創(chuàng)新助力AI更“懂醫(yī)”
在醫(yī)療領(lǐng)域,電子病歷、生物醫(yī)療文獻中存在大量的非結(jié)構(gòu)化文本,采用信息抽取技術(shù)對醫(yī)療文本進行結(jié)構(gòu)化,提取其中的疾病,癥狀,部位等實體,并對實體之間的關(guān)系進行判斷,進而利用這些信息構(gòu)建醫(yī)療知識圖譜,不僅有利于人工智能更好地學(xué)到領(lǐng)域內(nèi)的專業(yè)知識,更進一步提升導(dǎo)診、輔診、疾病預(yù)測等下游醫(yī)療任務(wù)的性能。
具體來說,醫(yī)生在疾病診斷的過程中,不僅要知道患者的癥狀,而且要了解患者不同癥狀所對應(yīng)的具體屬性,例如癥狀發(fā)生的時間、部位、變化情況。天衍實驗室AI導(dǎo)診和疾病預(yù)測功能,正是采用了上述信息抽取技術(shù),可模擬醫(yī)生診斷過程,并提供循證路徑和一定的可解釋性。
如在AI導(dǎo)診場景中,當(dāng)用戶輸入主訴,AI導(dǎo)診小程序可以返回推薦科室。用戶主訴中可能包含多個癥狀,不同癥狀的時間、部位、嚴重程度、病因誘因可能對應(yīng)不同的疾病,通過關(guān)系抽取技術(shù),可以捕捉到不同癥狀的具體屬性,從而有助于更精準的疾病預(yù)測和科室推薦。對于下圖中的患者主訴,首先采用ner技術(shù)提取癥狀、檢查等實體,繼而采用關(guān)系抽取技術(shù)對不同癥狀的具體屬性進行判斷,例如癥狀“腹脹不適”,對應(yīng)的部位為“上腹”,時間為“3月余”,變化條件為“進食后明顯”,理解了癥狀的一系列細粒度屬性,才能進一步判斷可能的疾病和對應(yīng)科室。
關(guān)系抽取演示圖
騰訊天衍實驗室致力于長期在自然語言基礎(chǔ)、語言理解、信息抽取、知識圖譜構(gòu)建等進行研究創(chuàng)新,并將成果運用到落地的醫(yī)療自然語言等場景,目前已構(gòu)建醫(yī)療行業(yè)大規(guī)模知識圖譜,支持了數(shù)百家醫(yī)院的輔診、導(dǎo)診、疾病輔助診斷、智能用藥等產(chǎn)品,助力醫(yī)保、醫(yī)院、疾控中心和其他醫(yī)療機構(gòu)的智能化知識挖掘和管理難題,實現(xiàn)知識化轉(zhuǎn)型。
騰訊天衍實驗室專注于醫(yī)療健康領(lǐng)域AI算法研究及落地,旨在依托NLP、知識圖譜、大數(shù)據(jù)、醫(yī)療影像等技術(shù)系統(tǒng),將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應(yīng)用。與此同時,騰訊天衍實驗室還與鐘南山院士以及復(fù)旦腫瘤醫(yī)院等頭部醫(yī)院建立聯(lián)合實驗室,與牛津大學(xué)、佐治亞大學(xué)、天津大學(xué)、微眾銀行AI部門等單位建立長期科研合作關(guān)系,目前已發(fā)表包括NIPS、KDD等多篇頂級學(xué)術(shù)論文,通過聯(lián)合社會各界進行技術(shù)深入研究,騰訊天衍實驗室將進一步加速科研應(yīng)用落地,以服務(wù)于臨床應(yīng)用。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
11月19日立即報名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計,易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟產(chǎn)業(yè)大會暨展覽會
-
精彩回顧立即查看>> 全數(shù)會2024中國人形機器人技術(shù)創(chuàng)新發(fā)展大會
-
精彩回顧立即查看>> OFweek 2024中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會
-
8 BD新浪潮
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市