DeepMind劃時代杰作!AlphaFold蛋白結(jié)構(gòu)預(yù)測擊敗人類奪冠
11月2日,在墨西哥坎昆舉行的第13屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(Critical Assessment of protein Structure Prediction,CASP)上。組織者宣布,DeepMind 的最新人工智能程序 ——AlphaFold 在一項極其困難的任務(wù)中擊敗了所有對手,成功預(yù)測生命基本分子——蛋白質(zhì)的三維結(jié)構(gòu)。
作為一項基礎(chǔ)技術(shù),DeepMind在自己博客中,將AlphaFold 稱為在展示人工智能研究推動和加速新科學(xué)發(fā)現(xiàn)方面的“第一個重要里程碑”。
通過跨學(xué)科方法,DeepMind匯集了來自結(jié)構(gòu)生物學(xué),物理學(xué)和機器學(xué)習(xí)領(lǐng)域的專家,以應(yīng)用尖端技術(shù),僅根據(jù)其基因序列預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)。
在獲悉這一劃時代的技術(shù)性突破后,動脈網(wǎng)試圖通過以下邏輯,還原DeepMind再次戰(zhàn)勝人類模型的“里程碑”事件,以及DeepMind在醫(yī)療領(lǐng)域所做的探索。
1. 蛋白質(zhì)結(jié)構(gòu)預(yù)測的劃時代意義
2. DeepMind憑借什么奪冠
3. AI算法將漫長費力的預(yù)測過程縮短至幾小時
4. DeepMind的AI落地將給醫(yī)學(xué)帶來多少顛覆
曾獲得諾貝爾獎的科學(xué)難題
蛋白質(zhì)是維持生命所必需的大而復(fù)雜的分子。幾乎我們身體所執(zhí)行的所有功能 : 收縮肌肉、感知光線或?qū)⑹澄镛D(zhuǎn)化為能量, 都可以追溯到一種或多種蛋白質(zhì)以及它們?nèi)绾我苿雍妥兓_@些蛋白質(zhì)的配方, 稱為基因。
任何給定的蛋白質(zhì)可以做什么取決于其獨特的3D結(jié)構(gòu)。例如,構(gòu)成我們免疫系統(tǒng)的抗體蛋白質(zhì)是“Y形”的,并且類似于獨特的鉤子。通過鎖定病毒和細(xì)菌,抗體蛋白能夠檢測和標(biāo)記引起疾病的微生物以進(jìn)行消滅。
類似地,膠原蛋白的形狀像繩索,其在軟骨,韌帶,骨骼和皮膚之間傳遞張力。其他類型的蛋白質(zhì)包括CRISPR和Cas9,它們像剪刀一樣起作用,切割和粘貼DNA;抗凍蛋白,其3D結(jié)構(gòu)允許它們結(jié)合冰晶并防止生物凍結(jié);核糖體就像一個程序化的裝配線,幫助自己構(gòu)建蛋白質(zhì)。
但是純粹從其基因序列中找出蛋白質(zhì)的三維形狀是一項復(fù)雜的任務(wù),科學(xué)家們已經(jīng)發(fā)現(xiàn)了幾十年的挑戰(zhàn)。挑戰(zhàn)在于DNA僅包含有關(guān)蛋白質(zhì)構(gòu)建塊序列的信息,稱為氨基酸殘基,形成長鏈。預(yù)測這些鏈如何折疊成蛋白質(zhì)的復(fù)雜3D結(jié)構(gòu)就是所謂的“蛋白質(zhì)折疊問題”。
預(yù)測蛋白質(zhì)3D結(jié)構(gòu)模型示意(圖片來源:DeepMind官網(wǎng))
“蛋白質(zhì)折疊”是一種令人難以置信的分子折疊形式,科學(xué)界以外很少有人討論,但卻是一個非常重要的問題。生物由蛋白質(zhì)構(gòu)成,生物體功能由蛋白質(zhì)形狀決定。理解蛋白質(zhì)的折疊方式可以幫助研究人員走進(jìn)科學(xué)和醫(yī)學(xué)研究的新紀(jì)元。
因此,蛋白質(zhì)折疊(Protein Folding)問題被列為“21世紀(jì)的生物物理學(xué)”的重要課題,它是分子生物學(xué)中心法則尚未解決的一個重大生物學(xué)問題。蛋白質(zhì)可在短時間中從一級結(jié)構(gòu)折疊至立體結(jié)構(gòu),研究者卻無法在短時間中從氨基酸序列計算出蛋白質(zhì)結(jié)構(gòu),甚至無法得到準(zhǔn)確的三維結(jié)構(gòu)。
美國NIH的Christian Anfinsen博士因為發(fā)現(xiàn)蛋白質(zhì)不需要其他幫助就可以自發(fā)地完成蛋白質(zhì)折疊的過程,于1972年獲得了諾貝爾化學(xué)獎。
DeepMind的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis說:“對DeepMind來說,這是一個非常關(guān)鍵的時刻,這是一個‘燈塔’項目,是我們在人員和資源方面的第一項重大投資,同時也是正在成為一個基本的、非常重要的、現(xiàn)實世界的科學(xué)問題!
早在2017年,美國科羅拉多大學(xué)“JILA物理研究中心”的生物物理學(xué)家們通過更細(xì)致地測量了蛋白質(zhì)折疊后發(fā)現(xiàn),其折疊過程比科學(xué)家們曾經(jīng)的預(yù)測更為復(fù)雜。這意味著,有關(guān)蛋白質(zhì),我們的了解程度尚在皮毛。
蛋白質(zhì)分子的基本組成是氨基酸鏈。通過一系列中間過程,像折紙一樣,氨基酸鏈折疊成三維結(jié)構(gòu),之后才具有功能。準(zhǔn)確地描述這個折疊過程,需要已知所有中間狀態(tài)的形態(tài)。最新研究就揭示這個過程中許多未知的狀態(tài),這一研究成果公布在3月3日的Science雜志上。
AI如何成功預(yù)測蛋白質(zhì)3D結(jié)構(gòu)?
此次讓DeepMind再一次嶄露頭角的CASP, 被認(rèn)為是蛋白質(zhì)結(jié)構(gòu)領(lǐng)域“奧林匹克競賽”。在這次比賽上,DeepMind團隊(參賽名為“A7D”)成功在43個參賽蛋白中拿到25個單項最佳模型,累計總分120.35排名第一。
而根據(jù)第13屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽官方披露的成績,總分第2名的團隊是一支名為“Zhang”的團隊,總分為107.03。
據(jù)DeepMind介紹,該項成果的設(shè)計源于使用神經(jīng)網(wǎng)絡(luò)預(yù)測物理特性以及構(gòu)建蛋白質(zhì)結(jié)構(gòu)預(yù)測的新方法。
這兩種方法都依賴于深度神經(jīng)網(wǎng)絡(luò),這些神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以從其基因序列中預(yù)測蛋白質(zhì)的特性。DeepMind的網(wǎng)絡(luò)預(yù)測的屬性是:(a)氨基酸對之間的距離和(b)連接這些氨基酸的化學(xué)鍵之間的角度。第一個發(fā)展是對常用技術(shù)的進(jìn)步,這些技術(shù)估計氨基酸對是否彼此接近。
鑒于要研究的新蛋白質(zhì),AlphaFold使用神經(jīng)網(wǎng)絡(luò)預(yù)測氨基酸對之間的距離,以及連接它們的化學(xué)鍵之間的角度。在第二步中,AlphaFold調(diào)整草圖結(jié)構(gòu)以找到最節(jié)能的布置。
DeepMind訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)來預(yù)測蛋白質(zhì)中每對殘基之間的距離的單獨分布。然后將這些概率組合成評估所提出的蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確度的分?jǐn)?shù)。此外,還訓(xùn)練了一個單獨的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用匯總的所有距離來估計建議的結(jié)構(gòu)與正確答案的接近程度。
使用神經(jīng)網(wǎng)絡(luò)預(yù)測物理特性(圖片來源:DeepMind官網(wǎng))
第二種方法通過梯度下降優(yōu)化得分- 通常用于機器學(xué)習(xí)的數(shù)學(xué)技術(shù),用于進(jìn)行小的、漸進(jìn)的改進(jìn)這導(dǎo)致高度精確的結(jié)構(gòu)。該技術(shù)應(yīng)用于整個蛋白質(zhì)鏈而不是在組裝之前必須單獨折疊的碎片,降低了預(yù)測過程的復(fù)雜性。
構(gòu)建蛋白質(zhì)結(jié)構(gòu)預(yù)測的新方法(圖片來源:DeepMind官網(wǎng))
使用這些評分函數(shù),DeepMind能夠搜索蛋白質(zhì)圖像,找到與我們的預(yù)測相匹配的結(jié)構(gòu)。第一種方法建立在結(jié)構(gòu)生物學(xué)中常用的技術(shù)上,并且用新的蛋白質(zhì)片段反復(fù)替換蛋白質(zhì)結(jié)構(gòu)的片段。
為了構(gòu)建AlphaFold,DeepMind在數(shù)千種已知蛋白質(zhì)上訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),直到它可以預(yù)測單獨使用氨基酸的3D結(jié)構(gòu)。
一旦AlphaFold被提供了一種新蛋白質(zhì),它就會利用其神經(jīng)網(wǎng)絡(luò)來預(yù)測其組成氨基酸對之間的距離,以及它們連接化學(xué)鍵之間的角度,形成一個牽伸結(jié)構(gòu)。然后,AlphaFold調(diào)整此結(jié)構(gòu)以找到最節(jié)能的結(jié)構(gòu)。
雖然AlphaFold花了兩周的時間來預(yù)測第一個蛋白質(zhì)結(jié)構(gòu),但該程序現(xiàn)在可以在幾個小時內(nèi)完成。
AI將漫長費力的預(yù)測過程縮短至幾小時
根據(jù)英國《衛(wèi)報》報道中的數(shù)據(jù)顯示,截至2010年,只有0.6%的已知蛋白序列被解析出了相應(yīng)的結(jié)構(gòu)。
在過去的五十年中,科學(xué)家們已經(jīng)能夠使用冷凍電子顯微鏡,核磁共振或X射線晶體學(xué)等實驗技術(shù)來確定實驗室中蛋白質(zhì)的形狀,但每種方法都依賴于大量的試驗和錯誤,這可能需要每年高達(dá)數(shù)萬美元的成本。這就是為什么生物學(xué)家正在轉(zhuǎn)向人工智能方法,以此作為這一漫長而費力的過程的替代方案。
對于蛋白質(zhì)折疊的復(fù)雜性,曾有外媒載文稱,用當(dāng)今最快的計算機模擬計算蛋白質(zhì)折疊,要花100年。不過是在當(dāng)時最快的計算機每秒幾萬億甚至十幾萬億次浮點運算的速度下,雖然目前性能最強悍的超級計算機每秒運算速度峰值可達(dá)20億億次,對于蛋白質(zhì)折疊的模擬計算仍有可能耗費科學(xué)家數(shù)年乃至數(shù)十年的時間。
每個蛋白質(zhì)都是一個氨基酸鏈,而后者的類型就有 20 種。蛋白質(zhì)可以在氨基酸之間扭曲、折疊,因此一種含有數(shù)百個氨基酸的蛋白質(zhì)有可能呈現(xiàn)出數(shù)量驚人(10 的 300 次方)的結(jié)構(gòu)類型。通常,已經(jīng)發(fā)現(xiàn)功能失常的蛋白質(zhì)會導(dǎo)致疾病,并且歷史上,用藥物瞄準(zhǔn)其結(jié)構(gòu)、激活或停用它們會產(chǎn)生治愈效果。由于計算機的算法和算力局限,直到現(xiàn)在,了解蛋白質(zhì)的結(jié)構(gòu)并不容易。
根據(jù)中國科學(xué)院生物物理研究所生物大分子國家重點實驗室研究員,中國科學(xué)院院士王志珍的觀點,蛋白質(zhì)的折疊和構(gòu)象發(fā)生錯誤將會造成一些疾病,如阿爾茨海默氏癥,帕金森氏癥,亨廷頓氏癥和囊性纖維化等。隨著蛋白質(zhì)折疊研究的深入,人們會發(fā)現(xiàn)更多疾病的真正病因和更加針對性的治療方法,從而設(shè)計更有效的要素。
如果科學(xué)家能夠?qū)W會從化學(xué)成分中預(yù)測蛋白質(zhì)的形狀,他們可以弄清楚它的作用,它可能會誤導(dǎo)和造成傷害,并設(shè)計新的抗擊疾病或履行其他職責(zé)。簡而言之,了解蛋白質(zhì)如何折疊,研究人員可以開創(chuàng)科學(xué)和醫(yī)學(xué)進(jìn)步的新時代。
以老年癡呆癥(學(xué)名為阿爾茨海默氏癥)為例,它在人體的潛伏期長達(dá)十幾年之久,且病因復(fù)雜,以目前的醫(yī)學(xué)技術(shù),臨床上甚至很難在發(fā)病前幾年檢測出這一疾病。
幸運的是,由于基因測序成本的快速降低,基因組學(xué)領(lǐng)域的數(shù)據(jù)非常豐富。因此,在過去幾年中,依賴于基因組數(shù)據(jù)的預(yù)測問題的深度學(xué)習(xí)方法變得越來越流行。DeepMind關(guān)于這個問題的工作產(chǎn)生了AlphaFold,并于今年提交給了CASP。
DeepMind在博客中稱:“我們很自豪能成為CASP組織者稱之為‘計算方法預(yù)測蛋白質(zhì)結(jié)構(gòu)能力的前所未有的進(jìn)步’的一部分,在進(jìn)入的團隊中排名第一。我們的團隊專注于從頭開始建模目標(biāo)形狀的難題,而不使用先前解析的蛋白質(zhì)作為模板。我們在預(yù)測蛋白質(zhì)結(jié)構(gòu)的物理性質(zhì)時達(dá)到了高度的準(zhǔn)確性,然后使用兩種不同的方法來構(gòu)建完整蛋白質(zhì)結(jié)構(gòu)的預(yù)測。”
在2013年的某科技課題年度報告中我們發(fā)現(xiàn)這樣的描述:“虛擬藥物篩選及計算生物學(xué)受計算機資源及計算方法與軟件的限制,難以對數(shù)千萬個化合物進(jìn)行比較系統(tǒng)的虛擬篩選,也難以實現(xiàn)一般蛋白質(zhì)結(jié)構(gòu)的從頭折疊模擬,無法滿足創(chuàng)新藥物和計算生物學(xué)研究的需求。因此,迫切需要開發(fā)超大規(guī)模并行的虛擬篩選,蛋白質(zhì)折疊分子動力學(xué)模擬平臺,來滿足生命科學(xué)及創(chuàng)新藥物研究的需求!
從這個方向來看,DeepMind的蛋白質(zhì)結(jié)構(gòu)預(yù)測的應(yīng)用場景之一將是用于藥物創(chuàng)新的化合物篩選。
實際上,早在2016年AlphaGo計劃擊敗李世石之后,DeepMind就迅速將目光投向了蛋白質(zhì)折疊。2017年10月,DeepMind在一次公開采訪中表示,團隊開始對人工智能在藥物開發(fā)中的應(yīng)用感興趣,而新藥開發(fā)的關(guān)鍵一步,就是對靶點蛋白質(zhì)三維結(jié)構(gòu)的精準(zhǔn)測算。
雷丁大學(xué)研究員Liam McGuffin表示:“預(yù)測任何蛋白質(zhì)折疊形狀的能力是一個大問題。它對解決許多21世紀(jì)的問題具有重大意義,影響健康、生態(tài)、環(huán)境,并基本上解決任何涉及生命系統(tǒng)的問題!
屢屢突破技術(shù)創(chuàng)新,DeepMind在醫(yī)療領(lǐng)域的探索
在AlphaGo一戰(zhàn)成名后,DeepMind曾經(jīng)嘗試過許多用于數(shù)據(jù)驅(qū)動的工具和技術(shù),特別是支持人工智能的機器學(xué)習(xí)方法,為改善醫(yī)療保健系統(tǒng)和服務(wù)提供了希望。Alphabet的執(zhí)行主席 Eric Schmidt曾表示,以AlphaGo為代表的新的深度學(xué)習(xí)能力可以提高日常生產(chǎn)力,為企業(yè)帶來無數(shù)的機會,特別是在醫(yī)療保健、交通運輸和政府領(lǐng)域。
眼底篩查
2016年3月,DeepMind Health(現(xiàn)已納入Google Health)使用與AlphaGo系統(tǒng)相同的深度學(xué)習(xí)技術(shù)。已經(jīng)與倫敦大學(xué)學(xué)院和Moorfields眼科醫(yī)院的研究人員使用深度學(xué)習(xí)技術(shù)創(chuàng)建軟件,通過3D掃描識別數(shù)十種常見眼病,然后建議患者進(jìn)行治療。
這項工作是三個機構(gòu)之間多年合作的結(jié)果。雖然該軟件尚未準(zhǔn)備好用于臨床,但它可以在幾年內(nèi)部署在醫(yī)院中。
根據(jù)發(fā)表在《Nature Science》上的論文中描述,該軟件在基于深度學(xué)習(xí)的既定原則,該原理使用算法來識別數(shù)據(jù)中的常見模式。在這種情況下,數(shù)據(jù)是使用稱為光學(xué)相干斷層掃描或OCT的技術(shù)對患者眼睛進(jìn)行3D掃描,創(chuàng)建這些掃描大約需要10分鐘,并且需要從眼睛內(nèi)部表面反射近紅外光,這樣做可以創(chuàng)建組織的3D圖像,這是評估眼睛健康的常用方法。
該軟件接受了來自約7,500名患者的近15,000次OCT掃描的培訓(xùn)。這些人都在Moorfields眼科醫(yī)院接受治療。在一項測試中,AI的判斷與八位醫(yī)生組成的診斷進(jìn)行了比較,該軟件在94%的時間內(nèi)提出了同樣的建議。
乳腺癌篩查
2018年4月,Deepmind 加入了倫敦帝國理工學(xué)院英國帝國癌癥研究中心領(lǐng)導(dǎo)的一項開創(chuàng)性的新研究合作伙伴關(guān)系,探討人工智能技術(shù)是否可以幫助臨床醫(yī)生更快更有效地診斷乳腺癌乳腺癌。
研究將分析2007年至2018年期間在醫(yī)院采集的大約30,000名婦女乳房X線照片。這些將通過AI技術(shù)與已經(jīng)提供的歷史去除乳房X線照片一起進(jìn)行分析。通過英國OPTIMAM乳腺X線攝影數(shù)據(jù)庫,研究該技術(shù)是否能夠比現(xiàn)有的篩查技術(shù)更有效地發(fā)現(xiàn)這些X射線上癌組織的跡象。在項目過程中,Jikei大學(xué)醫(yī)院也將分享來自大約30,000名女性的乳房超聲檢查和3,500次乳房MRI檢查。
這些合作為通過提供DeepMind可用于培訓(xùn)醫(yī)療保健工作算法的數(shù)據(jù)在NHS中更多地使用AI奠定了基礎(chǔ)。
協(xié)助醫(yī)生制定放療計劃
2018年9月,Deepmind 倫敦大學(xué)醫(yī)院NHS基金會信托基金放射治療部門正在開發(fā)一種人工智能(AI)系統(tǒng),該系統(tǒng)能夠分析頭頸癌的醫(yī)學(xué)掃描圖像并作為專家臨床醫(yī)生以類似的標(biāo)準(zhǔn)將其分類。在計劃放射治療時,器官分割過程是一個必不可少但耗時的步驟。Deepmind正在開發(fā)一種新的性能指標(biāo),用于評估認(rèn)為更能代表臨床過程的模型性能,以及一個測試集,幫助醫(yī)生進(jìn)行器官分割與危及器官勾畫。
預(yù)測急性腎損傷惡化風(fēng)險
2018年2月,Deepmind與美國退伍軍人事務(wù)部(VA)建立醫(yī)學(xué)研究合作伙伴關(guān)系,該部門是世界領(lǐng)先的醫(yī)療保健組織之一,負(fù)責(zé)為美國各地的退伍軍人及其家人提供高質(zhì)量的醫(yī)療服務(wù)。
該項目正在與世界知名的VA臨床醫(yī)生和研究人員一起,分析來自大約700,000個歷史脫敏醫(yī)療記錄,以確定機器學(xué)習(xí)是否能夠準(zhǔn)確地識別患者惡化的風(fēng)險因素并正確預(yù)測其發(fā)病,主要專注于急性腎損傷(AKI)。
從DeepMind的上述研究可以發(fā)現(xiàn),其在人工智能技術(shù)在諸多領(lǐng)域的探索仍處于試驗階段,并未進(jìn)入臨床階段。
有媒體觀點認(rèn)為,實際上,AI在生物學(xué)的整合并非個例。近年來以google為首的人工智能團隊在生物醫(yī)藥領(lǐng)域全面開花,已經(jīng)在癌癥病理圖片識別,基因組突變檢測,疾病風(fēng)險評估等諸多領(lǐng)域取得了等于與人類水平,甚至超過人類水平的耀眼成績。但這些表面看上去很成功的模型也都不可避免地受到普適性、可用性、可解釋性的障礙。
從算法上來看,DeepMind對于蛋白質(zhì)折疊基礎(chǔ)研究的技術(shù)突破具有劃時代的意義。盡管Hassabis表示,DeepMind并沒有完全解決蛋白質(zhì)折疊問題,預(yù)測只是第一步。“蛋白質(zhì)折疊是一個極具挑戰(zhàn)的問題,但我們有一個很好的系統(tǒng),以及一些尚未實施的想法!
一個事實是,雖然AlphaFold的成就確實值得稱贊,但只有在研究論文中詳細(xì)介紹并進(jìn)行同行評審時,才能理解該方法的獨創(chuàng)性,并成為一項研究成果。
話雖如此,AlphaFold在該事件中的全面成功是一個明顯的跡象,科學(xué)界可能很快就能夠借助技術(shù)有效地預(yù)測蛋白質(zhì)的結(jié)構(gòu)。
隨著其視野從游戲轉(zhuǎn)向現(xiàn)實世界的問題,看看DeepMind下一步把目光投向哪些科學(xué)問題也將是有趣的。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
11月19日立即報名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計,易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟產(chǎn)業(yè)大會暨展覽會
-
精彩回顧立即查看>> 全數(shù)會2024中國人形機器人技術(shù)創(chuàng)新發(fā)展大會
-
精彩回顧立即查看>> OFweek 2024中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會
-
9 BD新浪潮
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市