知圖生物:旨在構(gòu)建300億條合理小分子化合物數(shù)據(jù)庫
“未來的藥物研發(fā)肯定需要AI的參與”,2016年還在廈門大學讀博士的陳星強聽從導師的建議,朝著“AI+醫(yī)療”的方向做了一些早期創(chuàng)業(yè)的嘗試。
陳星強從理論物理學到生物物理的前沿交叉,專注于計算機輔助藥物設計和AI技術研發(fā),求學期間的研究也一直圍繞著蛋白質(zhì)與小分子之間相互以及蛋白質(zhì)和小分子的化學反應過程的計算模擬展開,工作期間主要投入在AI技術的應用和產(chǎn)品落地上。
早在2013年,陳星強便已埋下從事藥物研發(fā)事業(yè)的種子,并默默努力著。他告訴動脈網(wǎng),他一直在等待一個合適的契機切入到醫(yī)藥行業(yè),而這個機會在2016年來了。
“我看到AI的風口,就想要進入醫(yī)療行業(yè)做事情!2016年10月,陳星強開始了第一次“AI+醫(yī)療”領域的創(chuàng)業(yè)嘗試,成立了廈門市廈之醫(yī)生物科技有限公司(簡稱:廈之醫(yī)),從熱門的AI賦能醫(yī)學影像篩查切入醫(yī)療領域,用AI助力醫(yī)生更加精準地診斷患者肺部影像。
2020年3月,憑借著在AI應用落地上積累的豐富經(jīng)驗,陳星強決定回歸自己一直專長且想要從事的領域——計算機輔助藥物設計,并成立了浙江知圖生物醫(yī)藥科技有限公司(簡稱:知圖生物),致力于應用先進的機器學習算法,為新藥發(fā)現(xiàn)提供精準高效的解決方案。
對于接連兩次創(chuàng)業(yè),動脈網(wǎng)專訪了創(chuàng)始人陳星強,從他的口中試著重現(xiàn)知圖生物的核心競爭力以及窺見AI賦能新藥研發(fā)的未來。
構(gòu)建30億虛擬化合物數(shù)據(jù)庫,預計年底完成數(shù)據(jù)清洗重組并擴增十倍
>>>>
問:“您怎樣看待AI在這個行業(yè)的應用情況?”
“首先,我們必須明確AI相對于傳統(tǒng)的計算機軟件區(qū)別和聯(lián)系在哪里。傳統(tǒng)的軟件,更多的是構(gòu)建在圖靈機上的功能聚合體,希望借助CPU的密集計算,幫助我們提高日常工作效率。而AI輸出的是一種能力,并非具體功能。如果你仔細甄別,會發(fā)現(xiàn)軟件的功能實現(xiàn)是確定的,而AI的‘能力’是變化且發(fā)展的;軟件功能的應用是對應到具體的工作流程當中,而能力是解決一類問題的核心特質(zhì),要求更高。AI的能力需要達到人類專家的水準,才能進入生產(chǎn)環(huán)節(jié)進行商業(yè)化設計,這對計算機來說是一種新的要求,不僅僅是實現(xiàn)一些功能的聚合體。
同時,當我們看到AI和傳統(tǒng)軟件的區(qū)別之處,我們也需要看到它們的關聯(lián)之處,任何軟件也好,AI系統(tǒng)也好,脫離不了解決問題的場景,在一個場景中,單獨有功能是不夠的,單獨有能力也是不夠的,我們既要功能也要能力,這就是當前AI從業(yè)者和軟件開發(fā)者面臨的共同問題,如何定義好各自的職能屬性,并且發(fā)揮出整合的優(yōu)勢。
醫(yī)藥行業(yè)的AI輸出的這種能力,必須要達到專家的水平,必須經(jīng)受來自CFDA、FDA等醫(yī)療機構(gòu)從業(yè)者和專家檢驗和認可,這樣才能做到臨床應用級別的AI。在這一切的背后,AI需要構(gòu)建自己對行業(yè)問題的模型,這需要足夠的數(shù)據(jù)支持和對行業(yè)的深度認知。
數(shù)據(jù)始終是AI驅(qū)動的第一步,這個問題無法回避。面對真實世界的零零總總的問題,大量可以參考和標定的數(shù)據(jù)在產(chǎn)生著,也在消逝著。
如果重新提大數(shù)據(jù)的概念,我認為需要做到兩方面:一方面,是我們所能獲取的有相當價值的數(shù)據(jù)都是有成本的,隨著計算機技術和行業(yè)的深入發(fā)展,云計算和大數(shù)據(jù)開發(fā)工具成本這逐漸降低,大數(shù)據(jù)成為企業(yè)重新考慮出路和發(fā)展的一個選項;另一方面,人們對數(shù)據(jù)產(chǎn)生價值這件事的認可和數(shù)據(jù)分析能力邊界的認知也在不斷更新。
在這個角度下看,大數(shù)據(jù)或許才剛開始,因為沒有AI這個工具的升級換代,挖掘大數(shù)據(jù)和應用大數(shù)據(jù)不過是紙上談兵。所以,合理的應用和生產(chǎn)以及存儲大數(shù)據(jù)是每一家致力于數(shù)據(jù)驅(qū)動的公司所必須考慮和實踐的任務,AI行業(yè)的公司尤甚。我們不可能離開行業(yè)去探尋數(shù)據(jù),更不可能離開行業(yè)數(shù)據(jù)去找行業(yè)解決方案,也不可能憑空創(chuàng)造出有價值的工具!
>>>>
問:“您能具體談談知圖生物在醫(yī)藥研發(fā)行業(yè)數(shù)據(jù)方面是如何應用和生產(chǎn)以及存儲的嗎?”
“知圖生物在數(shù)據(jù)這一點上,具有兩個核心戰(zhàn)略支撐點,一個要靠走出去,一個要靠自力更生。
走出去,是說 我們公司的數(shù)據(jù)構(gòu)建過程不能脫離行業(yè)痛點,脫離行業(yè)問題,我們必須找準行業(yè)現(xiàn)存的主要矛盾,通過認識這些矛盾的存在,確立我們需要收集和存儲的數(shù)據(jù);自力更生,一方面是說我們要靠自己,但也不全是這個主觀感情層面上的努力,而是我們需要通過AI技術,來生產(chǎn)和優(yōu)化數(shù)據(jù)。
基于以上兩點的思路,我們清楚地看到,在制藥行業(yè),靶點和先導化合物的關系確認是一件非常值得嘗試和需要深入解決的難題。我們作為AI行業(yè)的從業(yè)者,首先是要優(yōu)化掉舊有的流程,提高解決問題的效率,突出創(chuàng)新和變革。”
>>>>
問:“長遠看來,您公司希望自己能夠怎樣去應用醫(yī)藥行業(yè)的大數(shù)據(jù)?”
“知圖生物希望結(jié)合當下研究產(chǎn)生的各類組學數(shù)據(jù),包含基因組學、表觀遺傳組、轉(zhuǎn)錄組學、蛋白組學、細胞組學等,分別針對相應疾病提供病理機制的研究和潛在靶點的發(fā)現(xiàn),并以靶點為核心的構(gòu)建數(shù)據(jù)采集流程,構(gòu)建相應的先導化合物庫,并應用深度學習算法搜索推薦出合適的候選化合物。
公司長遠目標是將組學數(shù)據(jù)能夠結(jié)合體外實驗數(shù)據(jù)、臨床階段實驗數(shù)據(jù)進行綜合分析和算法應用,并對數(shù)據(jù)進行分類,建立相關靶點的一系列從頭算(ab initio database)數(shù)據(jù)庫,最后將采集到的數(shù)據(jù)集應用于機器學習模型,不斷進行模型訓練和模型優(yōu)化迭代!
>>>>
問:“公司目前的在研核心產(chǎn)品有哪些?”
“目前公司圍繞藥物靶點和先導化合物,構(gòu)建了一款名為MolecularFlow的虛擬篩選平臺。我們利用的小分子化合物開源數(shù)據(jù)約30億條數(shù)據(jù),根據(jù)已有的15萬潛在成藥小分子進行新化合物的生成學習和探索,結(jié)合圖神經(jīng)網(wǎng)絡(GCN)、強化學習(RL)和對抗學習(GAN)去創(chuàng)建新的成藥小分子化合物,預計將在今年年底前完成十倍基礎數(shù)據(jù)的擴容,進一步清洗和整理數(shù)據(jù),將數(shù)據(jù)庫的有效數(shù)據(jù)擴展到300億條,小分子庫擴充到更大的化合物空間。”
我們的這款產(chǎn)品在設計之初就考慮到藥物研發(fā)中的流程與效率問題,相對于現(xiàn)有的一些AI輔助藥物設計的CRO企業(yè),我們更多的是基于算法結(jié)合軟件的系統(tǒng)驅(qū)動。一些進行藥物大規(guī)模篩選的軟件,大多數(shù)藥企只是將其作為一個獨立的工具使用,但是知圖生物改進了這種傳統(tǒng)的工具使用和研發(fā)流程銜接,用一套算法系統(tǒng)將其全部集成、優(yōu)化、承接下來,最終企業(yè)關于任何一個‘藥’的需求,都可以通過我們的這個系統(tǒng)輸出完成。
這就是AI輸出能力和軟件輸出功能非常明顯的一個區(qū)別。面對已有的一些有效靶點,知圖生物會根據(jù)客戶需求去針對性地多次篩查數(shù)據(jù)庫,在‘篩選’和‘召回’的多次循環(huán),逐次降低目標化合物的數(shù)量級,最終獲取更加精準的目標小分子化合物范圍,整個虛擬篩選的流程我們預期在3~5天左右即可完成。
>>>>
問:“在AI賦能新藥研發(fā)的市場里,知圖生物為何選擇此時進場?”
“國家這幾年一直鼓勵和支持創(chuàng)新藥的研發(fā),行業(yè)的需求是明確的,加上最近諸多新的利好政策,我們的市場和機會始終在那里。藥企往往看中的是CRO公司的技術實力,需要CRO公司提供一個明確的解決方案和可信的結(jié)果。所以,知圖生物只有真正將技術的價值做出來給藥企看到,我們才能讓市場認識到AI的價值和能力!
>>>>
問:“知圖生物目前與哪些科研機構(gòu)有建立合作關系,未來會自己做藥嗎?”
“目前知圖生物正在和廈門大學實驗室、藥學院以及深圳先進研究院展開合作,公司也正在積極尋求一些新的合作可能。知圖生物的定位是做一家AI賦能新藥發(fā)現(xiàn)的CRO企業(yè),未來無論從戰(zhàn)略上還是公司發(fā)展上,這一點始終都不會改變。我們首先要做好CRO公司這一角色,去和好的藥企做好的合作,讓市場充分認識我們的前提下,再沉淀下來考慮去獨立做原研藥,這樣的發(fā)展路徑會更加合理穩(wěn)妥。”
>>>>
問:“最后能談談您對公司下一步發(fā)展的一些期待和愿景嗎?”
“知圖生物已經(jīng)有三個方向的雛形產(chǎn)品,涉及先導化合物庫的擴建,虛擬篩選加速,疫苗設計等方向。目前正在進行首個產(chǎn)品MolecularFlow的初步驗證,具體產(chǎn)品細節(jié)我們還未公開。從知圖生物成立到現(xiàn)在,剛好三個月有余,我們完成了首個項目的30%,預期在今年10月完成整個數(shù)據(jù)庫后臺的搭建工作。公司也開始啟動pre-A輪融資,計劃募集資金1000萬人民幣左右,主要用于數(shù)據(jù)庫擴容、驗證以及流程優(yōu)化,人才招募等工作!
作者:王嬋
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
8 BD新浪潮
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市