□趙屹
大數(shù)據(jù),從一般定義上來講,是指難以被傳統(tǒng)數(shù)據(jù)管理系統(tǒng)有效存儲、管理、分析的復(fù)雜數(shù)據(jù)集。
雖然我們講了很多年的大數(shù)據(jù),可是什么樣的量級才能叫作“大數(shù)據(jù)”,還沒有定論。大數(shù)據(jù)產(chǎn)生的方式不一樣,數(shù)據(jù)的結(jié)構(gòu)也不一樣。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)一般有四個V的特征。第一是volume,數(shù)據(jù)量大;第二是variety,數(shù)據(jù)類型多;第三是velocity,產(chǎn)生的速度快;最后一個是value,數(shù)據(jù)中包含著重要價值。這是大數(shù)據(jù)最重要的特征。但同時,它的價值密度低,數(shù)據(jù)之間的關(guān)系太復(fù)雜,用少量數(shù)據(jù)不太可能找到正確規(guī)律,因此,才需要龐大的數(shù)據(jù)作為基礎(chǔ),進(jìn)行傳輸、存儲、分析、可視化等工作。
要強(qiáng)調(diào)的是,作為研究使用的大數(shù)據(jù),必須嚴(yán)格控制選入標(biāo)準(zhǔn)和質(zhì)量。否則一旦給人工智能模型garbage in(提供“垃圾”),就一定會garbage out(結(jié)果錯誤)。
去年,中科院多位院士進(jìn)行了一系列調(diào)研總結(jié),發(fā)現(xiàn)我國擁有非常龐大的醫(yī)療健康大數(shù)據(jù),這對進(jìn)行生命健康領(lǐng)域原創(chuàng)性的研究,及對發(fā)展生物醫(yī)療產(chǎn)業(yè)來說,都是非常核心的競爭力。但當(dāng)前的現(xiàn)狀卻不容樂觀:數(shù)據(jù)碎片化嚴(yán)重,缺乏大數(shù)據(jù)的質(zhì)量規(guī)范和標(biāo)準(zhǔn),缺乏共享機(jī)制,沒有建立大數(shù)據(jù)的綜合管理體系。這一現(xiàn)狀最直接的結(jié)果之一是患者們在不同醫(yī)院就醫(yī),醫(yī)院之間很難有信息共享的標(biāo)準(zhǔn)和體系。我們非常期望不同的學(xué)科及部門重視當(dāng)前存在的問題,圍繞醫(yī)療健康大數(shù)據(jù)進(jìn)行深入研究,共同促進(jìn)科技和產(chǎn)業(yè)的發(fā)展。
為什么強(qiáng)調(diào)大數(shù)據(jù)的重要性?舉一個例子。2019年,有一篇刊發(fā)在Nature(《自然》)雜志的文章,研究的是精神分裂癥與基因遺傳位點的相關(guān)性。研究者發(fā)現(xiàn),當(dāng)入組患者數(shù)量在6900名的時候,沒有在任何基因的位點上發(fā)現(xiàn)跟精神分裂癥的相關(guān)性;當(dāng)樣本人群擴(kuò)大到23000人,研究發(fā)現(xiàn)了7個位點;而當(dāng)入組人數(shù)擴(kuò)大到6萬多人的時候,可以找到22個位點;入組15萬人時,可以找到108個。從這個例子可以看出,數(shù)據(jù)規(guī)模和最終得到的科學(xué)結(jié)論是正相關(guān)的。因此,大數(shù)據(jù)是開展深度學(xué)習(xí)的重要基礎(chǔ)。
目前,我們所開展的醫(yī)療健康大數(shù)據(jù)的研究主要面向三類,分別是電子病歷、臨床影像以及生命組學(xué)數(shù)據(jù)。
第一類,電子病歷,大家都很熟悉。平常我們接觸的電子病歷都是醫(yī)生用自然語言寫的一段描述,但要讓計算機(jī)進(jìn)行學(xué)習(xí)和分析,對某種疾病進(jìn)行診斷,還要經(jīng)過數(shù)據(jù)結(jié)構(gòu)化處理、數(shù)據(jù)治理等過程,把其中的關(guān)鍵詞提出來,讓計算機(jī)讀懂這些信息。比如,哪些是癥狀,哪些是診斷。
2019年,Nature Medicine(《自然醫(yī)學(xué)》)雜志發(fā)表了一篇文章。作者應(yīng)用了臨床100多萬冊兒科門診病歷,通過結(jié)構(gòu)化處理,進(jìn)行深度學(xué)習(xí),實現(xiàn)對兒童呼吸道疾病的診斷。最終,研究呈現(xiàn)出的模型,對兒童上呼吸道疾病和下呼吸道疾病的診斷率,分別能達(dá)到89%和87%。
如果再細(xì)分的話,對傳染性的單核細(xì)胞增多癥能達(dá)到90%的診斷率。
第二類是醫(yī)學(xué)影像數(shù)據(jù)。目前,醫(yī)學(xué)影像數(shù)據(jù)結(jié)合人工智能已給醫(yī)學(xué)發(fā)展帶來了巨大變革。人工智能最早的應(yīng)用就是在圖片的識別上,而在醫(yī)療健康領(lǐng)域,早在2018年的JAMA(《美國醫(yī)學(xué)會雜志》)上,就曾刊發(fā)過一篇用深度卷積神經(jīng)網(wǎng)絡(luò)對糖尿病性的視網(wǎng)膜病變進(jìn)行診斷的研究文章。
該研究使用超過12萬張圖片進(jìn)行了訓(xùn)練學(xué)習(xí)。最終,完成學(xué)習(xí)的人工智能模型,在對該類疾病的診斷上,完全可以達(dá)到專業(yè)眼科醫(yī)生的水準(zhǔn)。當(dāng)然,在計算機(jī)進(jìn)行學(xué)習(xí)前,所有圖片必須通過專家3~7次的評估和標(biāo)定。學(xué)習(xí)結(jié)束后,還要通過測試來檢測它的準(zhǔn)確度。
而從時間和效率上來看,假如一位資深的病理學(xué)家看100張病理切片要花30個小時,同樣一批切片,人工智能模型可能只需要一個多小時,而且還可以確保一定的準(zhǔn)確率。
此外,人工智能在對語音的識別和理解上也能做得很好。未來,人工智能不僅可以理解我們?yōu)樗斎氲男盘枴⑹謩輨幼鳎€可以把輸入的多模態(tài)信號做一些融合,進(jìn)行認(rèn)知,甚至進(jìn)行情感理解、語義理解最終與人進(jìn)行多模態(tài)的交互。這意味著,未來從接觸患者開始,就可以通過人工智能的問診來獲取信息,結(jié)構(gòu)化之后再提供給醫(yī)生。患者所做的檢查,也可以通過數(shù)據(jù)的融合進(jìn)行預(yù)診分診,告訴患者應(yīng)該掛哪個科,考慮哪方面的疾病等等。
第三類是生命組學(xué)數(shù)據(jù)。在醫(yī)療健康領(lǐng)域,目前高通量低成本的基因測序,不僅可以了解基因組,還可以對轉(zhuǎn)錄的RNA進(jìn)行測序,甚至檢測DNA不同的修飾,檢測人體微生物組學(xué),進(jìn)行蛋白組的測序。每個分子組學(xué)層面的變化或異常,都會跟一些疾病發(fā)生相關(guān)。
在對這些大量的數(shù)據(jù)進(jìn)行分析后,不但要把不同組學(xué)的數(shù)據(jù)綜合在一起,還要把電子病例信息、影像數(shù)據(jù),以及其他可穿戴設(shè)備數(shù)據(jù)等整合進(jìn)來,應(yīng)用人工智能技術(shù),最終為每一個人的健康狀況給出建議和指導(dǎo)。
現(xiàn)在,我們正處于大數(shù)據(jù)驅(qū)動的新型醫(yī)學(xué)研究模式之下。我們從以往只靠臨床數(shù)據(jù)去研究疾病,進(jìn)入到一個通過人工智能算法,通過計算能力,來對醫(yī)學(xué)和疾病進(jìn)行研究的階段。
雖然人工智能時代已經(jīng)來臨,但它在醫(yī)學(xué)健康領(lǐng)域的應(yīng)用才剛剛起步。大數(shù)據(jù)是智能醫(yī)療的基礎(chǔ),人工智能只是一類工具。智慧醫(yī)學(xué)的核心還是臨床應(yīng)用場景,其發(fā)展的關(guān)鍵仍是交叉學(xué)科的人才培養(yǎng)。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。