2022年4月1日,休斯頓萊斯大學計算機科學系的Todd J. Treangen等人在Nat Commun雜志發表文章,討論了深度學習在五個生物科學領域的最新進展、局限性和未來前景。
以下是文章主要內容。
摘要
本文討論了深度學習(DL) 在五個廣泛領域的最新進展、局限性和未來前景:蛋白質結構預測、蛋白質功能預測、基因組工程、系統生物學和數據集成、系統發育推斷。討論了每個應用領域并分析了DL方法的主要瓶頸,例如訓練數據、問題范圍以及在新環境中利用現有DL架構的能力。最后總結了DL在整個生物科學領域面臨的特定問題和開放挑戰。
前言
深度學習允許使用由多層非線性計算單元組成的復雜模型來找到具有多層抽象的數據表示 (圖1)。深度學習的效果取決于專門的神經網絡架構的開發,這些架構可以捕獲數據的重要屬性,例如空間局部性 (CNN)、序列性質 (RNN)、上下文依賴 (Transformers) 和數據分布 (AE)。圖1展示了在計算生物學領域中應用最多的六種深度學習架構。
圖1 機器學習場景和常用的DL架構概述
圖的上部分概括了機器學習的三種最常見的范式:數據集包含真實標簽的監督學習、數據集不包含真實標簽的無監督學習、算法代理與真實或模擬環境交互的強化學習。圖的底部概述了最流行的DL架構理念,每個架構都是為了實現特定的目標。
這些DL模型徹底改變了語音識別、視覺對象識別和對象檢測,并且最近在解決計算生物學中的重要問題方面發揮了關鍵作用。深度學習在計算生物學的一些領域 (例如功能生物學) 的應用正在增長,而其他領域 (例如系統發育學) 則處于起步階段。
計算生物學不同領域DL的接受度之間存在巨大差異,一些關鍵問題仍未得到解答:(1) 是什么讓一個領域成為DL方法的首選?(2)DL在計算生物學應用中的潛在局限性是什么?(3) 哪種DL模型最適合計算生物學的特定應用領域?
于是本文評估了DL在計算生物學中對經典ML技術的改進 (圖 2)。對于每個領域,作者都探索了當前方法的局限性和改進機會,并包括實用技巧。圍繞計算生物學中五個廣泛而不同的領域展開討論:蛋白質結構預測、蛋白質功能預測、基因組工程、系統生物學和數據整合以及系統發育推斷 (表1)。在每一領域的影響程度,劃分為范式轉變、主要成功、中等成功、小成功。
表1 深度學習對五個計算生物學領域的影響
圖2 5個領域的數據集,以及計算生物學DL方法中使用的架構
5個領域的每個領域的關鍵數據集和數據庫的大小估計,以及這些數據的預計增長率。最右邊的一列總結了應用于生物科學相應領域的最流行的深度學習架構。
DL帶來成功的范式轉變
蛋白質結構預測
眾所周知,蛋白質的氨基酸序列決定了它的三維結構,而三維結構又直接關系到它的功能??紤]到X射線晶體學 (蛋白質結構測定的金標準實驗方法) 的高成本和技術局限性,以及人類基因組計劃后對生物序列越來越多的訪問,從序列中預測蛋白質的三維結構已成為計算生物學的珠穆朗瑪峰 (這一挑戰被廣泛稱為"蛋白質折疊問題")。最初的努力集中在使用生物物理上精確的能量函數和基于知識的統計推理,但最近隨著對DL的更多關注,取得了更快的進展。
最近DL在這一領域取得成功的關鍵原因之一是多序列比對 (multiple sequence alignment, MSA) 形式的豐富的無監督數據,這使得學習蛋白質的非線性進化信息表示成為可能。AlphaFold和AlphaFold2聯合使用了DL和MSA,這被證明是一個成功的策略,能夠克服缺乏大型蛋白質結構訓練數據集的問題。蛋白質數據庫 (PDB) 是實驗確定的大分子結構的參考數據庫,目前擁有近18萬個條目。對于問題中涉及的復雜的映射來說,這是一個小數量的數據點,而且這些數據還受到實驗方法的技術限制而產生偏離。而另一方面,蛋白質序列數據的可用規模要大得多。MSA允許建模方法從這個更大的數據庫中提取成對的進化相關性,最大限度地提高對現有結構數據的學習。DL在這一領域成功的其他關鍵因素包括模型設計的創新,如針對蛋白質的不變性和對稱性調整的新注意力策略、基于圖形的表示和模型循環策略。
AlphaFold2對結構生物學領域的影響是不可否認的,它成功地展示了如何使用DL進行高精度的蛋白質結構預測。基于DL的方法可能會提高實驗方法的準確性和覆蓋面,然而許多注意事項、限制和開放性問題仍然存在。特別是,雖然AlphaFold2成功地預測了一個蛋白質的靜態結構,但關于蛋白質的生物功能的許多關鍵見解來自其動態構象。此外,多種蛋白質的動態相互作用仍然是該領域的公開挑戰。今后,監測DL在這些后續研究領域的應用將非常重要。
DL的主要成功
蛋白質功能預測
蛋白質功能的預測是蛋白質結構預測之后的一個自然的步驟。蛋白質功能預測涉及將目標蛋白質與本體進行映射,如基因本體 (GO) 術語、生物過程 (BP)、分子功能 (MF) 和細胞成分 (CC)。蛋白質結構可以傳達很多關于這些本體的信息,然而,兩者之間沒有直接的映射關系,而且映射關系往往非常復雜。盡管UniProtKB數據庫中的蛋白質序列有了巨大的增長,但絕大多數的蛋白質的功能注釋仍然是部分或完全未知的。有限的和不平衡的訓練實例、大量的可能功能的輸出空間和GO標簽的層次性是與蛋白質功能注釋有關的一些主要瓶頸。
最近的方法利用了不同來源的特征,包括序列、結構、相互作用網絡、科學文獻、同源性、領域信息,結合了一個或多個DL架構來處理預測任務的不同階段 (如特征表示、特征選擇和分類)。
最成功的DL方法之一,DeepGO結合了CNN來學習序列級嵌入,并將其與從蛋白質-蛋白質相互作用 (PPI) 網絡中獲得的每個蛋白質的知識圖譜嵌入相結合。DeepGO是首批基于DL的模型之一,在三個GO類別的功能注釋任務上,表現比BLAST和以前的方法更好。該工具的改進版DeepGOPlus在CAFA3挑戰賽中與其他工具相比,在三個GO類別中成為表現最好的之一。DeepGOPlus使用不同大小的卷積濾波器和單獨的最大集合來學習嵌入在單次編碼方案中的蛋白質序列的密集特征表示。作者表明,將CNN的輸出與DIAMOND的基于同源性的預測相結合,可以獲得更好的預測精度。
無監督的方法,如DAEs,也通過學習密集的、穩健的和低維的蛋白質表征發揮了作用。
除了預測基因本體的標簽,研究還集中在其他幾個特定任務的功能類別,如識別特定的酶功能和潛在的翻譯后修飾位點。這些研究是開發具有專門功能的新型蛋白質或修改現有蛋白質功效的基本步驟,這在最近DL在酶工程方面的進展中可以看到。展望未來,深度學習在為特定功能而設計的蛋白質中的應用可以幫助提高候選蛋白質的產量,影響制藥相關的應用。
這個方向的未來工作可以集中在結合DAEs和RNNs進行基于序列的表示,以及結合GCNs進行基于結構和PPI的信息表示。在分層分類器中結合這些表示,如多任務DNN和生物相關的正則化方法,可以為蛋白質功能預測提供一個可解釋的和計算上可行的DL架構。
基因組工程
生物醫學工程,特別是基因組工程,是生物學的一個重要領域,其中DL模型已被越來越多地采用。在基因組工程技術中,CRISPR最近已被用作識別和切割人類基因組上特定位置的guide。由于能夠精確瞄準基因組上的特定位置,自Cas9開發以來,我們已經觀察到基于CRISPR的編輯技術取得了巨大的進步。然而,最近的研究表明,Cas9結合了意想不到的基因組位點進行切割 (稱為脫靶效應)。脫靶對細胞的功能和完整性有致病作用。由于治療目的缺乏效率、可靠性和可控性的挑戰,Cas9的全面臨床部署一直很緩慢。因此,減少脫靶并提高在靶效率一直是DL技術在基因組工程領域的最終目標。
對DNA修復過程進行建模所涉及的生物過程的復雜性,以及CRISPR檢測成本的迅速下降帶來的標簽數據的不斷增加,使得基于DL的方法成為尋找低效率的根本原因的特別成功的選擇。一些計算工具已被成功開發出來,用于設計具有最大的靶向活性和最小的脫靶效應的gRNAs。
DL的未來是面向新的編輯技術,如CRISPR-Cas12a (cpf1)、堿基編輯和質粒編輯。事實上,DL已經顯示出預測人類細胞中的腺嘌呤堿基編輯 (ABEs) 和胞嘧啶堿基編輯 (CBEs) 以及質體編輯2 (PE2) 活動效率的前景。然而,未來的挑戰是如何理解這些模型。CRISPRLand是一個最新的架構,它邁出了第一步,從高階相互作用的角度解釋和可視化DL模型。除了可解釋性,我們推測,能夠對預測結果進行不確定性估計的方法在基因組編輯中會更加普遍。此外,由于細胞類型對CRISPR實驗效率的顯著影響,了解在基因組工程中部署DL模型的分布變化至關重要。整合域適應方法以限制這種分布變化的影響是其他重要的未來方向。
DL的中等成功
系統生物學和數據集成
系統生物學從整體上對復雜的生物過程進行建模,以最終解開基因型和表現型之間的聯系。整合不同的組學數據是彌合這一差距的核心。
鑒于最近的成功以及單一和共同檢測數據的普遍存在,該領域現在致力于整合不同的數據類型 (如基因組學、轉錄組學、表觀基因組學、蛋白質組學、代謝組學),涉及單一個體、許多個體、表型組內部和之間以及不同的生物體。數據整合任務主要分為兩類:1) 不同平臺和單一數據類型的研究之間的整合;2) 不同組學數據類型 (如RNA-seq、ChIP-seq、ATAC-seq、BS-seq) 之間的整合。
單一數據類型的整合 (特別是轉錄組數據的整合)方面已經取得了很大進展,人們開發了經典的ML和統計方法,用于批量校正、為全球基因共表達模式建模、功能預測的貝葉斯整合策略以及表型分類。在這一領域的DL方法已經產生,因為需要有能與大量細胞一起擴展的方法,并有能力對細胞相似性的非線性模式建模。
將來自不同研究或不同類型的數據類型同時組合在一起的數據集成分析通常分為3類:基于串聯、基于轉換或基于模型。
基于串聯的整合方法是在方法管道的早期進行數據整合,在任何聯合建模和分析之前,以原始或處理過的形式將數據結合起來。傳統的基于串聯的ML方法通常是無監督的,通常使用自動特征提取技術。這些方法通常適用于來自大型聯盟 (如TCGA) 的精心策劃的多組數據集,因此最常被用來尋找有意義的病人亞群,其特點是跨數據模式的不同模式。最近,自動編碼器被用作初始數據處理步驟,以產生低維嵌入,然后連接在一起作為下游模型的特征。這些方法比現有的方法有更好的性能,可能是由于自動編碼器在去噪任務中的優勢,以及它們對非線性潛在結構的建模能力,即使沒有樣品標簽。
一些研究小組沒有直接連接單獨的潛伏嵌入,而是通過映射到一個共同的表征 (如圖或核矩陣) 來聯合建模數據,追求基于轉換的整合方法。這是數據整合中一個快速增長的領域,特別是對于DL方法。在使用經典ML方法的錨點的基礎上,新的最先進的方法經常訓練單一模式的自動編碼器,然后再進行跨模式的對齊程序。其他令人振奮的發展是將這些嵌入表征的力量與其他DL方法一起利用,用于廣泛的預測任務,包括細胞命運、藥物反應、生存和臨床疾病特征。
也許整合多模態數據最直接的方法是訓練單個數據模態模型,然后通過結合單個模型的結果來整合它們,稱為基于模型的整合。在基于模型的整合方面,DL方法還沒有獲得很大的發展,可能是因為大多數DL方法的本質模糊了基于轉換和基于模型的范式之間的界限。
DL的小成功
系統發育學
系統發育是一棵進化樹,它模擬了一組分類群的進化歷史。系統發育推斷問題涉及從正在研究的分類群中獲得的數據 (通常是分子序列) 中構建系統發育。圖3展示了四個分類群的系統發育推斷問題,在這種情況下,它可以被看作是三個可能的拓撲結構中的一個分類問題。
圖3:系統發育推斷的標準和DL方法。
然而,分類方法有一個很大的局限性,即它們不能推斷出分支的長度,也不能超過非常小的分類群數量,因為可能的拓撲結構 (類) 的數量會隨著這個變量的增加而呈超指數增長。但也許更重要的是,像DL模型這樣的分類器需要訓練數據,而真正的系統發育是已知的,在這個領域幾乎不可能獲得基準數據。
而且,從全基因組的數據中推斷一個單一的系統發育引入了不同基因可能有不同歷史的復雜性,或者真正的系統發育可能是一個網絡,而不是一顆樹。由于這些原因,DL要么取得了有限的成功,要么被限制在主要推理任務之外的小的子問題上。盡管如此,已經有人嘗試使用DL來完成上述分類任務。
總的來說,這些相關的成功是令人印象深刻的,但鑒于上述的挑戰,很難想象在不久的將來會有一個端到端的DL模型來直接從原始數據中估計系統發育樹。如果要開發一個模型,考慮到它對 (可能是模擬的) 訓練數據的依賴,在傳統的系統發育方法被取代之前,它對實際生物序列的適用性需要被仔細驗證。
生物科學中DL的開放挑戰
并非所有DL的應用在計算生物學中都同樣成功。雖然DL在一些領域 (如蛋白質結構預測和基因組編輯)已經發現了重大的成功,但DL在其他領域 (如系統發育推斷) 卻面臨著重大的障礙 (表1)。DL方法所面臨的最常見的問題是:缺乏注釋數據、非模擬數據集缺乏基本事實、訓練數據分布和真實世界的測試 (如臨床) 數據分布之間的嚴重差異、結果基準和解釋的潛在困難、數據集和模型的偏見和道德問題。此外,隨著數據和DL模型的增長,訓練效率已成為進展的一個主要瓶頸。
具體來說,計算生物學不同子領域的DL的成功高度依賴于以下方面:標準化的監督和非監督數據集的可用性和多樣性、具有明確生物影響的ML基準、問題的計算性質、訓練DL模型的軟件工程基礎設施。
計算生物學中DL的其余挑戰包括:提高模型的可解釋性、提取可操作性和人類可理解的見解、提高效率、限制訓練成本、減輕DL模型日益增長的倫理問題。
創新的解決方案正在DL和計算生物學社區出現 (表2)。
表2 使用DL時計算生物學和潛在解決方案面臨的常見挑戰
我們接下來回顧兩個關鍵的改進領域:可解釋性和訓練效率。
可解釋性
也許今天DL模型最關鍵的限制之一,特別是對于生物和臨床應用,是它們不像統計學中更簡單的回歸模型那樣可以解釋。要解釋網絡的每個節點代表什么以及它對模型性能的重要性是很有挑戰性的。DNN的高度非線性決策邊界和它們的超參數化性質,使它們能夠達到很高的預測精度,這使它們也很難解釋。事實上,在生物學中,一個模型為什么能很好地預測的問題往往與它能多準確地預測一個現象一樣重要。
在過去的幾年里,ML社區有一些努力來開發解釋"黑箱"DL模型的方法。
開發用于可解釋DNN的工具的努力仍處于起步階段,并在迅速增長,不過在實現生物學中的完全可解釋系統方面仍存在大量挑戰。關鍵問題是,目前解釋DL模型的通用方法是不夠的,特別是在臨床環境中。為了讓科學家和臨床醫生信任這些黑箱模型,他們需要能夠以人類可理解的方式解釋自己的不確定性水平,并提出能夠可靠地支持其決策所需的額外步驟 (如實驗、臨床研究等)。
我們推測,新一代的可解釋方法的重點是幫助這些黑箱模型從假設生成機器過渡到假設檢驗機器,這樣可以更容易地與醫療工作者溝通。
訓練效率
盡管許多DL方法的準確度很高,但它們的性能往往要付出高昂的資金和計算成本。例如,訓練一個模型所消耗的電力和計算時間的資金成本估計高達幾十萬美元。大型DL模型的極端成本會阻礙更廣泛的研究機構復制和改進當前的結果。因此,考慮成本較低的替代方法對于資源較少的研究人員來說是可行的。這些問題與將DL應用于計算生物學有關。例如,訓練最先進的蛋白質結構預測模型AlphaFold2需要相當于100-200個GPU運行幾周的計算資源。接下來,本文將討論DL社區用來減少訓練中的內存和計算成本的常見策略,以及應用類似策略來提高計算生物學中DL模型效率的潛在方向。
降低DL方法訓練成本的最直接方法是在現有的預訓練的通用模型上進行遷移學習,而不是從頭開始訓練新模型。這是訓練NLP任務的DL模型的常見方法,而且已經證明一般語言知識模型是各種不同NLP任務的良好起點。使用預訓練的模型在很大程度上減少了 (i) 訓練所需的特定任務數據集的大小;以及 (ii) 研究人員感興趣的某些任務所需的本地訓練總量。因此,創建可以被整個研究界共享和使用的通用模型將大大減少單個研究小組在特定任務上訓練模型所需的資源。然而,如果不同的下游任務的數據分布與一般的預訓練模型所使用的數據相比有很大的不同,這種方法將不太有用。例如,由于二倍體和單倍體基因組以及核酸分布的不同,DeepVariant對非人類SNV調用的適用性有限。在這些情況下,仍然需要從頭開始訓練,或者花費大量的資源來重新訓練基礎模型。
對于計算生物學的應用,一種提高效率的方法是依靠利用生物數據固有的稀疏性和局部性。研究人員也在使用Transformer進行DNA/RNA序列建模,但是由于昂貴的全局注意力機制,Transformer模型的訓練成本很高。這里可以利用先前的領域專業知識來幫助修剪注意力鄰域,并隨后提高模型的訓練效率。最后,人們還可以在訓練過程中改變模型的結構,以適應性地提高訓練效率。模型修剪的做法,即從模型中刪除不重要的參數,已經成為部署輕量級 (lightweight) DL模型的流行方法。
隨著生物數據量的不斷增加,神經網絡的規模也會隨之增加,并導致收斂所需的訓練迭代總數增加。因此,探索減少數據集的策略是很自然的,這也是解決效率問題的方法之一。一個可行的建議是構建訓練數據集的核心集。這可以通過在數據集上使用聚類方法并選擇中心點作為數據集的代表來實現。或者,可以通過選擇能夠最接近在整個數據集上訓練模型的效果的數據樣本來實現數據集的濃縮。解決DL的高訓練成本問題的一個正交方法是將訓練分布在幾個廉價的低端設備上。這一步將通過分布式訓練減少總的訓練時間,并通過使用多個計算能力較低的廉價設備減少總預算。一般來說,主要的分布式訓練方法是數據并行、模型并行和混合并行訓練。數據并行訓練將部分數據集拆分并分發到每個設備,模型并行訓練將模型的部分拆分并分配給每個設備。由于所有上述方法都是任務無關的,它們可以很容易地應用于計算生物學的DL模型。
結論
綜上所述,雖然DL在蛋白質結構預測等領域的成功是范式的轉變,但其他領域如功能預測、基因組工程和多組學也在觀察到與傳統方法相比性能的快速提升。對于其他領域,如系統發育學,經典的計算方法似乎在這些領域占了上風。應用于整個生物科學挑戰的DL的額外進展,將進一步利用特定領域的生物知識,同時努力實現高可解釋性和提高效率。
參考資料
Sapoval, N., Aghazadeh, A., Nute, M.G. et al. Current progress and open challenges for applying deep learning across the biosciences. Nat Commun 13, 1728 (2022). https://doi.org/10.1038/s41467-022-29268-7