最近在網上沖浪看各位大牛的博客文章,積累創作素材,看到一篇有意思的文章,這篇文章雖然已經發表了好幾年,但是依然被一位大牛拿出來進行了探討。分享給大家。
文章標題:Effects of transcriptional noise on estimates of gene and transcript expression in RNA sequencing experiments
雜志:Genome Res
發表時間:2021 Feb
doi: 10.1101/gr.266213.120
大多數關于基因表達分析計算方法的研究都是使用模擬數據來評估這些方法的準確性。這些模擬通常包括從已知基因生成的、具有不同表達水平的reads。然而,直到現在,這些模擬都沒有包括來自噪聲轉錄本(noisy transcripts)的 reads,這些噪聲轉錄本可能包含錯誤的轉錄(erroneous transcription)、錯誤的剪接(erroneous splicing)以及其他影響活細胞中轉錄過程的因素。
在本研究中,作者研究了在RNA-Seq實驗中,實際水平的轉錄噪聲對不同算法組裝和定量基因及轉錄本能力的影響。
作者通過將之前從GTEx數據集中計算得到的轉錄組組裝劃分為四種不同的生物學和技術變異類型,來研究這些變異。這四種類型包括:
GTEx數據集是基于CHESS數據庫(Pertea等人,2018年)構建的轉錄組組裝結果,與模擬數據進行比較。
作者發現大多數已知基因在典型組織的至少一個樣本中都有表達(圖1A)。相比之下,無論是已知位點還是異構體,在典型樣本中活躍表達的比例都不到一半(圖1B、C)。與噪聲轉錄本相比,已知轉錄本更有可能出現在同一組織的多個樣本中(約26%),而噪聲轉錄本的比例則較低(基因間噪聲為1.8%,內含子噪聲為0.5%,剪接噪聲為1.4%)。因此,盡管GTEx數據集中總體上噪聲轉錄本的數量要多得多,但在特定組織的層面上,噪聲轉錄本的數量通常低于真實轉錄本的數量(圖1B、C)。
模擬數據:應用模擬方法,作者創建了一個由三種組織組成的數據集,每種組織包括10個樣本。
在考慮的所有方法中,引入噪聲表達均導致被錯誤識別為表達的轉錄本數量一致增加(圖2A)
StringTie2 在無噪聲時具有最少的假陽性(FP)數量(μ = 18,844;FPR = 7%),并且其FP數量增加最少,平均值上升至23,494(約25%增加;FPR = 8%)。
相比之下,Salmon 在無噪聲時的FP數量略高(μ = 21,546;FPR = 8%),但在有噪聲時,其FP數量大幅增加了約70%(μ = 36,677;FPR = 13%)。
kallisto 在無噪聲數據中的FP數量最高(μ = 34,316;FPR = 12%),而在加入噪聲后,它產生了最多的假陽性(FP)轉錄本,平均超過51,000(約50%增加;FPR = 18%)。
平均而言,這些方法在模擬樣本中報告了相似的FP轉錄本集合,Salmon 和 kallisto 之間的相似性更高。
噪聲的引入會導致這些算法在定量表達能力上出現系統性誤差,包括對轉錄本豐度水平的系統性低估以及假陽性基因和轉錄本數量的大幅增加,以及無比對的計算方法有時會遺漏相對低水平表達的轉錄本。