精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
轉錄噪聲對RNA-Seq實驗中基因和轉錄本表達量估計的影響
userphoto

2025.02.02 廣東

關注

最近在網上沖浪看各位大牛的博客文章,積累創作素材,看到一篇有意思的文章,這篇文章雖然已經發表了好幾年,但是依然被一位大牛拿出來進行了探討。分享給大家。

文章標題:Effects of transcriptional noise on estimates of gene and transcript expression in RNA sequencing experiments

雜志:Genome Res

發表時間:2021 Feb

doi: 10.1101/gr.266213.120

文章核心主題

大多數關于基因表達分析計算方法的研究都是使用模擬數據來評估這些方法的準確性。這些模擬通常包括從已知基因生成的、具有不同表達水平的reads。然而,直到現在,這些模擬都沒有包括來自噪聲轉錄本(noisy transcripts)的 reads,這些噪聲轉錄本可能包含錯誤的轉錄(erroneous transcription)、錯誤的剪接(erroneous splicing)以及其他影響活細胞中轉錄過程的因素。

在本研究中,作者研究了在RNA-Seq實驗中,實際水平的轉錄噪聲對不同算法組裝和定量基因及轉錄本能力的影響

評價指標

作者通過將之前從GTEx數據集中計算得到的轉錄組組裝劃分為四種不同的生物學和技術變異類型,來研究這些變異。這四種類型包括:

  • (1)已知轉錄本
  • (2)由于內含子保留導致的錯誤轉錄本(“內含子噪聲 intronic noise”)
  • (3)由于使用錯誤的剪接位點導致的錯誤轉錄本(“剪接噪聲 splicing noise”)
  • (4)由于基因間區轉錄導致的錯誤轉錄本(“基因間區 intergenic”)

GTEx數據集與與模擬數據比較

GTEx數據集是基于CHESS數據庫(Pertea等人,2018年)構建的轉錄組組裝結果,與模擬數據進行比較。

  • (A)每種組織中觀察到的注釋位點和基因間區位點的數量分布
  • (B)每個樣本中觀察到的注釋位點和基因間區位點的數量分布
  • (C)每個樣本中代表每種噪聲類型的轉錄本數量分布
  • (D)在典型樣本中,來自真實異構體與噪聲異構體的表達量比例。僅包括既有注釋轉錄本又有噪聲轉錄本表達的位點。
  • (E)模擬樣本中來自噪聲轉錄本的總表達量比例

作者發現大多數已知基因在典型組織的至少一個樣本中都有表達(圖1A)。相比之下,無論是已知位點還是異構體,在典型樣本中活躍表達的比例都不到一半(圖1B、C)。與噪聲轉錄本相比,已知轉錄本更有可能出現在同一組織的多個樣本中(約26%),而噪聲轉錄本的比例則較低(基因間噪聲為1.8%,內含子噪聲為0.5%,剪接噪聲為1.4%)。因此,盡管GTEx數據集中總體上噪聲轉錄本的數量要多得多,但在特定組織的層面上,噪聲轉錄本的數量通常低于真實轉錄本的數量(圖1B、C)。

noisy transcription對轉錄本水平豐度估計的影響

模擬數據:應用模擬方法,作者創建了一個由三種組織組成的數據集,每種組織包括10個樣本。

  • (A) 每個樣本中假陽性(FP)觀測值的數量分布,分別在有噪聲(棕色)和無噪聲(藍色)的情況下
  • (B) 在有噪聲和無噪聲的情況下,分配給假陽性觀測值的表達水平
  • (C) 每個樣本中假陰性(FN)觀測值的數量分布
  • (D) 在有噪聲和無噪聲的情況下,假陰性觀測值的表達水平

在考慮的所有方法中,引入噪聲表達均導致被錯誤識別為表達的轉錄本數量一致增加(圖2A)

StringTie2 在無噪聲時具有最少的假陽性(FP)數量(μ = 18,844;FPR = 7%),并且其FP數量增加最少,平均值上升至23,494(約25%增加;FPR = 8%)。

相比之下,Salmon 在無噪聲時的FP數量略高(μ = 21,546;FPR = 8%),但在有噪聲時,其FP數量大幅增加了約70%(μ = 36,677;FPR = 13%)。

kallisto 在無噪聲數據中的FP數量最高(μ = 34,316;FPR = 12%),而在加入噪聲后,它產生了最多的假陽性(FP)轉錄本,平均超過51,000(約50%增加;FPR = 18%)。

平均而言,這些方法在模擬樣本中報告了相似的FP轉錄本集合,Salmon 和 kallisto 之間的相似性更高。

noisy transcription 對基因水平豐度估計的影響

  • (A)每個樣本中假陽性(FP)基因的數量分布,即報告的基因位點中沒有實際轉錄本表達的基因數量
  • (B)每個樣本中假陰性(FN)基因的數量分布,即模擬數據中至少有一個轉錄本表達的基因位點,但程序未能報告任何表達的基因數量
  • (C)分配給基因的 read 數量的變化百分比,作為該基因位點未注釋轉錄本表達比例的函數

結果發現

噪聲的引入會導致這些算法在定量表達能力上出現系統性誤差,包括對轉錄本豐度水平的系統性低估以及假陽性基因和轉錄本數量的大幅增加,以及無比對的計算方法有時會遺漏相對低水平表達的轉錄本。

友情宣傳:

生信入門&數據挖掘線上直播課2025年1月班

時隔5年,我們的生信技能樹VIP學徒繼續招生啦

滿足你生信分析計算需求的低價解決方案

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
RNA-seq數據分析指南
癌癥組學大數據的可視化與再挖掘
把RNA跟基因型、疾病聯系起來
ROC曲線及其matlab實現ROC曲線的繪畫
混淆矩陣、AUC、ROC,傻傻分不清楚?來看這篇就對了
機器學習之分類器性能指標之ROC曲線、AUC值
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 揭阳市| 池州市| 太湖县| 浮山县| 抚顺市| 清镇市| 云龙县| 沂水县| 嘉义市| 卢龙县| 泰兴市| 德安县| 明星| 丹棱县| 阳谷县| 莆田市| 西乌珠穆沁旗| 云霄县| 丰宁| 社旗县| 临沭县| 桃源县| 香港 | 巴东县| 玛曲县| 涟源市| 南华县| 繁峙县| 洞头县| 翁源县| 县级市| 磐安县| 崇州市| 盐边县| 澄迈县| 夏津县| 霍林郭勒市| 峡江县| 临武县| 灵宝市| 天台县|