原文標題: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z
由于目前課題和自然變異關(guān)系比較大,所以解讀一下這篇文章在深度測序(約等于100X)組裝66個水稻品種后是如何尋找變異,以及如何驗證這些變異的質(zhì)量。
常規(guī)的高通量測序比對是利用100bp的短讀序列,因此如果參考物種的基因組本身就不包含某些基因,那么這些100bp短讀序列要么是沒有比對,要么是比對到錯誤的地方,所以這些高度多態(tài)區(qū)域就不可避免在后續(xù)的分析中丟失了。文章就先對按照如下套路,對水稻物種內(nèi)多個具有代表性物種的基因組深度測序并組裝。
并且還通過BAC文庫對其中一個物種進行高質(zhì)量組裝,驗證方法的可行性
這些組裝好的contig通過MUMmer錨定到水稻參考基因組序列上(IRGSP build 4 version). MUMmer能夠返回contig和參考基因組的一對一的區(qū)塊信息(one-to-one blocks), 之后根據(jù)該信息,使用EMBOSS的diffseq -wordisze 10
尋找變異。這樣子就能找到SV(結(jié)構(gòu)變異,大于20bp,小于12kb)。基于聯(lián)配信息找到66個水稻品種分別的基因型信息,即參考基因組的序列是啥,與之不同的變異是啥。根據(jù)RAP-DB的GFF文件(release 2).)預(yù)測潛在效應(yīng)。
這些變異中有些研究比較好,注釋信息比較可靠,有些則是位于基于預(yù)測的基因編碼區(qū)中,于是作者僅使用那些比較可靠的變異,利用ClustalW和BLASTN進行單倍型分析(haplotype analyses)。
此外,還用bowtie2
和SAMTools pileup
將原始數(shù)據(jù)比對各自的組裝序列上得到pileup結(jié)果文件。低質(zhì)量SNP和small indels用varFilter -D200
和Mapping qulity >= 30
得到變異信息后,可以先看這些變異位點的次要等位基因(minor allele )的數(shù)量和頻率的關(guān)系,以及在編碼區(qū)和非編碼區(qū)的情況。
再看看低質(zhì)量變異的比率
還可以選擇已知的非常有意義的基因序列看看多態(tài)性
原文標題: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z
在組裝完66個品系水稻的contig后,也找到了變異信息如SNP/InDel, SV等,下面的工作就是從各種角度對這些變異信息繼續(xù)解讀。
如果你手頭上拿著多個物種的全基因組變異信息,那么你可以一言不合就建一個系統(tǒng)發(fā)育樹。
我們都嘗試過用幾天序列建樹,那么全基因組變異信息建樹是如何操作的呢?其實也比較粗暴,就是構(gòu)建了66x66的SNP配對系數(shù),然后用PHYLIP的neighbor軟件構(gòu)建進化發(fā)育樹。你可能會覺得這樣子會不會丟失很多信息,從而不太準確。其實只要你的大方向正確,反而不需要斤斤計較局部的得失。
那么建樹有什么意義和好處呢?和之前的結(jié)果相互驗證,表明自己選擇的物種都是比較具有代表性,最起碼能夠分開。
隨后又可以整一個馴化選擇掃描(domestication selection scan)。 這個名詞咋聽起來一臉懵逼,其實和另一個詞序列多態(tài)性或核酸多態(tài)性有關(guān),主要是衡量一個群體的多態(tài)性。最常用也是第一個提出的計算公式如下,由 Nei 和 Li在1979年提出
公式你可能看不懂,但是知道概念后就可以用軟件了,比如說MEGA,比如說R包PopGenome.
最后和之前的1529份低覆蓋數(shù)據(jù)相比,找到了6個新的位點。當然作者也很謹慎,不太好說泛基因組的數(shù)據(jù)得到的結(jié)果更加有效,畢竟樣本量也就是60.
作者還對3種亞洲栽培稻(aus, aromatic , tropical japonica)在7個和水稻馴化相關(guān)位點進行進化上的分析,發(fā)現(xiàn)aus有點奇怪,不能完全被栽培稻分支上,這就說明aus 可能還沒有完全馴化。
此外,作者還發(fā)現(xiàn)幾個秈稻往粳稻滲入的證據(jù)。 他們首先找到了807,139個在秈稻和溫帶粳稻高度差異的SNP。然后在熱帶粳稻里面查看這些位點的信息,將近16%的熱帶粳稻里面有秈稻的基因組滲入證據(jù)。尤其里面還有和溫度耐受相關(guān)的位點OsTT1 (Os03g0387100)和大粒位點Os07g0505200
一個新的概念: 序列多樣式 π
一個新的全基因組建樹方法: 序列相似矩陣計算后接著PHYLIP
一個研究基因滲入的思想: 先找到明顯有區(qū)別的兩個品種的差異信息,然后在過渡型里看看差異性。
一個吐槽: 要想富,先修路,少生XX多建樹
原文標題: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z
今天看的部分是【Identification of functionally diverse alleles】,也就是找到功能變化等位基因。
文章提到,有了深度測序組裝的contig,就能更加精細的找到多種農(nóng)藝性狀相關(guān)的數(shù)量性狀核苷酸(quantitative trait nucleotides, QTNs),還能追蹤重要功能等位基因的馴化起源。為了證明這一點,作者選擇了五個比較重要的QTL, Hd3a, COLD1, GW6a, TAC1, Sd1, 這些基因參與花期,耐冷,粒重,抽穗角度和株高。
野生稻(O. rufipogon) 中基本由這些基因的多態(tài)位點,但是由于founder effect,栽培稻中這些基因的多態(tài)位點的分布就比較有趣了。下面作者就開始對這種是看似意外也不太意外的分布進行了解釋。
TAC1: 所有野生稻基本上都是T, 而所有的粳稻里都是C(突變方向是T->C),這就是導(dǎo)致粳稻的抽穗角度比較小,這種株型能夠非常適合密植,并且能夠比較地接受光。因此這種突變就會人為保留下來。
sd1: 是一個株高相關(guān)基因,野生稻基本都是G,而粳稻基本都是A,這種突變會倒是株高降低。這種突變是綠色革命時被人為保留。
除了這些已知的突變類型,其實還是有大量的變異值得研究。作者后面就開始關(guān)注發(fā)生在基因編碼區(qū)的變異,并且嘗試預(yù)測這種變異會帶來的影響。根據(jù)泛基因組編碼變異數(shù)據(jù)集,每個基因平均包括10個錯義SNP位點和6個較大效應(yīng)的多態(tài)位點,那么組合數(shù)就很多了。比如說在waxy里面,從7個具有代表性的單倍型中就找到了3個錯義SNP。在Hd1的7個單倍型中找到了22個錯義SNP,7個indel
作者還分析了這些突變位點在38個基因家族里全局性分布,不出乎意外的就是控制基本生物學(xué)過程的基因變異小于植物免疫相關(guān)的基因。
拿到那么多突變怎么辦,先找?guī)讉€重要基因分析
隨后按照基因組家族分布,比較不同生物學(xué)過程下的變異情況。
問題來了,如何預(yù)測潛在突變呢?
原文標題: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z
今天要讀部分是我看到這篇文章才接觸到的一個概念基因的PAV(presence-absence variation)突變, 也是這篇文章對66個物種深度測序組裝contig的主要用途。前面的SNP/InDel/SV突變其實都可以通過常規(guī)的高通量測序比對,回貼到粳稻參考基因組上識別,唯獨PAV突變指的是在日本晴參考基因組所沒有的部分,也就是根本貼不回去。
先看下作者他們是如何識別PAV?首先是用RepeatMasker(‘-species rice -nolw’)對得到的組裝里重復(fù)序列進行遮蓋,避免轉(zhuǎn)座子,重復(fù)序列和微生物基因組序列對注釋造成干擾。之后用FGeneSH預(yù)測基因結(jié)構(gòu),參數(shù)設(shè)置為monocotyledons。 預(yù)測的基因結(jié)構(gòu)用BLASTN(‘’-e 1e-10 –F F’’) 比對到粳稻參考基因組(RAP-DB on IRGSP-1.0 和 RGAP 7),那些比對的基因如果在粳稻參考序列上缺失,或者覆蓋率不到50%, 就被定義為“新識別基因”。
當然這只是從頭預(yù)測得到的證據(jù),基因結(jié)構(gòu)預(yù)測的常規(guī)套路還有一個轉(zhuǎn)錄組驗證的過程,然而66個品種每個都搞一個RNA-Seq,費用肯定時太高了,于是作者就只用了具有代表性的野生稻W(wǎng)1943和秈稻GLA4。選取其苗期、根部、葉和圓錐花序上的組織提取RNA,然后進行高通量測序,用SMALT(map -i 700 -j 50 -m 30)進行回貼到W1943和GLA4的基因組上,最后用對唯一比對的read用RPKM進行標準化。 最后對預(yù)測得到的基因注釋則是用BLASTN和InterProScan(‘-f TSV -iprlookup -goterms’)。
一共在67個水稻品種預(yù)測到了10,872個基因,這些基因的來源有如下幾個原因
大規(guī)模插入缺失
一些基因定位在粳稻基因組序列中物理間隔(physical gaps)中
如果這些基因都是偽基因,不表達,可能對后續(xù)研究幫助葉不會太大,因此RNA-Seq的表達量研究就非常必要。這些基因一半以上(57.1%, 60.6%)都是表達,就是表達量水平比那些在粳稻基因組上有注釋的基因低。
并且作者還用已知的幾個粳稻缺失基因(Sub1A, SNORKEL1 and SNORKEL2控制耐淹性, Pstol 控制耐低磷性)進行了驗證,發(fā)現(xiàn)這些基因都在泛基因組里。也就是說現(xiàn)在找到的新基因也可能有比較重要功能的基因。還有,在粳稻良好注釋基因可能在其他水稻品種中也有PAV變異,比如說Ghd7,控制花期,OsFBX310控制谷殼顏色。
為了了解水稻種PAV的總體情況,作者整合了67個基因組種的編碼基因(去冗余)得到了42,580個non-TE基因。作者用到了玉米泛基因組和泛轉(zhuǎn)錄組套路,嘗試預(yù)測每個水稻品種的基因總數(shù)。于是他們發(fā)現(xiàn)在67個水稻品種的時候,基因基本上就不變了,也就是說你們再去測其他品種也沒有多大意義了,收益遞減。
作者還創(chuàng)建了66x66的共有基因矩陣,顏色深淺表示相同的基因數(shù)目,發(fā)現(xiàn)26,372個出現(xiàn)在60以上水稻品種中,16,208個出現(xiàn)在小于60個水稻品種中。于是這些基因就可以分為核心和可有可無兩類。可有可無的基因集可以繼續(xù)分為285個組。作者又對核心和可有可無的功能分類。作者發(fā)現(xiàn)可有可無的基因大多時富集在生物和非生物脅迫,尤其是NBS-LRR (nucleotidebinding site–leucine-rich repeat) and NB-ARC (nucleotide-binding adaptor shared by APAF-1, R proteins and CED-4) genes。 而在核心組77.6%的編碼基因在InterPro數(shù)據(jù)庫中能檢索到,比可有可無的35.8%高,也就是說可有可無的基因有很大可能是假基因或者或是人為因素導(dǎo)致。
關(guān)于工作的難度:
66個物種的100X測序可能花不了多少錢,但是對這些物種的組裝工作就不是那么容易了,何況還專門做了其中一個品種的精細組裝作為金標準,以及注釋工作。所以這篇文章的前期變異識別,照我看來,是整個文章耗時最久的地方,也就是趙強老師是一作的原因。
關(guān)于工作的價值:
目前來看GWAS能找到比較顯著的基因基本上都快被找完了,剩下的就是那些低頻突變,或者說干脆在粳稻基因組上不存在。現(xiàn)在一下子提供了66個水稻的contig序列,對未來水稻亞種間群體構(gòu)建定位的幫助肯定很大。
其次,這篇文章基本上把水稻該有的基因都找完了,而從這些PAV突變里面挖掘出更有價值的基因,也是相當大的實驗工作吧。