編譯:YQ,編輯:夏甘草、江舜堯。
原創微文,歡迎轉發轉載。
導讀
物種的遺傳變異包括插入/缺失變異(PAV)、拷貝數變異(CNV)等,在農作物性狀的遺傳特性中起重要作用,而泛基因組是研究遺傳變異的重要思路,它傾向于構建基因組圖形,準確識別基因分型及群體變異。大豆是一種重要的油料和飼料作物,栽培大豆(Glycine max)是從野生大豆(Glycine soja)馴化得來。目前大豆培育超過6萬種品種,首個大豆全基因組是Williams 82(Wm82),比較基因組發現野生大豆和栽培大豆有廣泛的遺傳多樣性,不同地理區域的大豆也存在遺傳變異,目前中國的兩個大豆全基因組是栽培大豆ZH13及野生大豆W05,與Wm82存在大量基因結構變異。
目前研究已利用二代測序構建7種野生大豆的泛基因組,本研究組裝26種大豆基因組,利用泛基因組揭示宏觀基因變異和基因融合事件,有助于探究農藝性狀相關的關鍵基因。原名:Pan-Genome of Wild and Cultivated Soybeans
譯名:野生大豆與栽培大豆的泛基因組
期刊:Cell
IF:38.637
發表時間:2020.07
通訊作者:田志喜
通訊作者單位:中國科學院遺傳與發育生物學研究所
DOI號:10.1016/j.cell.2020.05.023
① 二代測序與系統發育分析。
將2898個樣品的二代測序通過參考基因組ZH13拼接,檢測基因組內的SNP及Indel,基于SNP構建系統發育樹。
② 三代測序。
選擇26個代表性大豆樣品進行PacBio測序和拼接。鑒定基因組轉座子、重復序列、非編碼RNA(miRNA、snoRNA、tRNA)。基因注釋采用從頭注釋、同源基因預測、轉錄組數據庫預測相結合。③ 比較基因組分析。
對26個拼接的全基因組與2個公布的參考基因組進行共線性全基因組比對,鑒定全基因組復制事件;識別SNP和Indel,2次及以上的共線性重復鑒定為拷貝數變異;根據遺傳距離構建系統發育。④ 基因家族分析。
OrthoMCL及BLASTp篩選核心基因(同源基因),并進行基因家族聚類,通過KEGG/GO進行功能注釋。⑤ 轉錄組分析。
RNA測序數據比對至參考基因組,通過RPKM公式計算基因表達水平,識別基因融合事件(一個基因組中的一個表達基因與另一個基因組的多個表達基因相匹配)。1、26個大豆品種的全基因組分析
本研究對2898份大豆樣品進行高通量測序,包括103種野生大豆、1048種地方品種、1747種栽培品種(圖1A)。與參考基因組ZH13比對,共鑒定31870983個SNP。利用SNP進行系統發育分析,將大豆樣品分為6個類群,其中野生大豆為一組,栽培大豆分為五組(圖1B)。選擇26個代表性的樣品進行三代測序,包括3種野生大豆、9種地方品種、14種栽培品種,這些品種在育種和生產上有重要價值。26個品種的全基因組大小992.3~1059.8Mb,重復序列占~54.4%,其中多數為長末端重復的轉座子(表1)。為注釋編碼基因和小RNA基因,選擇9個品種的根、莖、葉、花、種子進行RNA-seq,平均56522個編碼基因、533個miRNA、171個snRNA、439個rRNA(表1)。圖1 2898份大豆樣品地理分布、全基因測序、系統發育分析。A:樣品的地理分布,紫色(野生大豆),綠色(地方品種),橙色(栽培大豆),藍色(種質資源總量);B:系統發育樹,EU(歐洲),NA(北美洲),JAP(日本),KOR(韓國),RUS(俄羅斯),CHN(中國),SoyW(野生大豆),SoyL(地方品種),SoyC(栽培大豆)。
表1 26個大豆品種的全基因組注釋。
2、核心基因與非必需基因
26個大豆基因組的所有基因分為57492個基因家族,核心基因隨樣品量的增加而減少,在25個樣品時趨于平緩(圖2A),因此27個基因組足夠用于研究泛基因組。20623個基因家族由核心基因組成,28679個基因家族在25-26個基因組存在(軟基因),28679個基因家族在2-24個基因組存在(非必需基因),只在1個基因組存在的定義為特有基因(圖2B)。在27個基因組中,特有基因比例49.9%,但在單一基因組中僅占19.1%。(圖2C-D)。~77.5%的核心基因和72.1%的軟基因編碼蛋白質,比例比非必需基因和特有基因高(圖2E),而非必需基因的核苷酸多態性和正選擇作用高于核心基因(圖2F)。這表明核心基因相對非必需基因更保守。GO富集分析表明核心基因富集于發育過程、免疫系統、生殖、細胞組成成分、AP2/WD/WRKY/bZIP轉錄因子,而特有基因富集于非生物/生物響應基因。KEGG富集分析表明核心基因富集于次生代謝產物的生物合成,非必需基因富集于脂肪酸的生物合成和降解。
圖2 大豆品種的核心基因組分析。A:核心基因家族隨基因組數量的變化;B:27個基因組個體及總體的核心、軟、非必需、特有基因家族數量;C:27個基因組在泛基因組中的存在(紅色)及缺失(藍色)情況;D:27個基因組中各類基因數目;E:各類基因中編碼蛋白質(紅色)的基因比例;F-G:各類基因的核苷酸多態性及dN/dS(正選擇作用)。
3、大豆基因組的序列變異
本研究將26個大豆全基因組與Wm82、ZH13、W05進行比對,共鑒定14604953個SNP和12716823個插入/缺失片段。泛基因組比對的SNP比2898份高通量測序比對的SNP少,但分布模式相似(圖3A),且核苷酸多態性位點、正選擇作用位點也有相似性,證明了27個大豆基因組的代表性。此外,比較基因組發現723862個大片段插入/缺失,27531個拷貝數變異,21886個基因易位,3120個基因倒位。大部分插入/缺失長度1~2kb,易位長度10~30kb,拷貝數變異2~10倍,說明插入/缺失變異是驅動基因組大小變異的主要因素。比如相比SoyW03,ZH13基因組有1.2Mb的缺失片段,直接導致7號染色體SoyW03序列最長,而SoyW02最短。
4、大豆基因組的結構變異
本研究將所有基因組776399個結構變異事件合并為124222個非重復的結構變異,隨基因組數量增加,結構變異數越多,但核心基因的結構變異下降且趨于平緩,共有的結構變異包括130個(圖3B)。基于結構變異發生的頻率,將其分為四類:核心(存在所有基因組),次要(存在26-27個基因組),非必需(存在2-25個基因組),特有(存在于1個基因組),發現野生大豆的特有結構變異比栽培大豆多(圖3C)。此外,結構變異傾向于重復序列區域(圖3D),同樣插入/缺失變異也多為重復區域(圖3E),這表明重復序列的變化明顯影響基因組差異。隨等位基因的基因頻率增加,結構變異的數量減少(圖3F)。根據2898個高通量測序樣品發現3584個新型的結構變異,而野生大豆的結構變異明顯多于栽培大豆(圖3G)。研究表明種子光澤是大豆的重要性狀,大豆的疏水性蛋白積累與種子光澤的變化有關,本研究對種子光澤的全基因組關聯分析表明15號染色體存在10kb結構變異與其相關(圖3H),變異區域包括疏水蛋白編碼基因(圖3I)。10kb片段插入的基因組中種子有光澤的比例較高(圖3J),說明這一變異是控制大豆種子光澤的主要遺傳變異之一。
圖3 大豆基因組的遺傳變異。A:26個全基因組與2898重測序基因組的遺傳變異分布,a(基因密度),b-e(SNP),f(大片段結構變異(紅色)和重復序列分布(藍色));B:結構變異數量隨基因組數量的變化;C:26個基因組中各類結構變異的數量及比例;D:基因組重復/非重復區域的結構變異密度;E:重復片段的插入/缺失變異數量;F:等位基因頻率與結構變異數的關系;G:野生大豆/栽培大豆的結構變異數量;H-J:全基因組關聯分析篩選種子光澤相關的15號染色體變異區域(插入/缺失片段包括疏水蛋白編碼基因),及其插入/缺失下的種子有/無光澤的比例。
5、大豆基因組的全基因組復制與基因融合
先前研究表明~1300萬年前大豆基因組的50%出現全基因組復制,本研究發現大豆基因組~54%出現全基因組復制,且發生在基因富集區域,重復序列區域較少。26個全基因組的核苷酸多態性在全基因組復制區域明顯較低,且復制區域核心基因較多,而非復制區域的結構變異較多,說明基因組重復區域限制基因進化速度,而全基因組復制使整個基因組插入/缺失率下降。泛基因組分析發現,本研究26個大豆基因組有27175個基因出現部分缺失。基因組中2.2%的SNP位于蛋白質編碼區,產生了5474個提前終止密碼子;3.2%的插入缺失片段出現在編碼區,產生385950個移碼突變。例如,SoyC13的18號染色體出現16kb片段的缺失,使基因SoyZH13_18G184700缺失;SoyC11的6號染色體出現23kb片段的插入,使基因SoyC10_06G170400、SoyC10_06G170500、SoyC10_06G170600插入。基因融合事件在基因進化中有重要作用,本研究從頭拼接的基因組發現,相比ZH13基因組的E3基因(E3-Mi-1),第三個內含子有2.6kb插入片段(E3-Ha-1)和13.3kb缺失片段(E3-tr)(圖4A-B)。在2.6kb插入片段中,發現E3基因第三個外顯子的G→A堿基突變,第一個外顯子的T→-(141)突變,導致移碼突變,第一個外顯子的T→-(611)和G→-(768)導致提前終止。此外,13.3kb的缺失片段中,導致基因SoyZH13_19G210500的缺失,有趣的是該缺失導致E3和SoyZH13_19G210600基因共轉錄,且E3轉錄本增多了一個外顯子(圖4C)。基于E3和SoyZH13_19G210600設計引物時發現E3-tr株有清晰條帶,而未缺失13.3kb株無條帶(圖4D),證明E3和SoyZH13_19G210600出現基因融合。轉錄組數據證明E3及其鄰近基因SoyZH13_19G210500、SoyZH13_19G210600在ZH13中表達(圖4E),未來對融合基因的功能研究將有助于探究基因進化以及物種進化。圖4 大豆E3及鄰近基因的遺傳變異。A:E3及鄰近基因的物理位置;B:E3位點的變異類型;C:一個13.3kb片段缺失將SoyZH13_19G210600與E3基因融合;D:PCR擴增驗證SoyZH13_19G210600與E3基因融合,L05/L09/C13/C14屬于E3-tr基因型,W02/C12/ZH13屬E3-Mi基因型。E:E3及其鄰近基因在ZH13中的表達水平。
6、大豆基因組受大豆馴化影響
先前研究表明大豆馴化涉及許多基因位點,本研究構建的泛基因組結構變異能夠更清晰地闡明進化過程。種皮色素是大豆馴化過程的重要選擇性狀,幾乎所有野生大豆種皮呈黑色,栽培大豆呈黃色,先前定義I基因座是導致種皮從黑色到無色的重要馴化基因座,該基因座與查爾酮合酶的降解有關。29種大豆中,4種野生大豆和SoyL02種皮呈黑色,其余栽培大豆呈黃色(圖5A),根據I位點系統發育分析分為5個類群,黑色種皮品種聚為H1基因型。結構變異分析顯示H3、H4、H5基因型含基因倒置和重復序列(圖5B)。而在H2基因型中發現一個來自H1的23.4kb序列被拷貝并倒置于基因座末端,H3基因型發生兩次基因倒置,H4基因型來源于H3的缺失,H5來源于H3的串聯重復序列的拷貝數變異(圖5C)。通過遺傳距離估計H2與H3在~4500年前形成,H4和H5在~600年前形成。圖5 大豆I基因座的遺傳變異。A:基因座的系統發育分析;B:I基因座的結構變異;C:I基因座5個類群的共線性分析。
7、大豆遺傳變異對關鍵基因表達的影響
本研究發現17696個結構變異位于核心基因區域,于是比較結構變異對基因表達的影響。先前研究表明大豆缺鐵缺鐵萎黃病與14號染色體的數量性狀位點相關(圖6A),包含一個Fe2+/Zn2+轉運蛋白基因(SoyZH13_14G179600)。本研究發現不同基因組中SoyZH13_14G179600的啟動子區域有一個1.4kb的插入缺失片段,該片段包括兩個等長700bp反向末端重復序列,其結構變異與其它5個多態性位點高度相關,可分為2個類群:Hap-1和Hap-2(圖6B),RNA-seq表明Hap-2的表達水平高于Hap-1(圖6C)。分析發現Hap-2類群位于高緯度區域,Hap-1類群位于低緯度區域(圖6D-F),推測SoyZH13_14G179600基因的遺傳變異促進大豆對鐵吸收的適應。圖6 Fe吸收相關的數量性狀基因的結構變異。A:SoyZH13_14G179600的插入缺失片段;B:SoyZH13_14G179600及其高度相關變異的類群;C:兩個類群的SoyZH13_14G179600表達模式,A(根),B(莖),C(嫩葉),D(成熟葉),E(老葉),F(花),G(莢果和種子),H(6周后種子),I(8周后種子);D-E:兩個類群的地理分布;F:兩個類群的緯度分布。
對種質遺傳多樣性的評價及利用是作物改良的關鍵,而二代測序僅能發現小片段的SNP和插入缺失標記,限制全面精確識別遺傳變異和全基因組關聯研究。本研究從26個野生和栽培大豆的泛基因組深入研究大豆功能基因,高質量三代測序可識別多種復雜變異,且泛基因組水平可減少錯誤識別,并結合RNA-seq分析促進功能基因的發掘。本研究發現大豆馴化和改良過程導致了栽培品種的遺傳多樣性變少,限制了優良品種的選育。創造實驗種群對育種必不可少,除了結合雙親基因組的傳統育種,巢式關聯作圖群體和多親本重組自交系群體是育種發展趨勢,而合適的親本是育種的關鍵。本研究從全球收集的2898份大豆種質中篩選了27個代表性品種,可作為育種的關鍵實驗群體。因此,泛基因組研究對大豆育種有重要意義。大豆是一種重要的油料和飼料作物。本研究為獲取完整的大豆基因組多樣性,收集全球大豆品種,構建完整的泛基因組。本研究從2898份大豆測序樣品種選取26份代表性大豆樣品進行三代測序。利用基因組比對識別遺傳變異,結合RNA-seq進行遺傳變異和重要性狀位點分析。這一泛基因組資源將促進大豆種質資源和功能基因組研究。
更多推薦
1 高分綜述 | Trends in Biotechnology: 單細胞分辨率下利用空間轉錄組揭示器官分子結構(國人佳作)
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。