本次主要介紹一下DNA的甲基化和羥甲基化的高通量測序。DNA的甲基化是在DNA的序列不變的條件下,在其中某些堿基上加上甲基的這樣一個過程。
DNA甲基化的結果,一般是使甲基化位點的下游的基因表達量變少。
這個(甲基化)分析方法當中的核心化學反應,是用亞硫酸氫鹽來處理DNA。DNA當中,沒有甲基化或羥甲基化的C堿基,就會被轉化成U堿基。我們來看這個轉化的過程,在弱酸性條件下,亞硫酸氫根會結合到沒有甲基化的C堿基的6位。而甲基化了的C堿基不會和亞硫酸氫根發生這個反應的。
然后,用堿來處理。結合了亞硫酸氫根的非甲基化的C,就被脫氨基,并且脫亞硫酸根。然后,就被轉化成U堿基。
那么,甲基化或者羥甲基化的C堿基,因為之前沒有和亞硫酸氫根起反應,所以現在用堿來處理,它也不會發生脫氨基反應。所以,它還保持了是“C”。用亞硫酸氫鹽來處理DNA,可以讓99%左右的非甲基化的C堿基變成U。也就是說這種方法的的轉化效率非常高,轉化效率達到了99%。
它的優點,就可以讓我們接下來通過高通量測序的方法,可以精確地看到單個堿基的甲基化的水平。經過亞硫酸氫鹽轉化過的DNA,再經過PCR,PCR新合成出來的鏈,U堿基的位置,就會被替換成了“T”。那么在接下來的測序過程中,測到的也是T堿基。而甲基化的C,因為沒有被亞硫酸氫鹽所轉化,所以,在接下來的測序過程中,被測到的,還是“C”堿基。這樣,通過測序,看一個位置是“C”,還是“T”。如果它保持是“C”,就說明這個位置是被甲基化、或者羥甲基化了。如果測到的是“T”,就說明這個位置是沒有被甲基化、或者羥甲基化。
甲基化的建庫過程。
第一種,用Illumina公司的Truseq DNA建庫方法,來做甲基化測序。
因為Illumina Truseq DNA建庫試劑盒當中,它所提供的接頭,那么這個接頭上的C堿基都是已經經過甲基化修飾了。所以,用這些接頭做出來的文庫,在用亞硫酸氫鹽做轉化的過程當中,它的(接頭上的)C還是保持是C ,不會被轉成U。帶了這些接頭的文庫分子,就可以和測序芯片上的草皮DNA發生互補雜交。并且進一步發生橋式PCR反應。生成測序用的DNA的簇(Cluster)。但是,這個方法有一個缺點,就是在用亞硫酸氫鹽處理DNA文庫的時侯,90%以上的DNA鏈會斷掉。這樣,已經建好的文庫,其中90%分子會被破壞掉。也就是說文庫的豐富度就會損失90%以上。那么,相應的它有它的好處,它的好處就是,在這個建庫過程當中用的PCR循環數較少。所以它PCR擴增效率不同,所引起的文庫不均一程度也就較低。也就是我們通常所說的PCR bias較少。
第二種建庫方法。為了解決文庫豐富度受到損失的這個問題,EpiCentre公司開發了EpiGnome方法,方法的操作過程如圖。
第1步,亞硫酸氫鹽先處理DNA,把未甲基化的C都轉變成U。
第2步,把帶標簽1的隨機引物加入,進行第一次的復制。得到第1條的復制鏈。
第3步,是消化掉過量的引物。
第4步,是加入帶末端終止堿基、并帶標簽2的隨機引物。這個引物的作用是讓第1復制鏈延伸,并且加上標簽2。
第5步是加入建庫的PCR引物,進行PCR。通過PCR,把Index序列和成簇引物序列加入到鏈的兩側。得到真正的文庫。
這個方法的優點是,把亞硫酸氫鹽處理的過程,放在了建庫之前。這樣建成的庫的豐富程度會比較高。但是這個方法也有缺點,缺點就是要做較多的PCR循環,那么有了比較多的PCR循環之后,PCR產物的擴增均一性是不太好的。也就是說PCR bias會比較大。
上述兩種方法,各有優缺點。
在Illumina的HiSeq 2000或者2500平臺上進行測序,如果文庫是堿基平衡的文庫,也就是說,每個特環當中,A/C/G/T四種堿基的比例,各占25%左右的話,測序儀對堿基的判讀會比較好。但是如果缺少了一種或者幾種堿基,測序儀對堿基的判讀就會出問題。測序得到的數據質量就會下降。并且效的數據產量也會降低。因為甲基化文庫中經過亞硫酸氫鹽處理,絕大多數的C都變成了T。所以,這個文庫中是嚴重地缺少C堿基的,也就是四種堿基的比例是嚴重不平衡的。這樣在用HiSeq 2000或2500測序儀來測甲基化文庫的過程當中,文庫測序得到的數據質理就較差。并且經過PF過濾得到的有效的數據產量也會較低。
為了彌補甲基化文庫的堿基不平衡性,一般情況下,在上機過程當中,是摻入大比例的基因組文庫,或者PhiX文庫,來補充比較多的C堿基,一般會摻30%的PhiX文庫、或者基因組文庫。
在摻入30%的PhiX文庫的條件下,一條HiSeq 2000 V3 PE100的Lane,大概可以得到20G 左右的甲基化文庫數據。也就是說,在HiSeq 2000或者2500平臺上,甲基化文庫的測序數據產量,一直都不是很高。質量也比較低。
接下來,我們說一下區分“羥”甲基化和甲基化的測序方法。
在用單純的亞硫酸氫鹽法來測的過程當中,甲基化和差甲化的C堿基都不能被轉化成U堿基,所以單純的亞硫酸氫鹽法是無法區分甲基化或羥甲基化的C堿基的。
為了區分甲基化和羥甲基化,科學家想出了兩種辦法。
第一種辦法,是通過高釕酸鉀(KRuO4)來氧化羥甲基化的C。羥甲基化的C可以被轉化成甲酰化的C堿基,而甲酰化的C堿基,是可以被亞硫酸氫鹽轉化成U的。
而甲基化的C,不會被轉化成U。這樣就把原來的羥甲基化的C和甲基化的C給區分開來了。
經研究表明,用高釕酸鉀氧化的方法來氧化羥甲基化的C,其轉化效率是94%左右。也就是說,每100個羥甲基化的C中,有94個會被高釕酸鉀轉化成甲酰化的C。并進一步被亞硫酸氫鹽轉化成U。同時,原來的甲基貨攤C,只有2.1%會被轉化成甲酰化的C。
第二鐘區分羥甲基化C的方法,是用糖基把羥甲基化的C給保護起來。然后用TET蛋白(Ten-eleven translocation methylcytosine dioxygenase 1),把甲基化的C轉化成羥基化的C。
進一步將羥甲基化的C轉化成甲酰化的C和羧基化的C。甲酰化的C和羧基化的C都可以被亞硫酸氫鹽轉化成U。而之前被糖基化保護起來的羥甲基化的C,是不會被TET蛋白轉化成甲酰化的C或者羧基化的C的。在亞硫酸氫鹽的處理過程中,它還保持是C。并且在之后的PCR擴增產物中,也表現為C。這樣,就可以把羥甲基化的C,和甲基化的C,給區分開來。
用這個方法,沒有甲基化的C,99.6%都被轉化成了U。甲基化的C,97.7%都被轉化成了U。而羥甲基化的C,只有8%被化成了U。也就是說92%的羥甲基化的C得到了糖基的保護,還保持了C。上述,就是目前2個區分羥甲基化的C和甲基化C的方法。
在甲基化文庫建程當中,亞硫酸氫鹽對未甲基化的C的轉化效率并不是100%,一般是在99%左右。為了對實驗的轉化效率進行質量控制。一般會在轉化實驗當中加入內參對照品。一般情況下,是用甲基化酶缺陷型的大腸桿菌,所生產出來的完全沒有被甲基化的λ(噬菌體)DNA,或者pUC19(質粒)DNA做內參。來看一次實驗當中C的轉化效率。一般情況下,實驗當中是加入1%的完全沒有甲基化的λ DNA做內參。
同樣道理,也可以通過用甲基化酶處理過的,CpG島完全被甲基化的DNA,來跟蹤甲基化DNA對亞硫酸氫鹽轉化的抵抗效果。
最后,我們來談一下,甲基化測序后的數據處理。
因為亞硫酸氫鹽處理過后,絕大部分的C都被轉化成了T。這樣,測出來的序列在和基因組進行對比的時侯,直接對比是對比不上的。為了要進行比對,就要把基因組的堿基做兩種轉變。
第一種轉變是把基因組上所有的C都改到T,再來和測序測到的序列來對比。這樣,就可以把原來的鏈給對比上。
第二種轉變,是把基因組上所有的G都變成A,這樣才能和經過PCR得到的原樣本鏈睥互補鏈對比得上。這樣做的原因,是原樣本鏈的互被鏈,它上面絕大部分的G,都被變成了A。所以,只有把(參考)基因組上的G,也都改成A,這樣才能對比得上。比對上之后,再來看哪些堿基是沒有被轉化的。這樣,就可以確認這些堿基的甲基化修飾情況了。