轉載自:http://blog.sciencenet.cn/blog-1509670-1000479.html
隨著芯片和高通量測序技術的廣泛應用,在腫瘤研究領域積累了越來越多的基因組學數據,特別是像The Cancer Genome Atlas(TCGA)、International Cancer Genome Consortium(ICGC)等大型腫瘤基因組測序計劃的啟動和完成,積累了大量的基因組學數據,這些數據至今為止已經占據了NCBI等公共數據庫的半壁江山,同時也產生了各種各樣的數據庫以滿足不同的研究需求。
對數據庫的靈活運用已經成為科研工作者所必須掌握的基本技能,否則出去交流的時候都不好意思開口說不知道了。對于這些數據庫,小編隨口都能講出十幾個,例如***(此處省略一百字),然而,這么多數據庫對于有選擇困難癥的人來說簡直就是噩夢,很多人都在問有木有一個數據庫能一次能滿足我多個愿望呀?為此,小編對十幾個數據庫進行綜合評估之后,給大家隆重推薦腫瘤基因組學數據庫的終結者:cBioPortal網站(http://www.cbioportal.org/)。
cBioPortal網站整合了126個腫瘤基因組研究的數據,包括TCGA和ICGC等大型的腫瘤研究項目,涵蓋了兩萬八千例標本的數據,此外部分樣品還包括了臨床預后等表型的信息。cBioPortal無需注冊就能直接使用,而且提供一些小工具方便用戶生成文章級別的圖表,非常貼近用戶的需求,下面小編就以EGFR基因在非小細胞肺腺癌的研究為例,帶領各位小伙伴一步步玩壞cBioPortal數據庫吧。
(一)EGFR在非小細胞肺腺癌的變異情況
首先,在cancer study選擇要研究的腫瘤類型,如果想看候選基因在所有腫瘤的變異情況,就把所有腫瘤類型選上即可。在這里,我們可以看到對于肺癌有好幾個研究項目的數據,一般我們選擇樣品量最多信息量最大的研究項目,所以我們選擇了TCGA非小細胞肺癌項目(包括了522例樣品)。然后,在genomic profiles選擇要研究的組學數據類型,是研究突變還是拷貝數變化,還是多個組學的數據都考慮,在這類我們為了全面了解EGFR的變異情況,就把全部組學數據都選上了。最后,在gene set填上你所關注的基因,一個或者多個基因都可以,或者在user-defined list選擇對特定腫瘤具有明確意義的基因。
選擇好上面的參數點擊提交,之后只需靜靜等候即可得到詳細的突變結果。在Oncoprint標簽頁里面,不同的圖例代表不同的突變類型,此外,還能把變異比對到具體的蛋白結構域,并且配有蛋白三維結構的圖(Mutations標簽頁)。關鍵是可以調整顯示的方式和圖形的大小,最終還能導出不同格式的圖,滿足各位發表文章的需要。
(四)EGFR調控網絡和藥物反應
對于調控網絡cBioPortal通過基因互作數據庫,例如PID、PANTHER、Reactome等數據庫尋找與候選基因相關聯的基因,然后通過互作強弱分析構建調控網絡。此外,利用DrugBank、KEGG Drugs和Cancer Cell Line Encylopedia等藥物反應數據庫,針對相關的藥物靶向的基因進行標注,從調控網絡的角度指導分子互作和藥物反應實驗。
(轉自:永諾生物)