数据库背景信息
由于越来越多的测序研究不断扩充癌症基因的相关数据,研究者急需一个能时时更新的癌症基因综合信息数据库。因此,研究者在2010年开始建立the network of cancer genes (ncg)数据库,旨在从大量癌症测序数据中收集汇总癌症基因并给予详细注释。
ncg基于专家对癌症测序筛查研究的分析总结,提取出原始文献中癌症基因,并且收集分析该基因各方面的特征性质信息(简单来说,这是一个基于测序研究手动整理的癌症候选基因百科全书)。目前最新版ncg,共包括了2372个癌症基因。基于275篇已发表文章,这些基因的体细胞改变具有已知或预测具有癌症驱动作用。ncg同时注释了癌症基因的特性,例如多倍性,进化起源,rna和蛋白表达,mirna和蛋白互做,以及蛋白功能和其它一些基本特性。ncg目前已更新到第六版,与旧版相比,新版囊括的内容增加了1.5倍,可在以下地址访问http://ncg.kcl.ac.uk/。
图:2372个癌症候选基因来源(2个癌症数据库 273篇癌症测序文章)。
数据库使用体验
基本信息模块(各种ncbi序列编号与链接“一网打尽”)
癌症基因信息模块
1 cancer information:提示brca1为肿瘤驱动基因的文献列表(包括技术平台,分析平台,癌种等信息)
2 duplicability(倍性):体现brca1基因编码蛋白序列在基因组的比对情况
3 orthology brca1基因的直系同源情况
4network properties:brca1蛋白互做情况
5gene expression in normal tissues:包括2个基因表达数据(gtex和protein atlas)和1个蛋白表达数据(protein atlas)
6 gene expression in cancer cell lines:列举了三个数据库中肿瘤细胞系中该基因表达情况(cancer cell lines encyclopedia (ccle);cosmic cancer cell lines project (clp);genentech dataset (gne))
7 essentiality:brca1基因对于细胞系存活的必须性(来源于和 数据库)
8 protein function:蛋白参与的通路信息(来源于kegg,reactome,biocarta三个数据库)
9 mirna-gene interactions:互做mirna信息
结语:如果准备开展一个肿瘤基因的功能研究,先来ncg数据逛一逛,一定可以少走很多弯路哦~