nar杂志2月刊上,肿瘤研究者最爱的癌症基因组图谱集(the cancer genome atlas,tcga)数据又有新的数据挖掘文章发表啦!快和小编一起看看这次又是什么“套路”吧!
一张图快速了解tcga
文章题目:the association between copy number aberration, dna methylation and gene expression in tumor samples
中文题目:肿瘤样本的体细胞拷贝数变异,dna甲基化和基因表达的相关性分析
发表日期: 2018 feb 26
影响因子:10.162
研究背景
1) 研究目的在于进行tcga开放数据的深度挖掘。
2) 系统分析6个癌种的体细胞拷贝数变异 (scna), dna甲基化和基因表达之间的相关性,包括乳腺癌(brca),结肠癌(coad),急性髓样白血病(laml),成胶质细胞瘤(gbm),低级胶质瘤(lgg)和前列腺癌(prad)。
研究方法
1) 数据准备
2) 样本筛选
因为tcga没有提供人群信息,本研究基于基因型的主成分分析方法,主要筛选欧洲人群。
研究结果
(以乳腺癌为主要展示结果,其它作者放在补充材料进行展示)
1) scna 与基因表达或者dna甲基化的关系
a) scna主要影响临近基因组区域的表达或者甲基化,且scna与表达多正相关,而与甲基化可以正相关也可以负相关。
b) 研究者注意到数据分析时,协变量的控制很关键(batch效应,肿瘤亚型和肿瘤纯度等)。
c) 基于scna与甲基化的相关性分析,发现16号染色体有个高度集中相关区域。可能因为这个区域ctcf基因的拷贝数变化。ctcf为重要的表观调控转录因子,因此这个区域的拷贝数和甲基化程度紧密相关(下图)
2) 基因表达和dna甲基化的关系
a) 肿瘤纯度严重影响了肿瘤样本中基因表达和dna甲基化的相关性(下图)
图:是否对肿瘤纯度进行质控的相关性差别,左图(未质控),右图(质控)
b) 低度甲基化(cold)和高度甲基化(hot)区域的分布,提示肿瘤甲基化研究中对cpg shore的关注需要重视(下图)
3) 探讨scna,甲基化和表达的相互关系
以多种模型探讨三者的关系,如下图,主要包括:因果关系,被动关系和条件独立关系。结果发现条件独立模型在所有癌种中的占比最高。
讨论
本研究的意义:
提示肿瘤组织的细胞组成对甲基化和基因表达相关性分析的重要性,本研究开发的模型适宜于此类分析中协变量的矫正;
提示dna甲基化与体细胞拷贝数变异可能正相关也可能是负相关;
首次探讨了体细胞拷贝数变异,甲基化,基因表达三者之间的调控关系,需要后续功能实验的进一步验证。