• 免费服务热线
  • 400-065-6886
  • 电话:86(0)512-6295 9990
  • 传真:86(0)512-6295 9995
新闻中心

新闻媒体-尊龙在线登录

发稿时间:2018-06-26来源:天昊生物


微卫星或简单重复序列(ssr)是基因组中信息非常丰富、用途也很广泛的一种遗传标记。然而传统的ssr分子标记开发常常是一项耗时费力及花费很大的工作。随着下一代高通量测序数据的快速积累,利用测序数据进行ssr分子标记挖掘便成了更加高效的方法。今年2月13日发表在molecules上的文章“mining and development of novel ssr markers using next generation sequencing (ngs) data in plants”就这一问题进行了系统的梳理。

 

 

一、ssr的重要性及其作为遗传标记的应用

ssr是一个串联重复序列的亚类,由在所有原核生物和真核生物的基因组中发现的长度为1-6个核苷酸(基序)组成。在单个基因型中,由于ssr基序的串联阵列改变,重复单元的数量可能不同。因此,随着重复单元的增加,基因型的多样性也相应增加。同样,基序长度也影响重复的数量。

有大量ssr基因座分布在整个基因组中,特别是在真核生物的常染色质中,以及在编码和非编码细胞核和细胞器dna中。由于微卫星信息丰富,突变率高,特异性强,种内多态性高,重复性好,易于数据化,多等位,跨分类群频繁出现特点,此外,ssrs的共显性特性允许直接测量杂合性,并且只需要少量dna用于数据收集,因此微卫星得到了广泛应用。值得注意的是,它们被广泛应用于不同的目的,例如(1)遗传多样性;(2)发现数量性状基因座(qtl);(3)基因与标记连锁图谱的构建;(4)标记辅助选择所需性状(mas);(5)法医学和亲子鉴定;(6)品种dna指纹图谱;(7)全基因组关联研究;(8)基因流估计;(9)标记辅助育种(mas);(10)单倍型测定;(11)杂种优势利用;(12)种质鉴定;(13)遗传诊断、转化体鉴定和细胞及组织鉴定。

ssr根据来源进行分类,主要分为基因组ssrs (g-ssrs)和表达序列标签ssrs (est-ssrs),(注:还有一些其他命名方法,比如来源于核dna的ncssr,叶绿体dna的cpssr和线粒体dna的mtssr等)。est-ssrs具有开发成本低、遗传多样性水平高以及向相关类群的转移能力强。相比之下,基因组ssrs由于引物结合位点的重复区域或简并性而具有较小的种间可转移性。尽管est-ssrs的一个主要不足是在同一位点产生多组标记的序列冗余,但是这个问题可以通过将est组装成单基因来解决。因此,est-ssrs标记已经开发并在许多植物物种中使用,例如水稻、小麦、大麦、高粱、番茄、咖啡、橡胶、蓖麻和芝麻等。

 

二、ssr开发方法

ssr的开发可以依赖基因组dna序列,也可以依赖由单链rna (cdna)合成的双链dna,这取决于项目目标、未来的研究方案以及研究人员管理输出数据的能力。使用dna直接测序更为直接,转录组测序(rna-seq )作为成功和有效的方法也可用于ssr挖掘,特别是用于没有参考基因组(从头组装)的植物(表1)。

 

表1、利用下一代测序技术开发的一些植物简单序列重复(ssr)标记列表

 

三、利用illumina平台进行的转录组开发ssr过程概述

转录组从头组装过程包括rna提取、cdna文库构建、测序、数据过滤和质量控制、从头组装、单基因注释、ssr搜索和引物设计以及标记验证(图1)。

图1、从头转录组测序和组装过程的示意图

 

1、从头组装

用于从头组装rna-seq reads的工具有多种,例如multiple-k、rnnotator、trans-abyss、velvet-oases和soapdenovo-trans。trinity是一种近来越来越流行的转录组从头组装工具,它为序列读取生成单独的de bruijn图。因此,每一个de bruijn图指示了某一基因或基因座的转录复杂性,该基因或基因座被单独处理以获得全长剪接亚型,并梳理从同源基因提取的转录物。另外,trinity先后应用了三个软件应用程序,即inchworm,chrysalis和butterfly来管理大量的reads。该过程简要描述如下:

inchworm:通过用最多的k-mers扩展序列,将reads组合成独特的转录本序列,然后只汇集不同剪接的转录本的特有部分。

chrysalis:将inchworm contigs按k-1重叠组成簇,为每个簇构建de bruijn图组件,代表具有共同序列的一个或多个给定基因的完整转录情况。接下来,在簇之间划分完整的read集合。

butterfly:并行独立解析拼接转录本,最终形成全长转录本。

trinity产生的转录本应用于tgicl ( tigr基因指数聚类工具)管线聚类的基因家族。此外,为了获得最终的单基因(如果有多个样品),tgicl将对每个样品的单基因再次计算,以获得最终的单基因(用于下游分析)。单基因将被分成包含多个相似度超过70 %的簇和单基因singletons(图2)。

图2、转录组从头组装过程示意图

 

2、单基因功能注释

使用的功能数据库包括ncbi的非冗余核苷酸序列数据库(nt)和非冗余蛋白质序列数据库(nr)。此外,还包括swiss-prot、pfam、kog、go和kegg等数据库。所有数据库都使用blast对齐组装的单基因,以获得每个单基因的注释功能。对于nr注释,可以使用blast2go或amigo获得单基因的基因本体注释。基因本体(go)是一项重要的生物信息学联合项目,旨在解决在分子、细胞和组织系统级别上跨数据库生物功能的描述。

3、ssr挖掘和鉴定工具

为了在单基因中进行ssr挖掘和鉴定,人们开发出多种生信工具,比如misa (microsatellitehttp://pgrc.ipk-gatersleben.de/misa/)和ssrlocator (http://www.microsatellite.org/ssr.php)。然而,这些工具无法有效地处理大基因组序列,统计数据也不够准确。基于全基因组微卫星开发的分析工具gmato结果更快、更精确,可以针对任何大小基因组完成ssr分析。最近,研究人员开发了一款新的软件包gmata,它通过映射和图形化的方式为快速ssr分析、标记开发和多态性筛选提供了新的策略和全面的尊龙z6官网的解决方案,并将结果显示在具有其他基因特征的基因组浏览器中。此外,该软件还提供了高质量的统计图表。gmata软件只使用侧翼序列作为设计pcr引物的模板,减少了计算内存,加快了大数据序列的设计过程。

4、dna分离、pcr扩增和ssr验证

为了验证ssrs,需要提取dna,合成目标ssr引物,通过pcr在不同植物品种或材料中进行扩增试验检测,最后选择成功的引物进行后续如遗传多样性研究等。

 

四、基于下一代数据中ssrs基因分型工具

最近,已经开发了许多软件工具来分析ngs数据中的ssrs,例如lobstr、repeatseq、strviper、str-fm、psr、rampseq和strscan。lobstr运行时间快,在基因分型阶段考虑pcr stutter噪声。然而,对于单核苷酸ssrs和短于25bp的ssrs,lobstr敏感性低。repeatseq工具是使用来自近交果蝇系误差分布图发布的。该工具利用其他程序绘制的读数,,并根据ssr基序、长度和碱基质量预测基因座最可能的基因型。然而,repeatseq的局限在于使用全部read作图法,这种方法在参考基因组中引入了对ssr长度的偏向,从而可能模糊真实的ssr变异谱。str-fm (使用基于侧翼短串联重复的映射方法)被开发为用于从短读取测序数据中检测ssr并对其进行基因分型的灵活管线。另一种利用成对末端信息从深度测序数据中检测ssr变异的方法是strviper。strviper预测了基因组群体中的多态性重复序列,并发现了几个多态性重复序列,除了lobstr使用自己的对齐工具之外,所有工具都需要预先对齐的数据。strviper的性能在很大程度上取决于碎片大小的差异。

上述所有工具主要用于从sam / bam数据中分析ssr,它们从ngs数据中识别每个位点的gssr等位基因。与上述工具不同,多态ssr检索工具(psr)是为了从ngs数据中识别多态ssr而开发的,其中在非模式植物物种中,它们使用从头转录组作为ssr挖掘的第一序列资源,从而更有效地挖掘。2016年人们开发出了rampseq重复扩增测序工具,适用于大多数物种的基因分型,使用低质量的dna并产生多个标记,从而便于以每份样品更低的成本进行全基因组测序。另一个软件工具strscan是为从基因组序列中生信挖掘ssrs而开发的,它比lobstr和str-fm具有更高的灵敏度。它在ngs数据中使用了一种特定的算法,对来自sanger测序仪和illumina测序仪的全基因组测序( wgs )数据进行有针对性的ssr分析。结果表明,strscan可以在较短的计算时间内将目标集中被lobstr遗漏的ssrs多达

关于天昊:

天昊生物具备完整的转录组(rna-seq)及全转录组检测服务产品线,同时拥有多种ssr检测平台及ssrseqtm等专利技术,可以针对客户具体项目需求,提供不同数量样本和ssr位点的高性价比ssr检测验证服务。

尊龙z6官网 copyright © 2012-2020 天昊基因科技(苏州)有限公司    all rights reserved   
网站地图