去年十月,nucleic acids research刊登了一篇ssrome数据库的文章,发布了一个整合了所有物种ssr在线数据资源的专业ssr数据库(“终于等到你!“ssrome”,所有物种ssr标记开发整合数据库发布”)。今年十月,nucleic acids research又带来一个最新的ssr数据库—msdb,微卫星综合注释数据库,涉及的物种增加到了37262种,增加了近7倍,可谓ssrome的“加强版”!
发表时间:2019-10-10 影响因子:11.147
msdb网址:https://data.ccmb.res.in/msdb/
网站尊龙z6尊龙z6官网首页节选
微卫星数据库(microsatellite database,msdb)是简单序列重复序列的集合。微卫星是存在于所有基因组中的1-6个碱基基序的短串联重复序列。人们研究它们作为分子标记和法医学的用途,最近研究它们的基因调节功能。此外,许多研究指出它们在进化中的作用,因为它们在物种内和物种间的多态性比率很高。msdb的目标是成为获取和可视化ssr相关信息的直接资源。
msdb来自37680个基因组的40亿多个微卫星的集合,呈现在一个用户友好的门户网站上,便于进行交互式分析和可视化。这是迄今为止访问和分析多物种微卫星数据的最全面、带注释、最新的数据库。msdb的特性使用户能够以可过滤和导出的表格的形式浏览数据,也可以以交互式图表的形式同时查看和比较多个物种的数据。它的模块化和架构允许新数据的无缝更新,特别是在它们的进化和基因组组织和基因调控新作用的背景下,会使它成为研究微卫星的强大工具和有用资源,
表1、msdb与现有微卫星数据库的比较,基于(a)可获得数据的物种数量,(b)数据库的特征和功能
msdb搭建方法
msdb中所有基因组数据都是从ncbi的refseq和genbank,以及ucsc中获得的。序列信息以fasta格式下载,基因注释以gff/gtf格式下载。如果相同装配水平的多个基因组可用,则选择最近发布的版本。除了序列之外,还记录了该物种的其他信息,如系统发育分类。
在重复的识别方面,使用perf鉴定来自基因组序列的微卫星。perf根据基序序列的周期性变化,将5356个1-6nt长的dna基序的可能排列分为501个独特的微卫星类别。所有基序最小长度截止值为12 nt。perf的输出是一个tsv文件,它遵循bed格式规范来描述所识别的微型卫星的位置和其他信息。除了fasta输入之外,还向perf提供基因注释,根据这些注释确定每个微卫星的最近基因以及到最近tss(转录起始位点)的距离。此外,微卫星被分为外显子、内含子或基因间重复。
数据库设计方面,msdb的后端由mysql支持,使用基于python的django框架作为中间件进行查询和访问。重新设计的数据库由两个表组成;基因组表将所有关于可用基因组的信息存储在数据库中,所有微卫星信息存储在单个大重复表中。这提高了整个网络界面的速度和响应性,并最小化了服务器上的计算量。
msdb的web界面方面,其前端是一个单页应用程序,它是使用虚拟环境接口和元素界面构建的。网站的整个状态存储在一个javascript对象中,该对象在网站的选项卡中有效。这可以确保网页记住用户选择和其他设置,直到网站重新加载。微卫星的基本信息是预先计算的,并存储在特定物种的json文件中。
数据库概述和功能
msdb是一个4330912429个长度≥12 nt的完整ssr的集合,来自37680个基因组,分属37 262种。msdb的网络应用程序是为跨基因组交互式探索和分析ssr而设计的。尊龙z6官网主页提供了关于msdb的一般信息,并提供了访问常用物种表格和微卫星数据的快速链接。如下所述,msdb的其他功能可通过网站的各种选项卡访问。msdb的尊龙z6官网主页将所选物种的微卫星信息总结为交互式表格和图表(图1)。默认情况下,该页面显示了homo sapiens微卫星信息。
图1、浏览显示人类微卫星信息的msdb网页
物种选择:可以通过左侧的物种选择面板添加或更改物种(图1,左侧)。用户可以通过搜索栏按他们的学名或通用名搜索物种,也可以通过物种表过滤感兴趣的物种。
模态视图:大多数在标题中有一个按钮(图1,红色箭头),用于切换msdb的模态视图,这让用户可以用有用的方式自定义图。通过该模式,用户可以获得msdb最独特的特征之一--微卫星数据的多物种特性比较。该模式还提供了基于物种基因组大小标准化数据的选项,以便于不同大小基因组之间的数据比较。
表格视图:点击“探索重复”按钮(图1,黑色箭头)打开一个新窗口,所选物种的微卫星数据显示为表格。页面顶部的过滤面板允许用户过滤显示的各种属性的数据,如基因组位置、微卫星基序(重复类)或长度、与特定基因的接近度、基因组上下文或与转录起始位点的距离。可以通过单击列标题对表进行排序,并可以使用“导出表”按钮将其导出为tsv文件。通过复选框选择感兴趣的重复序列,并点击表格上方的“获取序列”按钮,可以获得微卫星的侧翼序列。这将启动一个新窗口,显示所有选定微卫星的序列,默认侧翼大小为两侧100 bp。侧翼大小是可定制的,序列格式可以在表格格式和fasta格式之间切换。
数据下载:msdb提供了一个专门的下载页面来快速检索所需基因组的微卫星数据。下载页面以类似于浏览页面物种表的布局显示基因组列表。对于每个基因组,提供了三个链接--启动基因组的表格视图,将整个数据作为tsv文件下载,或者作为gzip压缩的tsv文件下载。
帮助页面:msdb的帮助页面包含一个广泛的手册,帮助新用户理解网站的功能和布局。带注释的截图指导用户浏览网站。页面的各个部分详细描述了msdb的每个图表,并提供了数据是如何获得或处理的信息。
关于天昊:
天昊生物长期从事基因及遗传分析,可以提供包括ssr检测在内的多项基因检测服务。天昊生物自主研发的基于二代测序技术的ssr检测新方法--ssrseqtm,这种方法几乎克服了现存所有电泳检测方法的不足,尤其适合对多ssr位点、超高深度的分型,准确度高,并且分辨率达到单碱基的水平。因此适合所有二倍体人类、动植物、真核微生物,以及多倍体物种的ssr基因型分析。欢迎联系尊龙z6官网具体咨询!邮箱:techsupport@geneskies.com 电话:400-065-6886