什么是生物信息学中的二级数据库?

来源:百度知道 编辑:UC知道 时间:2024/06/24 09:11:26
如题,还希望能够说清楚点具体的定义是什么,急!!

根据需要从一级数据库中搜集对象的相关数据集合而成的就是二级数据库。

像genebank,EMBL这种都是不加选择的一级数据库,只要是实验获得的,不管什么东西的序列,哪怕是不完整的序列都能上传,而且它们的数据也有可能有重复。如果有某个人专门研究细菌的鉴定,需要用到正式被认可的16srDNA序列,为了研究方便,把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理,重新构建了一个数据库,这就是所谓的二级数据库。如果不构建,直接用一级数据库做blast,就会得出很多未被承认甚至不完整的序列,还要人工一个个看过去,找出公认的标准序列,这样就很麻烦。我举得例子在现实中就是韩国的EzTaxon。

一、生物信息学数据库的种类

分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类:

基因组数据库

核酸和蛋白质一级结构数据库

生物大分子(主要是蛋白质)三维空间结构数据库

由上述3类数据库和文献资料为基础构建的二级数据库

一级数据库(一次数据库) :基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。

二级数据库(二次数据库) :是在一级数据库、实验数据、理论分析的基础上,衍生整理而得。它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库。
一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。

序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释