后基因组学

HGP即将完成,我们即将进入“后基因组学”(post-genomics)时代。基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,这种转向的一个标志是产生了功能基因组学(functional genomics)这一新学科。

释义

人类基因组图揭示了人类遗传的机密,而对生命活动起调节作用的是蛋白质。与基因组相比,蛋白质的结构和功能更精彩,人的生命活动和健康的维护,最终要靠蛋白质的解析得到解决,这就是即将兴起的后基因组学,或称蛋白质工程
基因组学实际上是为功能基因组学做准备,一旦功能基因组学进入实质性的发展阶段,人类将可以从中获得更大的利益。功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。在使用全局方法进行研究时,研究人员同时检测大量基因的表达水平,从而在整体水平上获得关于基因功能及基因之间相互作用的信息。如果说生物信息学在HGP中的着重点是基因组序列的话,那么在功能基因组中,生物信息学的着重点则是序列的生物学意义,基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。在功能基因组时代,应用生物信息学方法,高通量地注释基因组所有编码产物的生物学功能是一个重要的特征。功能基因组学的研究主要包括以下几个方面的内容,并且这几方面都与生物信息学密切相关。(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图;(4)比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。


与生物信息学相关的研究

1、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热点和重点。目前对基因表达数据的处理主要是进行聚类分析,将表达规律相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。所用方法有相关分析方法,模式识别技术中的层次式聚类方法,人工智能中的自组织映射神经网络。此外还有主元分析方法,利用主元分析可以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特征。进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明一些基因对另一些基因的调节作用。利用聚类分析的结果可以研究基因的启动子,分析表达模式相同的一类基因的启动子组成特性,通过多重序列比对操作,在各个基因序列的上游区域寻找共同的启动子。虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。
最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。
2、蛋白质结构预测
蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生命活动无不与蛋白质有关。蛋白质的生物功能由蛋白质的结构所决定,因此在研究蛋白质时需要了解蛋白质的空间结构。目前蛋白质序列数据库中大约有24万个蛋白质的序列数据,但在结构数据库PDB中,仅有7500个蛋白质的空间结构数据。虽然蛋白质结构测定方法有所改进,但仍不能满足实际的需要。核酸酶变性及重折叠实验,为从蛋白质的氨基酸序列预测蛋白质的三维空间结构提供了实验基础。直接从蛋白质序列预测蛋白质结构对研究蛋白质结构与功能关系十分有用,这也将促进蛋白质工程和蛋白质设计的发展。从原理上讲,蛋白质序列隐含了蛋白质折叠后的空间结构,理论上可以从氨基酸序列计算出自然折叠的蛋白质结构。但是由于蛋白质多肽链可能的构象是个天文数字,现有的计算能力不可能搜索整个构象空间,需采用一定的启发式方法寻找自由能最优或接近于最优的构象。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。在二级结构预测方面主要有以下几种不同的方法,即立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。
在空间结构预测方面,比较成功的理论方法是同源模型法。该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构。这样,如果一个未知结构的蛋白质序列与另一个已知结构的蛋白质序列足够相似,那么就可以根据后者为前者建立近似的三维结构模型。运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作。得到蛋白质结构以后就可以进一步分析研究蛋白质的生物功能。