论文部分内容阅读
随着生物领域的研究进入后基因时代,科学领域设备的日渐完善,21世纪的生命科学领域研究开始进入以高通量生物数据为研究对象的组学时代(蛋白质组学、基因组学、代谢组学等就是其中典型代表)。蛋白质组学研究各种生物样本中大规模水平下蛋白质的特性表达情况,可以服务于对疾病特异性蛋白质的查找,在患者出现发病症状之前就采取相应的干预治疗手段。在大数据时代,蛋白质组学数据无疑成为了理解生命“整体”的重要组成部分。蛋白质组学实验室产生数据量的规模增加了几个数量级,海量的蛋白质组实验数据给生物和医学科学领域的研究中给科研人员带来了巨大的推动力。但是,在蛋白质组数据库中仍有许多信息和知识没有得到关注或者没有被发现其中的关联,从而有待科研人员对它们进行挖掘。所以如何在海量的蛋白质组数据中准确、快速的查找相关联的蛋白质组实验数据成为了当前面临的热门研究课题之一。本文针对现阶段蛋白质组元数据的结构特征及内容信息。借鉴互联网、文本知识挖掘中常用的TF-IDF算法,对蛋白质组实验数据的相似性问题做了如下研究:1.本文首先阐述了蛋白质组学的基本概念及蛋白质组学的发展概况,在如今的大数据环境下,蛋白质组学实验数据也在不断的扩增。对于蛋白质组学研究人员来说,蛋白质组学实验数据如果能够像其他领域的推荐系统那样,给予研究人员一些近似的实验数据推荐,会大大增加科员人员的研究效率,同时帮助他们发现新的知识。根据这一需求,本文对蛋白质组元数据的内容信息作了进一步的分析和研究。2.提出了一种结合生物医学同义词和TF-IDF方法的文本相似度计算方法。基于Bioportal的生物医学本体查询、生物医学同义词等功能,构建一个本地生物医学同义词库,结合TF-IDF方法计算文本的相似性。该方法有效利用了专业领域的同义词信息,从文本描述角度计算蛋白质组实验数据间的相似性。3.提出了一种基于分子证据的蛋白质组学相似性算法。针对蛋白质组数据的特征及其意义,在计算两个蛋白质组实验数据的相似度时,将该蛋白质组中包含的蛋白质转化为特征项,通过将特征项映射为特征向量的方式,把对蛋白质组的处理转化为对空间向量进行向量运算。最后分别从文本描述信息的角度和生物学意义实验数据的角度去计算蛋白质组实验数据的相似性,根据实验得出对比数据可知基于分子证据的蛋白质组学相似性算法能够更为真实的计算出蛋白质组实验数据的相似性。