蛋白质组学数据的相似性计算方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:boyskys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物领域的研究进入后基因时代,科学领域设备的日渐完善,21世纪的生命科学领域研究开始进入以高通量生物数据为研究对象的组学时代(蛋白质组学、基因组学、代谢组学等就是其中典型代表)。蛋白质组学研究各种生物样本中大规模水平下蛋白质的特性表达情况,可以服务于对疾病特异性蛋白质的查找,在患者出现发病症状之前就采取相应的干预治疗手段。在大数据时代,蛋白质组学数据无疑成为了理解生命“整体”的重要组成部分。蛋白质组学实验室产生数据量的规模增加了几个数量级,海量的蛋白质组实验数据给生物和医学科学领域的研究中给科研人员带来了巨大的推动力。但是,在蛋白质组数据库中仍有许多信息和知识没有得到关注或者没有被发现其中的关联,从而有待科研人员对它们进行挖掘。所以如何在海量的蛋白质组数据中准确、快速的查找相关联的蛋白质组实验数据成为了当前面临的热门研究课题之一。本文针对现阶段蛋白质组元数据的结构特征及内容信息。借鉴互联网、文本知识挖掘中常用的TF-IDF算法,对蛋白质组实验数据的相似性问题做了如下研究:1.本文首先阐述了蛋白质组学的基本概念及蛋白质组学的发展概况,在如今的大数据环境下,蛋白质组学实验数据也在不断的扩增。对于蛋白质组学研究人员来说,蛋白质组学实验数据如果能够像其他领域的推荐系统那样,给予研究人员一些近似的实验数据推荐,会大大增加科员人员的研究效率,同时帮助他们发现新的知识。根据这一需求,本文对蛋白质组元数据的内容信息作了进一步的分析和研究。2.提出了一种结合生物医学同义词和TF-IDF方法的文本相似度计算方法。基于Bioportal的生物医学本体查询、生物医学同义词等功能,构建一个本地生物医学同义词库,结合TF-IDF方法计算文本的相似性。该方法有效利用了专业领域的同义词信息,从文本描述角度计算蛋白质组实验数据间的相似性。3.提出了一种基于分子证据的蛋白质组学相似性算法。针对蛋白质组数据的特征及其意义,在计算两个蛋白质组实验数据的相似度时,将该蛋白质组中包含的蛋白质转化为特征项,通过将特征项映射为特征向量的方式,把对蛋白质组的处理转化为对空间向量进行向量运算。最后分别从文本描述信息的角度和生物学意义实验数据的角度去计算蛋白质组实验数据的相似性,根据实验得出对比数据可知基于分子证据的蛋白质组学相似性算法能够更为真实的计算出蛋白质组实验数据的相似性。
其他文献
随着经济全球化趋势的不断发展,航空运输业这样的快速便捷运输方式在经济发展中发挥作用越来越重要。美国北卡罗来纳大学教授卡萨达在其“第五波理论”中指出,继海运、运河、铁路、高速之后,航空运输将成为第五个冲击波,成为21世纪全球经济发展的新驱动力。机场已由传统意义上单一的航空运输枢纽逐渐演变为全球生产与消费活动的重要节点,与航空运输业直接或间接相关的产业开始在机场周边一定范围内聚集,并逐渐发展成为一个现
准噶尔盆地滴南凸起滴西地区具有优越的石油地质条件,白垩系是该地区最重要的油气富集层位之一。结合前人研究成果,通过油气源对比、典型油气藏解剖、输导体系研究等,深入分
本文件是一个商业计划,其目的是解决在秘鲁市场引进两种类似产品的可行性。第一种产品是可生物降解的一次性毛巾。第二种是可生物降解的食品包装。我们正在利用通过提供“绿
锂离子电池具有高能量密度和长使用寿命,已经在电子产品、电动汽车(EV)和混合动力汽车(HEV)等方面展现了广阔的应用前景。目前正极材料如层状LiCoO2、LiNiO2、LiNi1/3Co1/3Mn1/3O
青年男排是我国男排梯队建设的重要组成部分。广东青年男排这支朝气蓬勃的球队将在2017年参加第13届全运会男子排球项目21岁以下组的比赛。广东青年男排队员年轻且缺乏经验,
目的:明确Cdk5介导的Drp1磷酸化对线粒体形态的调控机制,及其对神经细胞功能的影响。方法:本实验选用原代神经细胞,利用Aβ1-42处理神经细胞导致细胞损伤来模拟阿尔茨海默症(A
本课题是国际合作项目(项目编号.0S2013ZR0493)“无人值守工作面液压支架电液控制系统的研制”的关键部分。本课题是针对目前国产液压支架主控装置稳定性差,技术不成熟等实际
石油套管是石油、天然气生产开发过程中必不可少的三大管柱之一,套管的主要作用是封隔地层和加固井壁。塔里木油田地质条件复杂,油、气井多属于深井超深井,存在蠕变地层。为
准噶尔盆地吉木萨尔凹陷二叠系芦草沟组形成于火山活动强烈的陆内裂谷型断陷湖盆之中,火山活动提供的凝灰物质参与了沉积成岩过程。特殊的沉积环境导致芦草沟组形成了一套特
天然磷酸酯模拟物的研究在开发酶抑制剂以及阐述生物体内分子间相互作用过程方面一直备受人们关注。尽管运用生物电子等排原理得到的α,α-二氟亚甲基膦酸酯在开链磷酸酯模拟