【摘 要】
:
蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要
论文部分内容阅读
蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要的意义,因此生物医学专家试图以手工收集信息的方法从文献中识别PPI信息,然后以统一的格式保存于关系数据库中。然而,随着生物医学文献大量地增加,以手工收集信息的方式已经难以满足实际需求。因此,研究如何从文献中识别PPI信息是一项亟待解决问题。目前常用的基于机器学习的方法大多是以单个句子为研究对象,这种方法依赖人工标注,且忽略了蛋白质交互的上下文信息。为了避免出现这些问题,本文以大规模语料库为研究依据,根据蛋白质丰富的上下文信息进行PPI识别。本文从文本数据库中收集了蛋白质对的上下文信息,从以下三个方面进行了研究。第一,研究上下文特征,从词性和单词相似性这两个角度对向量进行加权。得到的结果与不进行加权的结果相比,有交互蛋白质对F值提升了2.51%,无交互蛋白质对F值提升了1.85%。第二,根据蛋白质对关系描述文本之间的相似性,从关系相似性角度构建分类器进行PPI识别,重点比较了四种权重计算方法。第三,为了将上下文特征与文本之间的相似性这两种类型的信息进行有效地结合,采用了Minimum Cuts算法,利用上下文之间的相似性约束判断。在实验中,我们选择了不同比例的训练数据构建分类器。实验结果表明,当训练数据为80%时,与只有上下文特征信息的SVM的结果相比,识别结果有了3%-4%的提升。并且,Minimum Cuts以20%的训练数据得到了SVM以80%训练数据得到的识别结果。
其他文献
科学计算可视化、计算机动画和虚拟现实已经成为计算机图形学的三大热门话题,这三大话题的技术核心均为三维图形。学术界和产业界普遍认为,纹理映射是解决真实地显示现实世界
随着近年来互联网与电影业的发展,音视频等多媒体文件急剧增多,有些音视频文件往往包含大量的暴力元素。由于音频在处理速度上比视频快得多,基于音频的暴力场景识别受到越来
随着问题复杂度和问题规模的增加,为了能够及时高效地获得对问题的求解,人们将问题的求解诉诸于并行计算,使得并行计算获得飞速发展。因此,为了扩大粒子群算法的应用领域,将其并行
随着网络、通信和计算机系统的大规模应用和发展,作为其核心的机房的安全问题变得越来越重要。机房安全涉及不同厂商的多种动力、环境设备,没有统一的监测报警平台为机房安全
由于传统观念的影响对于软件系统性能的管理,总是采用“以后修正”方法即在软件系统设计实现完成以后再对软件系统进行测试评价,发现问题从软件设计开始修改,有时候甚至需要
随着经济社会飞速发展,嵌入式软件需求越来越大,人们对嵌入式软件的功能要求也越来越高,再加上行业之间竞争不断加剧,以及新技术的不断涌现,这使得传统以编程语言为中心的嵌
近年来,随着计算机辅助分析在工程领域的发展,利用计算机实现大坝安全监测信息的智能管理和数据分析处理是大坝安全监测系统的发展趋势。与之相关联的传感器技术、网络通信、
由于医学图像背景复杂、信噪比低和无统一的衡量标准等问题导致医学图像分割问题一直是一个难点。如何选取一种分类准确性高且时间开销小的算法分割医学图像是一个值得思考的
Marco Dorigo等学者提出了模拟蚂蚁群体智能行为的蚁群算法。它是神经网络、遗传算法等之后的又一种对解决组合优化问题、指派问题、调度问题都取得良好效果的优化算法。仿真
随着农业数据库的普及和应用领域在不断扩大,建立一系列功能完善、结构体系完整的农业数据库对实现资源的高度共享、促进生产和流通的有序进行,加快成果的研究和转化步伐、创造