基于生物网络的多关键字关联搜索算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:solar_cbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医疗大数据的不断增长,用户对生物医疗大数据的搜索需求也随着具体生物问题的不同而蕴含着特定的语义需求。传统的搜索引擎如Google、百度等通用搜索引擎并不能够有效地利用生物语义关联关系,搜索出符合用户需求的生物医疗数据资源、信息,从而提供高效的生物医疗大数据搜索。国家863项目“生物大数据表述索引、搜索与存储访问关键技术研发”针对这个问题提出了解决方案。该项目目的是对整合的跨多数据源生物医疗大数据利用生物语义关联关系做生物医疗关联搜索引擎,而对于生物医疗大数据关联搜索引擎的构建,基于生物网络的多关键字关联搜索的算法研究是其中不可或缺的重要部分。近年来,基于图上的关键字子图查询匹配、基于图上关键字搜索问题都有相应的算法研究。但是若是把这些算法直接应用到生物网络中,便会存在着一定的不适性,使得查询结果在某种程度上缺乏生物语义信息和隐含结构信息。而且当网络规模和查询关键字集合达到一定程度的时候,算法的时间效率上会出现瓶颈。本课题为了解决这些问题,设计了一种层次斯坦纳树算法,并开展了实验。本课题针对基于生物网络的多关键字关联搜索问题提出层次斯坦纳树算法在生物网络中找到多关键字关联搜索的最优子网络,从而在帮助用户找到查询的关键字同时,帮助用户发现他可能感兴趣的相关知识。通过研究斯坦纳树问题及斯坦纳树问题在生物信息学中的应用,将生物网络上多关键字关联搜索问题建模到斯坦纳树问题上。考虑到斯坦纳树问题是NP-难解问题,我们在应用斯坦纳树来解决该问题的时候,选择了利用层次聚类算法来对生物网络进聚类预处理,以达到在进行多关键字关联搜索的时候,控制生物网络规模的同时可以控制斯坦纳树算法运行的终端节点的规模,以此来解决斯坦纳树算法的时间效率问题。图上斯坦纳树算法没有考虑网络中节点重要性,通过设计加入网络节点重要性计算,来突出生物网络中相关中心点。本课题算法主要由生物网络层次聚类预处理、层次聚类树状图分割、层次超图构建、节点重要性计算、Dijkstra’s-Steiner算法、层次斯坦纳树算法设计这六个部分组成。实验结果证明,在维持与Dijkstra’s-Steiner斯坦纳树算法找出的子网中间有效信息量差距不大的情况下,突出了生物网络中相关中心点,并且在时间效率上有了很大的提高。
其他文献
网络的快速发展,使得人们对软件应用的处理效果和性能要求越来越高。P2P下载技术被广泛应用到各类流行下载软件中。作为P2P技术中重要技术之一的DHT技术,其改进和优化越来越
近年来,音频处理技术的飞速发展和因特网的迅速普及使得数字音频作品的获取、编辑和发布变得十分容易。音频作品的知识产权保护已成为一个急待解决的问题。数字音频水印技术
随着IT技术的迅猛发展,市场分工精细化、服务专业化促使传统服务业悄然发生变革。面对互联网中越来越多的服务资源提供方和不断增长的需求客户群体,哈尔滨工业大学企业与服务
人脸检测与跟踪技术是人脸识别,视频检索,虚拟游戏和图形控制的一项关键技术,对进一步推动人脸识别技术的发展具有重要的意义,已成为计算机视觉研究的一个热点。本文利用图像
计算机技术、通信技术和传感器技术的发展,极大的推动了无线传感器网络的快速发展。成本低、部署方便、感知能力强、自组织等特性,使得无线传感器网络在军事、环境、医疗科学
相似检索有着广泛的应用,特别是在知识产权保护和信息检索领域。而本文着重介绍了相似检索在抄袭检测这一领域的应用。   学生作业抄袭检测的应用场景下,相似检索系统须具备
文本蕴涵的概念起源于逻辑学,同时是语言学,特别是语义研究中的重要课题。近几年,随着人工智能研究的进步,特别是计算机领域中自然语言处理领域的进步,使得文本蕴涵成为计算
本文首先全面概述了隐私保护的相关技术及应用领域,系统分析了目前国内外一些研究机构所取得的进展。针对目前隐私保护挖掘算法所存在的缺陷,例如数据保护程度不高,事务数据
现在的数字图书馆不能为用户提供有效的个性化服务,为了向用户提供更加优质的因人而异的一对一服务,个性化推荐技术便应运而生,成为数字图书馆领域重要的研究内容并得到研究
组播是下一代Internet应用的重要支撑技术,而组播的安全性是成功进行组通信所必需解决的重要课题之一。目前,人们已提出多种密钥管理方案,并采用不同的组密钥更新方案来处理