论文部分内容阅读
近年来,随着社交网络和移动互联网的兴起,数据正在以前所未有的速度被创造出来,大数据受到了越来越多的关注。海量的数据中蕴含着大量有价值的信息,但是要从中找到用户所需要的信息是一件很困难的事情。搜索引擎在很大程度上可以解决这个问题。然而,搜索引擎只是根据用户提交的查询在海量的数据中进行相似度匹配,将查询结果返回给用户,由用户来选择,而并不是对用户提交的查询给出明确的答案。 深度搜索技术是知识计算与搜索引擎的结合,通过对海量数据进行潜在语义分析、主题挖掘等处理和对用户的查询意图进行深度的分析和理解,为用户提供精确的答案。深度搜索的第一步就是要从海量信息中收集数据并加以整合,本文所要研究的内容就是面向深度搜索技术的海量数据汇聚与整合。主要的任务是从多数据源获取和存储数据,并对多信息源的返回结果加以分析和融合。 本文的主要工作如下: 第一,介绍了数据汇聚与整合系统的总体设计,按照系统的功能需求,给出了系统相关的模块设计。 第二,针对系统的需求,提出了基于主题相似性的搜索调度算法和基于位置排名的排序算法来解决信息源的调度问题和多信息源结果融合问题。 第三,介绍了系统具体实现时所需要的关键技术,并对系统做了相关的测试。