论文部分内容阅读
随着互联网技术的不断发展,人们在使用互联网技术时不再仅仅满足于信息检索功能,而是需要系统从这些检索到的信息中抽取出用户感兴趣的信息。信息融合是帮助用户进行信息检索、信息抽取的系统,成为最近WEB数据处理领域的研究内容,具有广泛的应用前景。WEB信息融合过程中关键的技术主要有信息抓取、信息抽取、信息清洗融合、信息检索和存储等,论文结合课题组所承担的科技重大专项,聚焦信息抽取和信息清洗融合两项关键技术进行研究。论文首先介绍个性化行业商务信息推送服务项目信息融合模块的研究及课题背景,分析信息融合项目中信息抽取与数据清洗两项关键技术上存在的问题,主要表现在匹配准确性低、抽取效率不高以及数据质量低等,并介绍了论文的主要工作和章节安排。论文第二部分介绍了在信息融合项目中涉及的关键技术、模型、技术标准等。个性化行业商务信息融合项目是处理WEB海量数据,在系统实现时引入了分布式处理框架Hadoop实现数据的分布式处理,论文着重介绍了分布式框架Hadoop的相关情况。最后详细介绍了信息抽取及数据清洗技术的国内外研究现状。论文第三部分针对现有的Anchor-Hop模型基于内容和属性定位导致匹配效率低、匹配准确性较差等问题,在Anchor-Hop模型的基础上提出了基于DOM的动态Anchor-Hop模型,实验中抽取效率比Anchor-Hop模型快30%,抽取的准确性也高于Anchor-Hop模型。在数据清洗问题上,首先分析了数据校验的现有研究,确定信息融合系统使用的数据校验方法,提出基于数据校验结果对抽取系统可靠性进行反馈的思想。其次着重分析数据去重的SNM算法和基于编辑距离的字段匹配算法,在这两个算法的基础提出了改进算法SSNM。SSNM算法先对记录的关键词进行分词,接着对分词后得到的词组进行排序并组成新字符串,根据新字符串对记录进行排序,运用SNM算法进行重复记录检测。当计算记录间相似度时,通过新字符串计算编辑距离,实验结果显示SSNM算法在召回率上优于SNM算法。最后详细描述了基于Hadoop的分布式SSNM算法的设计和实现。论文最后详细介绍了信息融合系统的总体框架、各个子模块的功能和体系结构、各个子模块实现的关键技术等。