个性化Web商务信息融合关键技术研究

被引量 : 0次 | 上传用户:TDM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,人们在使用互联网技术时不再仅仅满足于信息检索功能,而是需要系统从这些检索到的信息中抽取出用户感兴趣的信息。信息融合是帮助用户进行信息检索、信息抽取的系统,成为最近WEB数据处理领域的研究内容,具有广泛的应用前景。WEB信息融合过程中关键的技术主要有信息抓取、信息抽取、信息清洗融合、信息检索和存储等,论文结合课题组所承担的科技重大专项,聚焦信息抽取和信息清洗融合两项关键技术进行研究。论文首先介绍个性化行业商务信息推送服务项目信息融合模块的研究及课题背景,分析信息融合项目中信息抽取与数据清洗两项关键技术上存在的问题,主要表现在匹配准确性低、抽取效率不高以及数据质量低等,并介绍了论文的主要工作和章节安排。论文第二部分介绍了在信息融合项目中涉及的关键技术、模型、技术标准等。个性化行业商务信息融合项目是处理WEB海量数据,在系统实现时引入了分布式处理框架Hadoop实现数据的分布式处理,论文着重介绍了分布式框架Hadoop的相关情况。最后详细介绍了信息抽取及数据清洗技术的国内外研究现状。论文第三部分针对现有的Anchor-Hop模型基于内容和属性定位导致匹配效率低、匹配准确性较差等问题,在Anchor-Hop模型的基础上提出了基于DOM的动态Anchor-Hop模型,实验中抽取效率比Anchor-Hop模型快30%,抽取的准确性也高于Anchor-Hop模型。在数据清洗问题上,首先分析了数据校验的现有研究,确定信息融合系统使用的数据校验方法,提出基于数据校验结果对抽取系统可靠性进行反馈的思想。其次着重分析数据去重的SNM算法和基于编辑距离的字段匹配算法,在这两个算法的基础提出了改进算法SSNM。SSNM算法先对记录的关键词进行分词,接着对分词后得到的词组进行排序并组成新字符串,根据新字符串对记录进行排序,运用SNM算法进行重复记录检测。当计算记录间相似度时,通过新字符串计算编辑距离,实验结果显示SSNM算法在召回率上优于SNM算法。最后详细描述了基于Hadoop的分布式SSNM算法的设计和实现。论文最后详细介绍了信息融合系统的总体框架、各个子模块的功能和体系结构、各个子模块实现的关键技术等。
其他文献
OTG协议是USB2.0的补充协议,可应用于嵌入式设备,使之兼备USB主机和设备双重功能。增强其便携性,拓宽应用范围。实现OTG功能关键之一在于实现OTG接口控制芯片,配合驱动程序构
目的:观察黄芪建中汤含药血清联合顺铂对肺癌A549细胞中Smad3、Smad7蛋白表达的影响。方法:应用MTT法分别计算5%高、中、低剂量和10%高、中、低剂量黄芪建中汤含药血清作用于
有源电力滤波器作为一种理想的抑制谐波和改善功率因数的装置,能够对非线性负载电流中的谐波、无功、负序以及零序电流进行动态补偿,弥补了无源滤波器的不足,因而受到广泛关
无铅化和微型化是电子封装的两大发展趋势。在微型化的驱动下,传统球栅阵列封装技术(BGA:Ball Grid Array)中互连焊点的节距、焊盘尺寸以及焊点体积都将大大降低。焊点几何特
高层管理团队(Top Management Team,简称TMT)是企业中主要承担战略决策职责的高层管理者所组成的团队,是决定企业发展和影响企业绩效的核心群体。高层管理团队通过战略决策过
随着科学技术的巨大发展,人们对信息的需求与日俱增。图像作为信息传递的重要载体,在航空、军事、生物医学、天文气象、地理、工业以及农业等人类生活各个方面广泛应用,它在
为了解土地储备中心风险状况,科学监管土地储备融资,运用改进熵值法综合评价模型从市场风险、财务风险、信用风险、政策法律风险4个方面对江北区进行实证分析,研究结果表明:1
<正>朗格汉斯细胞组织增多症(Langerhans cell histiocytosis,LCH)是一组病因不明、临床罕见的淋巴造血系统的肿瘤,以组织细胞增殖为主的一系列临床病理学疾病。LCH总体发病情
镍是重要的战略储备金属之一,被广泛用于冶金、化工、建筑、石油、机械、仪器仪表、轻工业等行业。随着电镀、石油化工、精密合金等行业技术进步,对电镍的纯度质量要求逐年提
口语交际是人们沟通的基本手段之一,中小学阶段是学生学习语言的黄金时期,通过经典诵读给学生充分表达和交流的机会,可以使学生口语交际能力逐步得到锻炼、提高与发展。