基于标签路径特征系的Web新闻内容抽取方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:luyufan221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的发展、移动设备的普及以及微博、微信等应用的兴起促进了网民对Web新闻的接触度,碎片化时间阅读Web新闻已经成为了Web用户的主要活动之一。然而,Web新闻网页中除了主要内容外,还包含着大量与网页主题无关的“噪音”信息。这些噪音信息增大了Web新闻聚合、Web信息检索等应用的计算量和存储量,降低了Web服务的质量,同时也影响了手机等移动终端设备浏览网页的体验效果。因此,Web新闻内容抽取具有重要的研究意义和应用价值。为了解决面向开放式环境下的Web新闻内容的精确抽取问题,观察和分析了大量的Web新闻网页实例,发现Web新闻网页的内容分布与其对应的解析树中标签路径有着潜在的关联。基于以上发现,本文探索了基于标签路径特征的Web新闻内容抽取问题,并开展了以下研究:(1)根据Web新闻网页的内容分布与标签路径之间的潜在联系和Web新闻网页内容的文本信息,设计一种文本标签路径特征:文本标签路径比特征。通过深入分析文本标签路径比特征的不足和新闻内容的文本特征,对文本标签路径比特征进行了扩展;设计一种基于标签路径编辑距离的高斯平滑方法,有效地解决新闻内容中内链等短文本的精确抽取问题。在CleanEval等数据集上的抽取结果验证了CEPR方法是一种无监督的、通用的、高效的Web新闻内容抽取方法。(2)为提高标签路径特征的多样性,从不同的角度观察和分析新闻内容与标签路径特征之间的联系,设计了一个标签路径特征系,并分析和验证了每个标签路径特征的优缺点;为了将多个标签路径特征有机的融合为一个最终的决策特征,设计了一个基于DS证据理论的标签路径特征融合方法。大量真实Web网页数据集上的实验结果表明基于融合特征的Web新闻内容抽取方法CEPC的抽取性能优于基于任一标签路径特征的抽取性能,且其平均抽取性能优于CEPR方法。(3)为解决在抽取某一特定Web新闻网页时,标签路径特征系中存在的特征冗余问题,研究了一种基于Pearson相关系数的特征相关性度量方法,并根据该方法设计了一种组合特征选择策略。验结果表明:基于组合特征选择的Web新闻内容抽取方法CEPF的平均抽取性能可达到92.75%,优于CEPC、CEPR等其它抽取算法。(4)设计并实现了一个基于标签路径特征系的Web新闻内容抽取系统,系统集成了以上的抽取方法,介绍了系统的组成、实现以及系统的用户界面。
其他文献
嵌入式系统开发是当今计算机工业的热点,嵌入式系统在各个领域得到越来越广泛的应用。嵌入式系统开发与通用计算机系统开发相比,具有明显不同的特点。嵌入式系统开发面临着目标
大规模网络存储系统具有时间和空间的复杂性、存储事件的离散性、拓扑结构的动态性等特征。基于对象的存储系统具有一定的智能性和适应性,可抽象为一个时空离散的自治动力学
随着无线通信技术的飞速发展,越来越多的移动用户利用掌上电脑通过无线接口访问互联网。在移动计算环境中,从服务器到移动客户机的下行带宽相对比较大,而从移动客户机到服务
本文对网络游戏中NPC系统的Agent模型进行了研究。文章阐述了Agent与多Agent系统的一般性特征;根据网络游戏本身的特点,建立了网络游戏NPC系统的Agent与多Agent系统的模型;给出
随着国内经济和网络应用技术的快速发展带动了网络游戏迅速发展,网络游戏用户规模也不断扩大,对游戏资源的需求也越来越高,因此产生了一系列的问题,如网络瓶颈、扩展性差、服
土壤墒情即土壤中的水分含量,制约着土壤中养分和矿物质的溶解以及转移,对作物的生长有着至关重要的作用,只有及时准确的掌握土壤水分盈亏状况才能及时排涝灌溉,保证作物的正
基于信号的稀疏性,压缩感知方法能够同时完成传统的信号获取中采样和压缩的两个过程,从而突破了传统奈奎斯特采样定理的限制,使得信号的采样率、采样时间以及存储成本大大降
随着计算机应用的日益普及和深化,计算机软件的数量急剧膨胀,软件规模十分庞大。然而,软件的在开发和维护过程中的一些模糊或错误做法和概念,致使很多项目不幸夭折,其中很多
信息是当今人类社会的重要资源,它必然要面对各种各样的安全威胁。在我们越来越依赖于信息技术的同时,信息安全的问题也日益突出。信息安全已经成为当前研究的热点课题,作为信息
随着数字网络通讯的飞速发展以及数字多媒体的广泛应用,对数字产品版权保护的需求也日益迫切。数字水印技术已经成为用来解决数字多媒体中版权问题和内容认证的主要工具。本