基于浅层语义分析的文本摘要方法研究与实现

来源 :电子科技大学 | 被引量 : 12次 | 上传用户:luchsky123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,非结构化资源的比例呈现增长趋势,所涉及的处理技术相比结构化数据而言具备更大的难度。其中,文本类型信息具有典型的非结构化特征,对其进行有效分析和处理在互联网以及诸多行业中具有十分重要的理论价值和实践意义。是文本信息处理中的一个非常重要的组成部分。在实现方法上,本文使用的浅层语义特征区别于常用的词语特征,研究的重点不再是可以观察到的构成文章的词语、句子等基本信息,而是隐藏在这些句子、词语背后,更深层次的语义信息,称之为主题特征。通过对文章主题特征的挖掘与分析,可以进一步得到主题-词语的关联,主题-句子的关联。基于这种关联关系衡量句子或者词语表达文章主题的能力,从而选择出能够完整表达文章主题的句子作为文本摘要。本文在详细阐述国内外研究现状的基础上,首先基于主题对句子关联度计算进行了针对性研究,提出一种新的衡量句子与句子相关性的方法,在语义层面,充分利用主题对文章的表达能力,基于主题在句子上的概率分布,使用相对熵来计算两个句子上主题概率分布的差异性来确定句子相关度,同时将文本归结为三类内容,作为摘要提取的依据,并在NLPCC2015数据集上进行了实验验证。同时,论文基于主题和图模型改进了文本摘要算法。通过LDA模型挖掘出文本语义层面的主题特征,分析文本中词语和主题的对应关系,基于改进的图模型进行文本摘要,改进其以往的建边方式,使用主题关联来确定不同节点之间是否建边。并在DUC数据集上实验验证,其ROUGE分数在比较的几种算法中得分最高。最后,在文本摘要关键技术基础上搭建了一个文本摘要功能演示系统。基于Struts2、Hibernate框架,结合sitemesh、JQuery、CSS、JSP、HTML等技术,可以通过在输入框中输入文本或者提交文档的方式实时得到文本摘要的分析结果。本文所研究内容已经在实际项目中得到工程应用和验证,在自然语言处理平台中发挥了重要作用。
其他文献
近年来,信息安全日益引起人们的重视,网络攻防能力已成为信息化时代人们关注的焦点。然而,传统的防火墙、入侵检测等防护手段在现代网络对抗中使防守方显得十分被动。跳频技
学位
全过程计算机辅助动画自动生成技术是由中科院数学所的陆汝钤院士提出的,结合了人工智能理论与现代多媒体技术的全新动画制作过程。它形成了一套自顶向下、逐步求精的方法,以
学位
随着移动计算设备和无线传感器的大量出现,网络将成为人与周围物理世界交互信息的接口。Internet和移动通信技术的发展,移动IPv6为连接到Internet的主机用户提供了移动性支持
随着信息技术的发展,越来越多的图像数据需要被秘密传输,图像秘密共享改变传统单一加解密模式,将秘密共享技术应用于处理图像数据,能够分担责任,提高系统安全性和健壮性,在银
随着我国网民规模接近7亿,互网联页面数突破2000亿,信息爆炸般增长,从中获取有效信息也变得愈加困难。因此也有了许多个性化解决方案来对互联网信息进行筛选提供给人们符合所
现代高层建筑设计逐渐朝着快速、集约的方向发展,建筑公司为了进一步完善建筑施工系统,利用计算机辅助设计技术通过可视化的方式,来模拟仿真建筑工程施工的过程。借助这些技术的
随着国民经济的飞速发展,汽车的数量急剧增加,城市交通管理现代化水平的提高势在必行。汽车牌照识别系统作为智能交通系统中的重要部分,被广泛应用于智能停车场管理、违规车
随着数字化技术和互联网的发展,各种信息资源迅速膨胀,数据呈现出多样化的新特点。这些多样的数据已不再适合存储在单一的数据模型或传统的关系数据库系统中,因此人们引入一个新
自然语言处理被认为是大数据时代十分关键的技术之一,尤其对于互联网上的“用户生成内容”进行文本分析蕴含着巨大的商业价值。主题模型是一类无监督的文本处理方法,其发展经
随着XML相关标准的推广和应用,各个领域不断涌现出大量的XML文档。如何有效管理大规模XML,文档数据,已经成为当前数据库领域中一个亟待解决的研究课题。基于关系数据库管理XM
学位