【摘 要】
:
随着网络信息的海量增长,从海量文本中提取摘要成为自然语言处理研究的热点课题。半个多世纪以来,学者从不同角度出发,提出不同的解决方法,并举出适当的范例。本文主要研究的是基
论文部分内容阅读
随着网络信息的海量增长,从海量文本中提取摘要成为自然语言处理研究的热点课题。半个多世纪以来,学者从不同角度出发,提出不同的解决方法,并举出适当的范例。本文主要研究的是基于信息抽取的自动文摘,并且引入WordNet与空间向量模型进行句子相似度计算。 基于信息抽取的自动文摘技术是从文本中抽取重要内容生成文摘。因为一般生成的文摘都有字数限制,这就需要选择具有较强概括力的句子构成文摘。本文首先从文本中抽取五个基本特征:句子长度、词频、句子位置、线索词以及标题词汇;然后根据这五个特征给文档中每个句子评分,按照得分从高到低将句子依次排序,得分高的句子就作为生成文摘的候选句。 本文将语义相似度应用到自动文摘任务中。语义相似度是评价词汇之间相互关联程度的一种度量方式。本文采用两种方式计算句子相似度:其一是引入WordNet;其二是使用空间向量模型。通过WordNet计算词汇相似度采用两种方式:Path和Lch。大部分词汇都包含多种词义,针对多义词分两种情况处理:一是只考虑第一个语义,二是考虑多个语义。这样设计的优点是,可以测试出各种情况下最后文摘的质量,分析出直接影响文摘质量的因素。使用两种空间向量模型的度量方法,一是余弦度量法,二是Dice系数度量法。通过两种不同的方式计算句子之间的语义相似度,得到的结果是模糊相似矩阵。这个矩阵中的每个元素代表了两个句子之间的相互关联程度,还需要将其具体分类,从每个分类中择优选择句子生成文摘。本文使用编网法,对模糊相似矩阵分类。通过实验结果,可以清晰的看出,将语义计算引入自动文摘任务中可以改善文摘的质量。
其他文献
医学图像处理是计算机领域的一个分支,是数字图像处理技术在生物医学工程中的重要应用。在计算机辅助检测系统中,准确、有效地从X射线胸片中分割出肺组织是关键和必须的步骤
在过去的几十年里,我们目睹了世界许多地方的人口预期寿命稳步增长,导致老人的人数急剧上升。最近联合国报告预测,到2050年,世界上将有20亿老年人,占世界人口的22%。此外,研
随着物联网技术研究的不断升温和应用的不断深入,物联网现已成为继计算机、互联网与移动通信网之后的世界信息产业第三次浪潮。本课题是在物联网蓬勃发展的背景下,从某特种货
布谷鸟搜索算法是由英国剑桥大学学者Xin-She Yang和Deb Suash于2009年受布谷鸟寄生繁殖行为的启发模拟提出的一种新兴启发式优化算法。与许多启发式优化算法相比,布谷鸟搜索
水稻是我国主要粮食作物之一,水稻病害的防治是水稻种植过程中的主要任务,关于水稻病害诊断主要还是依靠农业专家根据病害症状和症状部位进行人工诊断,这种诊断方式固然可靠,
在电子商务和物联网应用快速发展的今天,无线传感器网络(wireless sensor network, WSN)作为物联网的一个重要分支,其应用和性能优化也成为了科学研究的热点。WSN应用对WSN系
在银行等面向事务处理的行业中,计算机系统的可靠性非常重要,系统的延误和失效可能会造成不可估量的损失。因此此类行业一般都采用容错计算机。传统的容错计算机仲裁机制是通
Web服务组合技术能够通过集成一组具有不同功能的Web服务为用户提供新的增值服务。Web服务的松散耦合、动态发现和动态绑定等特性,为生成的组合服务灵活适应其运行时环境的动
随着科技的快速发展,各行各业涌现出大量的数据信息。如何从这些数据中快速获取有用的知识、提取有效的分类方法是目前机器学习面临的主要问题。粗糙集理论方法是一种能有效
P2P网络传输是当今互联网中最主要的应用之一,它的流行使得互联网上资源的共享变得十分便捷,同时也使得传播控制和信息监管变得十分困难。P2P技术无中心节点的特点,使管理者