基于ICVSM的摘要抽取算法研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:huhaiyan1953
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要抽取是应对现代信息化社会而产生的一种信息提炼技术,它从大篇幅的文本中快速、准确地抽取出能够表达文本主题意思的句子生成文摘,为人们高效获取有用信息提供帮助。本文首先介绍摘要抽取的研究现状及相关技术;然后针对统计和语义相结合类型的中文摘要抽取算法存在的不足,提出一种改进的摘要抽取算法。新算法从以下两方面对原有算法进行了改进。针对汉语词语的多义性问题,本文提出一种词义排歧的改进算法。该算法先利用知网和训练语料建立义原同现频率数据库,作为词义排歧的依据;在计算待排歧词各义项与上下文特征词的相关系数时,考虑对表达语义能力不同的四类义原的对应关系,并且考虑两个影响词语语义表达的距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与待排歧词之间的空间距离。针对概念向量空间模型中项之间的独立性问题,本文基于聚类思想提出一种模糊的概念等价类划分算法。该算法从现实意义出发,对那些在表达语义上没有明显区别、相似度很大的概念,进行等价类划分,合并为概念集合,以概念集合代替单独的概念作为向量空间模型的项,用改进的概念向量空间模型表示文本,进而更准确地对文本进行量化,以便生成更为精简的摘要。最后本文开发了相应的实验系统,对提出的基于ICVSM(改进概念向量空间模型)的摘要抽取算法进行了实验验证。实验结果表明,改进后的算法较以往的算法,在对歧义词排歧的准确率和召回率上均有相应的提高,并且使生成的摘要在质量上也有所改进。
其他文献
证书是网格安全的关键技术之一,在网格安全基础设施GSI(Grid SecurityInfrastructure)中,证书包括终端实体证书EECs(End Entity Certificates)和代理证书PCs(Proxy Certifica
随着互联网的发展,搜索已成为从互联网上获取信息的一种主要手段,通过GOOGLE、百度等互联网搜索引擎,人们可以方便的从浩如烟海的互联网中寻找自己需要的信息。以GOOGLE为例,
传统的工作流管理系统多采用“集中式”的模式。这样的工作流管理系统存在着单点故障、安全性不高、可扩展性差等缺陷,无法满足现代企业发展的要求。因为无论是工作流的本质,还
清醒,即清楚明白;清廉指清白廉洁。清醒才能清廉,清廉必须清醒。这是某省一位市长不为金钱所惑的体会和经验,实在值得为官者学习和借鉴。 Awake, that is clearly understoo
Considering the important role that motivation plays in the process of second language leing, which can influence stu?dentsbehaviours and performance in langu
抗日战争时期,驰骋冀鲁边区的渤海回民支队,与回族英雄马本斋领导的冀中回民支队遥相呼应,紧密配合,高奏了一曲抗击日寇、保家卫国的爱国主义英雄赞歌。 During the period
古建筑物的虚拟复原在保护和研究古代建筑文化遗产领域中,已经越来越被人们重视。在各项虚拟复原相关技术中,利用基于图像的建模与绘制(IBMR)技术建立具有真实感的虚拟环境是
遗传算法作为一种成熟的现代算法,由于具有高效、高可靠性、信息量大和易于实现等优点,而在工程设计领域得到了广泛应用和认可。本论文研究遗传算法在带式输送机滚筒优化设计
云计算技术不断发展和革新使得数量庞大的用户选择将数据存储到云端。但是,用户将隐私信息存储在云端后会引发用户对存储云端隐私数据安全的担忧。用户通过将数据加密后存储
KJZ55型矿用压入式局部通风机是煤炭科学研究总院抚顺分院研制的新型局部通风机,主要用于煤矿采面及掘进工作面通风,尤其适用于高瓦斯(瓦斯绝对涌出量5m3/min)、长距离(通风