基于统计与语义分析的多文档自动摘要研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:weyyiverson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机技术的发展和互联网的普及把我们带入了信息的海洋之中,信息的增长速度已经超出了我们的想象。目前,人们主要通过搜索引擎在互联网中搜索自己需要的信息,但搜索返回的结果包含了大量冗余信息,使得人们很难在短时间内从这些信息中提取出自己感兴趣的部分。多文档文摘正是为了解决这一问题而产生的一种新技术,它可以将多篇同一主题的文章进行筛选和汇总,从中提取出简洁、全面的信息,将人们从繁琐、冗余的信息中解脱出来。本文在现有的多文档自动摘要技术基础之上,对语义概念抽取和聚类算法等关键技术展开研究,实现了一个基于统计和语义分析的多文档自动摘要系统。本文的主要研究内容和特色如下:(1)采用概念统计方法代替传统的词频统计,建立概念向量空间模型进行多文档摘要,减少了传统VSM模型中标引词向量间“斜交”所带来的影响。(2)传统的方法一般通过词形或词共现等特征进行句子相似度的计算。本文对句子相似度计算方法进行了改进,通过分析句子中词语之间的内在联系进行计算,提高了计算的准确率。(3)借助WordNet语义资源进行语意消歧和概念树的构造,建立了一种树形结构描述文档集合,并提出一种主题概念抽取方法,从概念树中抽取主题概念对句子进行加权,显著地提高了多文档自动文摘的质量。(4)在深入研究了多文档主题划分技术的基础上,对基于密度聚类的OPTICS算法进行了改进和优化,并将其应用到多文档摘要中。改进后的方法能够更加准确的划分文档集合主题,使得抽取的结果更加全面。基于统计和语义分析的多文档自动摘要系统是对传统多文档摘要系统的改进,实验结果表明它比原有的多文档摘要系统更加有效,能够更加准确全面地提取信息。多文档自动文摘无论是作为独立的系统还是作为搜索引擎的一部分都将拥有广泛的应用前景,随着互联网技术的进步将具有更大的发展空间。
其他文献
<正>课堂教学设计应注重教学内容实质,重视学生积极参与,重视学生真实体验,重视学生思维发展,教学活动设计贵在创新!对于"三角函数诱导公式(一)",笔者也曾上过公开课。当时笔
<正> 利用封闭图确定齿轮传动中两齿轮的变位系数是最直观,也是最方便的方法。内啮合渐开线齿轮传动除掉有与外啮合齿轮传动相同的干涉现象外,还有内啮合齿轮传动所特有的多
目的:通过系统药理学方法探讨大黄附子汤的作用机制及原理。方法:通过中药系统药理学分析平台(TCMSP)数据库提取大黄附子汤中的活性成分和有关的靶标蛋白,通过运用软件Cytosc
本文探讨了直接翠蓝 GL 锦纶氧化还原染色体系,结果表明,氧化还原染色体系能大幅度提高上染率,色牢度也有所改善,染料同纤维间结合与常规染色不同。
针对电子电路产品设计中调试文档编制存在的各种弊端,提出了一种智能复用EDA设计信息的调试文档自动生成技术。通过融合异构EDA设计数据,智能复用设计数据中的调试信息,利用
软件文档的编制是软件工程中的重要环节。本文描述了一个为软件工程实践教学平台所设计的文档工具SEEP-Doc,它采用了可扩展置标语言XML和Microsoft Word字处理工具,保证了文
本文运用文献[1]提出的光线轨迹公式,分析了方解石——方解石消色差透镜的成象质量,该方法也适用于其它晶体透镜的象差计算。
受国际金融危机影响,2009年黑龙江省对俄进出口额大幅下降,经贸合作受阻。然而,每一次危机中也蕴含着发展机遇,黑龙江省与俄罗斯是长期经贸合作伙伴,后危机时代,面对新动向和新变化
目的:探究中医温阳健脾法治疗泻药性便秘的治疗作用及其机制。方法:复制便秘大鼠模型,通过温阳健脾颗粒对模型组大鼠进行治疗,1个疗程后比较实验组、模型组以及健康组大鼠肠道