基于潜在语义分析的多网页自动文摘研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:loving_tiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅速发展,Web资源的更新频率令人瞠目结舌。然而,在Web信息资源迅猛发展的同时,人们不能忽视信息极大丰富而知识相对匮乏的问题。所以,如何获得对用户有价值的信息就变得至关重要。目前,人们获取信息的主要方法是通过搜索引擎,但是搜索引擎往往会返回大量冗余的信息,因此在阅读时会浪费大量的人力物力,并且不能提供给用户简洁、直接的答案,所以多网页自动文摘技术应运而生。多网页自动文摘技术的目标是致力于将信息全面的、简洁的文档直接呈现给用户,从而提高用户获取信息的效率。它的重要性是不言而喻的,其应用前景将非常广泛。本文的目标是研究多网页的自动文摘,主要研究基于潜在语义分析(Latent Semantic Analysis,LSA)的多网页自动文摘系统理论和实现方法。根据潜在语义分析理论,对多网页进行了语义段的划分、句子聚类、生成初始文摘并对其加工得到最后的文摘。首先提出多网页语义段的概念和基于LSA的多网页语义段划分算法,对传统的权重计算方法进行改进,使得语义段的划分更加精确;其次改进K-Medoids聚类算法,使得K可计算,实现了段落的聚类和句子的聚类,依据句子的长度、句子中关键词的重要性以及这些关键词是否出现在标题中这三个因素对句子权重的影响来改进句子权重的计算方法,并利用HowNet计算句子间相似度。然后,对基于LSA多网页自动文摘系统进行了详细的功能分析,包括具体模块的设计、实现方法和关键技术。最后编程实现了这个多网页自动文摘系统。该系统将统计和语义分析两种方法相结合,采用基于语义段的想法组合文摘,使得文摘连贯性、全面性都有了提高。
其他文献
为了使得内蒙古IP城域网更加成熟健壮,本论文就内蒙古IP城域网在技术选择上综合考虑先进性、成熟性及良好的性价比,以网络的可扩展性和可管理性为基础,统一规划,分步实施,秉
随着计算机在各行各业应用的深入和普及,各类社会、经济、政治、国防等重要信息大量的在计算机中存储和网络中传输,围绕系统安全的研究也成为最热门的研究方向之一。由于现在的
全景图生成技术是一种基于图像绘制技术生成真实感图像的虚拟现实技术,是近年来虚拟现实重要的研究方向之一。全景图拼接是将多幅由普通相机或摄像机获得的真实场景的局部图
人体步态是人行走的姿态。它作为一种新的行为特征,具有非接触性、可感知性和非侵犯性、难以伪装和隐藏、易于捕捉等特点,而且在系统的低分辨率下、一定距离时它是唯一可感知的
随着数字图像采集技术和处理技术的飞速发展,图像己成为人们获取信息的重要途径,应用图像的相关信息对产品的几何信息做出相关评定也就成了图像处理的重要内容之一。基于单目CC
随着Internet技术的迅速发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。由于汉语的特殊性,大多数汉语自然语言处理任务都需建立在分词的基础之上,因而分词
全文索引的显著特点就是提供对非结构化海量数据的管理和快速查询。全文索引创建的空间效率和索引建好后的查询速度是全文索引研究领域的两大热点。本文讨论并比较了现有的几
景深是相机拍摄的图像所具有的一个重要特征,在摄影学中有着重要意义。景深效果可以用来选择性的强调画面中的一部分,吸引观察者的注意力到画面中清晰对焦的部分;景深也可以
目前国内的医院信息系统(HIS)和医疗图像存储与通信系统(PACS)这些系统大部分都是独立运行和管理的,各个系统有自己的数据库管理系统和通信系统,这给医院带来了很大的人力和
当前图像数字水印技术以其在版权保护方面的独特优势成为当前研究的热点。而小波分析则是近年来迅速发展的新兴学科,它具有多分辨率分析的特点,将其应用于图像处理的思想是把