基于标签分类内容共享平台的网页自动文摘模型

被引量 : 0次 | 上传用户:yjqwml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet的发展,以及网络带宽越来越大,使Internet能够给人们的生活带来很大的便利。比如电子商务的发展,使Internet网络成为了一种新的经济盈利模式。但是随着Internet网页容量的逐步增大,又使得人们难以有效的利用网络数据,虽然搜索引擎能够很方便的让人们查找有用的信息,但是目前搜索引擎基于关键字的搜索很难满足大多数的要求。如何让Internet网络中的数据能够得到聚合并且简化,这成为了目前许多自然语言处理领域研究者共同关注的一个话题。随着Web2.0的兴起,对自然语言处理的要求越来越高,而基于自然语言处理的Web2.0应用在Internet环境下取得了很大的成功,而基于标签分类的内容共享系统作为其中的一个典型应用,在系统中,用户通过标签来分类管理网页内容,系统可以通过标签来统计出用户的喜好,并可以看出目前流行的趋势。在此基础上搭建更好的应用。目前,人们使用自然语言处理对网页文本进行分类和自动文摘,这样极大的提高了人们使用网页资源的效率。对网页进行归类能够使人们有效的整理网页文档,提高对网页搜索并且利用的效率;对网页的自动文摘,可以过滤掉许多我们不需要的信息,只关注网页中最核心的部分,这样极大的提供了网页的利用率。本文尝试用一种新的基于Web2.0标签分类内容共享系统构建自动文摘模型。由于Web2.0标签分类内容共享系统中标签信息有利于自动文摘的生成,本文在构建自动文摘时充分利用这个特性,并对模型进行了必要的优化。本文首先通过对自动文摘目前的发展作出概述,并总结出网页文本数据的特点,结合这两点对目前存在的网页自动文摘方法进行剖析。在此基础上结合Web2.0中标签概念提出本文的对网页自动文摘的模型:首先根据文献[4]提出的模型对网页自动文摘建立初始模型-词频模型。这个模型主要使用经典的TF/IDF方法计算单词的权重,在计算IDF时,我们使用标签分类内容共享系统作为一个网页信息的主要来源,在计算单词权重的基础上对句子进行选择。最后选择权重最高的句子作为网页的摘要。在词频模型的基础上,我们对模型进行了扩展。网页中包含了许多有用的信息,比如网页标题,网页中的斜体,粗体,以及下划线的文字都是一些有用的线索。为此我们定义了一些网页数据的特征,然后利用训练数据对这些特征进行训练,利用朴素贝叶斯公式对每个句子进行评价。最后选择权重最高的句子作为网页的摘要。词频模型以及词频模型的优化都是从网页本身入手,选择出能够代表网页最重要信息的句子作为文摘。结合Web2.0的标签概念,我们利用标签这个外部信息来生成文摘。由于标签之间存在关联,在用标签生成文摘模型的基础上,对模型进行了改进,对那些统计意义上相关联的标签进行了统一评价,这样比较客观地对单词进行评价。接下来考虑到句子之间可能存在语义上的重复,我们利用余弦定理对句子进行了消重。利用经典的召回率(Recall)、准确率(Precision)、F1和ROUGE评价模型对文摘模型进行评价。首先在现有的标签分类内容共享系统上进行试验,说明标签可以很好的反映出网页的主要内容。然后分别在标签分类内容共享系统上和利用Open Directory Project上进行试验。实验可以看出,基于标签分类内容共享系统的文摘模型比单纯使用词频进行文摘生成的模型具有更好的效果。而改进后的词频模型与基于标签模型在效果上不相上下。这是由于标签具有不确定性,如果一个标签分类共享系统具有大量的标签数据,将会能够生成更好的文摘。
其他文献
间质性肺疾病/肺纤维化是严重危害人类健康的—组疾病,其发病率呈逐渐上升趋势。由于大部分病因不明,发病机制不十分清楚,目前尚无有效的治疗方案。虽然肺组织已有的纤维化病
新型城镇化要有利于实现城镇的均衡发展,促进中西部城市和中小城市的发展,推动人口的就地城镇化。城镇化不是吸引农民向城镇聚集的单向发展过程,吸引城镇居民到农村居住和就
随着经济全球化的进程,越来越多的企业选择使用第三方物流公司;随着我国物流市场的全面开放,第三方物流公司在快速发展的同时竞争将更加激烈。本文在分析国外发达国家和地区
<正>在贯彻落实党的十八届三中全会精神的实践中,河南省新密市把"坚持依靠群众,推进工作落实"长效机制建设作为群众路线制度化的具体实践,紧紧围绕"深化、规范、提升"主题,发
目前开发ETL系统的过程中,存在着一些问题,其中最典型的就是元数据管理混乱的问题。针对这个的问题,本文提出了一种基于公共仓库模型(common warehouse metamodel,简称CWM)开
设计价值是设计师为实现某种预定的设计目的,运用智慧开展创造性活动,将物质根据人的需要改造成为具有特殊属性的对象,以直接或间接的方式对对象的经济价值、社会价值等进行
分布式仿真已经广泛应用于科学研究、工程、商业等方方面面。HLA的提出是为了解决分布式仿真中不同类型的仿真模型、仿真应用模块之间的互操作和提高仿真组件的重用性,并没有
在我国加入WTO以后,越来越多的外国保险公司进入中国,车险市场的竞争更加激烈。如何适应新的竞争是各保险公司所共同关心的问题。奖惩系统(Bonus-Malus Systems简称BMS)作为
<正>漳平民俗文化是漳平民间民众的风俗生活文化。陈鹤琴先生曾经说过:"怎样的环境,就得到怎样的刺激,得到怎样的印象。"因此,创设一个具有漳平民俗特色的环境,对幼儿进行潜
在我国经济高速发展的时代背景下,我国建筑行业的发展规模越来越大,在我国市场经济中发挥着巨大的作用。在建筑施工过程当中,如何提高建筑施工的安全质量管理力度,减少因建筑