摘录式多文档摘要技术的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:bbchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,信息获取变得越来越容易,人们日常所需要处理的信息量也越来越大。如何从众多的文档中提取出重要的信息,以帮助人们做快速的浏览和撷取,是一项迫切的任务。多文档摘要技术因此而成为了最近几年的研究热点。本文主要研究的是抽取式通用型多文档摘要,提出了一种基于生成性文本主题概率模型的多文档摘要技术,和一种基于排序学习的多文档摘要技术。本文的主要贡献有以下几点:1.在一个贪婪算法的框架内研究了如何利用主题特征生成高质量的多文档摘要。在这种框架下,句子的选取最终归结为度量每个句子对摘要的主题构建的贡献大小。使用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)模型为句子建模,以捕捉深层次的主题信息。通过分析摘要任务中文本和摘要的内在关系,我们将之量化为一种概率表示,并在此基础上提出了两种有效的句子打分方法。在DUC2002会议中使用的通用性多文档文摘测试集上做了实验,使用ROUGE自动评测工具对各种方作做了评估。结果表明,我们的方法优于单纯基于词频的方法和其他使用了主题模型的方法。2.提出了一种通过学习摘要质量预测函数来搜索高质量摘要的新思路。传统的方法所显式或隐式地使用的质量预测函数都是启发式的,缺乏客观性。我们认为如果没有一个客观的摘要质量预测函数,对高质量摘要的搜索总有些盲目。本文中,我们讨论了这种预测函数的可能的形式,论证了获取这样一个客观的预测函数的必要性和可行性,分析了学习这种预测函数对摘要质量底层特征的要求和一些量化的择优方法,并展望了这种较为客观的摘要预测函数的使用方法。3.我们设计了一种学习预测函数的方法,并在此之上构建了一个自动摘要系统RBSS。我们借鉴IR&ML领域的排序学习方法,学习得到一个排序函数。不同于可以预测摘要质量分值的回归函数,我们所学到的排序函数只能够按照摘要的质量对其做个排序。我们认为这种按质量高低给出的顺序就可以帮助我们做高质量摘要的搜索。我们在基本的一元词频和其在句内的共现信息上,设计了四个排序特征。这些特征有较好的鲁棒性,不会随原文的改动而对排序函数造成大的影响。我们设计了一种效果很好的训练集的构造方法。在这些工作的基础上,我们构建了RBSS。RBSS使用遗传规划作为高质量摘要的搜索算法,其中每个摘要的适应度由当时其在总体中的排名位置决定,而该顺序则由学习得到的排名函数给出。我们在DUC2002数据集上用ROUGE工具做了评估,我们的方法生成的摘要比当年会议上最好的系统所得ROUGE分值还高。
其他文献
随着传感器技术和网络技术的不断发展,无线传感器网络越来越多的应用到人们的日常生产和生活当中,煤矿安全监测系统就是一个典型的应用。相比于传统的有线监测,使用无线方式
近年来,我国高速铁路的发展突飞猛进。动车组运用检修是高速铁路安全运营的重要保障,其质量和效果是关乎动车组安全和高速发展的关键因素。动车组运用检修作业需要多部门、多
无线Mesh网已经成为了一种非常具有应用前景的新型无线组网技术,特别是多射频多信道无线Mesh网,由于网络中有多个信道可供分配,每个节点有多个射频,这样网络的健壮性、灵活性和性
随着因特网的高速发展、信息爆炸时代的延展,人们对于信息的获取又有了新的需求。人们不再仅仅满足于由新闻媒体、信息门户等网络信息实体所展示的文章或多媒体信息,而是更加
海关通关管理的定义是指海关通关管理部门对运输工具和进出口货物行使通关管理和业务运行的职能,负责监控海关作业单证的流转,指导、检查和监督关区审单作业。在通关环节中,
互联网技术的快速发展使得网络信息井喷式地增长,虽然搜索引擎技术的发展使人们可以方便地从网络上获取想要的内容,但随着网络信息的快速增多,人们花费在搜寻有用信息上的时
AdHoc网络最初的研究主要集中在如何组网,如何分发数据。如今信息技术的高速发展,多媒体业务随之增多,人们也尝试在AdHoc上传送多媒体业务,但是实时视频传输质量不是很理想。
多核CPU经过多年的发展,现已在市场中占据主导地位。多核CPU具有很高的性能,它的应用普及,给我们用户带来了机遇,但也带来了挑战。过去大部分的算法与软件并没有针对多核CPU
近年来,随着人们对虚拟现实技术的关注增加,如何得到更好的三维重建效果越发引起研究者们的关注,而在三维重建过程中,对三维点云数据处理的重点又在于对三维点云数据的精简,所以,对
随着信息网络的发展和技术的革新,远程控制不再是指局域网中的远程控制,而是基于信息网的远程控制。信息网与控制网相比具有更大的优势,将两者结合起来,借助信息网的优势发展