基于多粒度潜语义模型和子模最大化的新闻摘要研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:liongliong536
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展和web2.0时代的到来,社交网络成为了人们生活中不可分割的一部分,改变了人们获取和传播信息的方式。传统新闻媒体的报道往往滞后且冗长,在快节奏的如今已渐渐式微。社交网络这类简洁且实时性高的轻便式信息传播媒介渐渐取代了传统媒体,成为了新闻发生后人们进行发布和传播的主流媒体之一,微博更是其中的佼佼者。但是受微博的博文长度限制,传统新闻报道并不能直接在微博上发布,人工生成摘要既费时费力又不能保证其客观性。如何在较短的时间内快速获得一篇高质量且可作为微博发布的新闻摘要成为了一个急需解决的问题,对文本摘要技术也提出了新的挑战。在此背景下,本文展开了对面向微博的中文新闻自动摘要的研究工作。本文的工作主要包括以下几点:(1)本文提出了一个基于多粒度潜语义模型和子模最大化的新闻摘要模型,利用多粒度潜语义模型获取文本的潜语义向量,然后设计评估函数并使用子模最大化方式快速求得近似最优解,生成自动文摘。(2)在文本表示方面,本文采用正交矩阵分解潜语义模型得到文本潜语义向量,其对缺失词汇进行建模并使投影方向近似正交以减少冗余,解决了新闻短句信息稀疏和经典潜语义模型所得向量在计算语句相似度时效果不佳的问题。为引入事件信息和词语关系,本文在词粒度基础上还构筑了依存粒度词典,在依存粒度对文本进行潜语义挖掘。最终模型使用的是综合了词粒度与依存粒度的多粒度潜语义模型。(3)本文针对新闻这类特定题材的写作特征,从相关性和多样性方面设计多个单调子模函数和一个评估语句不相似度的非子模函数用于新闻语句集合的评估。然后考虑微博的长度限制,设计有限制的贪心抽样算法利用子模最大化方式较快速的求得问题的近似最优解。(4)在实验过程中,本文设计多组实验对特征、文本表示、baseline、多粒度模型等分别进行对比评估。结果表明在词粒度潜语义模型条件下,模型ROUGE-1评分达0.519,多粒度潜语义模型条件下实验结果进一步提升至0.531,超过其他基线模型;表明了本文算法的有效性。
其他文献
20世纪80年代末以来,经济全球化趋势使得国际分工方式发生深刻变化,从产业间和产业内分工深入产品内分工层面,全球价值链体系显示出垂直分离和重构布局。这一过程的主要特征表现为,产品完整的生产过程被分割为连续不同的工序和环节,分布在各个国家或地区,形成全球生产分割。这种新型国际生产模式综合了生产的片段化和市场的一体化两大趋势,打破了单个国家和产业价值链的独立性和完整性,并不局限于在某一国家或地区的内部
随着国家建设的大规模开展,大量高层建筑、桥梁和港口不断涌现,高速铁路、公路路网的加密,城市地铁建设的发展,沿海地区围垦以及大面积回填,被动承受周围土体侧压力的被动桩
水泥基材料是一种多孔材料,其孔结构具有多尺度特性,对抗压强度有着决定性的影响。已有研究没有认识到干燥与水饱和状态下水泥基材料孔结构的巨大差异,缺失对饱和状态下孔结
申购赎回机制是开放式基金管理中的核心环节,它向基金管理者释放一种隐性激励,许多学者发现这种激励所产生的绩效和资金流入会呈现正向关系,有利于形成市场上的“奖优罚劣”机制。但是,国内有一些学者发现市场上基金的绩效和资金流入负相关,即呈现“赎回异象”,本文的目的就是从投资者申购赎回行为角度对基金绩效和资金流入之间的关系做出一种理论解释。本文首先梳理了关于基金绩效和资金流入的关系的研究,发现并没有文献研究
我国沿海地区湿度大,盐雾浓度高,易发生污闪与雨闪,对铁路的正常运行造成了很大影响。盐雾的存在会使绝缘子表面产生湿污秽,使其表面电导率增大,绝缘子特殊的结构导致电场分
聚碳硅烷是制备具有高性能的连续碳化硅纤维和陶瓷基复合材料的重要原材料,熔融状态下的流变性能对聚碳硅烷的加工具有十分重要的意义。由于温度变化对聚碳硅烷的结构组成与
目的:通过观察并记录患者治疗前后的中医单项症状积分、证候总积分、腓总神经MCV、腓浅神经SCV及密歇根(MNSI)评分的变化,观察祛痰通络方对于DPN患者(痰瘀阻络型)的治疗效果,
随着移动互联网产业的迅速兴起,智能手机、智能穿戴等无线终端设备迅速普及,深入人们生活中的方方面面,通过这些无线终端获取各种信息已经成为人类生活中不可缺少的一部分。
钢管混凝土是将混凝土灌入钢管中形成的一种组合材料,主要依靠钢管与核心混凝土的相互作用来充分发挥两种材料的性能优势,具有承载力高、塑性好、抗震性能好、施工方便等优点
大直径单桩、吸力锚等海洋锚固基础,不仅要承受由上部结构传递下来的工作荷载(静力荷载),在海洋环境中还要承受由波浪等引发的具有低频性、长期性、持续性的循环荷载作用。分