舆情监控系统中的文本摘要技术的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chunmin1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息数据的爆炸式增长,信息的快速、准确获取和有效利用变得越来越困难。自动文本摘要技术作为解决信息爆炸式增长与有效利用之间矛盾的重要手段,受到广泛关注。其致力于将原文中最核心的内容以最简洁的方式直接呈现给用户,从而提高用户获取和利用信息的效率,并能为其他文本处理技术提供支持。同时,舆情系统作为现代信息获取分析的重要工具,其能够自动化爬取监控到网络上的大量信息,然后针对爬取回来的信息做出相应的统计性和总结性分析。成熟的舆情系统在文本分析阶段一般都需要自动文本摘要技术的参与。通过摘要技术生成的摘要能够有效地提高舆情系统中的文本检索和文本相似性计算的效率。同时,每个文本生成的也能为产生事件总结性摘要提供核心信息内容。本文立足于舆情系统这一应用背景,围绕自动文本摘要技术展开研究,提出面向单文本的摘要模型和基于事件的文本聚类方法,结合这两者的综合运用,设计和实现舆情系统中事件分析模块的观点归纳和总结性摘要生成功能。首先,本文设计并实现一种面向单文档的基于深度学习的抽象式摘要生成模型。针对现有模型在挖掘原文句子间潜在依赖关系的不足,本文通过层次化编码器来完成将原文句子转化为可计算的潜在语义向量表示形式,利用自注意力机制来挖掘句子间潜在依赖关系。针对OOV问题,本文采用attentional sampling机制和拷贝模式来生成摘要。在LCSTS数据集上的对比实验表明模型是可行且有效的。接着,针对舆情系统中事件分析的文本数据应当描述同一事件的这一需求,提出一种基于ALN和WCC的文本事件聚类方法。根据描述同一事件的舆情文本往往采用相同的特定词语组合这一特点,采用ALN构造关于词语关联关系的网络图,然后执行社区发现操作。为处理好不同社区的节点重叠现象,采用基于WCC指标的节点集群更新策略,以及利用余弦相似度进行社区合并。利用文本映射公式将文本归属到对应的社区之中。通过上述步骤,完成文本聚类操作。最后,通过单文本摘要模型和文本事件聚类方法的综合运用,参考提取式摘要生成的思路,设计和实现舆情系统事件分析模块中观点聚集和总结生成功能。以单文本摘要模型中的文本句子向量作为文本的表示方式,利用x-medoids算法完成基于文本内容相似性的聚类操作,旨在挖掘出事件中的不同子方面的观点内容。接着,抽取每个聚类的簇中心文本对应的生成摘要作为该聚类的观点描述文本,并根据聚类的大小顺序拼接成事件总结文本。
其他文献
自组网作为分布式网络,每个节点都有一个独立的时钟且各个节点的时钟精度不相同,为了保证业务的正确传输,基于时分的同步算法需要在时钟级别和时隙级别达到误差允许范围内的
当前国际金融危机爆发后,国内外马克思主义经济学家从不同角度不同层面广泛地探讨研究此次危机的根源和形成机理,形成了丰富的研究成果。实体经济危机论认为,当前国际金融危
问题导学是践行数学自主课堂BGA教学范式的核心与关键,它有效地回答了怎么学(导学:过程与方法)、学什么(基础:基础知识与基本技能)、学会什么(能力:学科核心素养)三个问题。
目的探讨烟雾病患者颞浅动脉一大脑中动脉搭桥术后的护理措施。方法回顾性分析18例烟雾病患者颞浅动脉一大脑中动脉搭桥术后的护理资料。结果手术后5~14d复查DSA,15例缺血型
住宅商品是一类具有独特属性的商品,住宅商品定价也是近年来房地产学术界和企业界的研究热点之一。如何建立一套灵活、科学和便捷的定价体系对房地产开发企业而言至关重要。基
1947年 9月 ,南京国民政府以“节约”为名 ,颁布了在全国禁绝营业性舞厅的法令。为维护自身利益 ,上海舞厅业资方组织———舞业同业公会 ,联合舞厅业劳方各工会组织 ,对“禁
第一部分是引言。进口押汇是国际贸易短期融资的主要方式,信托收据是进口押汇中运用的一种以买卖标的物为担保物的特殊担保方式。本文主要研究信托收据所创设的法律关系的性
近些年,可再生能源的过快增长导致产能过剩,而分布式发电系统被认为是一种很好的解决方案。并网逆变器作为可再生能源发电设备与电网进行能量交换的桥梁,其性能的优化对分布
随着经济的发展,各国对能源的需求越来越大,而传统的化石能源日益枯竭,寻求一种新的能源替代品迫在眉睫。氢气作为一种清洁能源,倘若能够通过光催化制氢工艺来实现巨量生产,
讨论传感器是左右机电一体化系统(或产品)发展的重要技术之一以及机电一体化的发展趋势。