基于主题要素的突发事件后续报道追踪方法研究

被引量 : 16次 | 上传用户:uslifes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测与跟踪(TDT)作为一项帮助人们解决信息过载问题的研究,以实现对新闻媒体信息流中新话题的自动识别和对已知话题的动态跟踪,以新闻专线、广播、电视等媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的报道,并将涉及某个话题的报道组织起来以某种方式呈现给用户。它的研究目标是要实现按话题查找、组织并利用来自多种新闻媒体的多语言信息。话题跟踪是TDT的子任务之一,本课题对突发事件的后续报道进行追踪,让人们可以知道该事件的最新动态,从整体上了解一个事件的全部细节以及该事件与其他事件之间的联系。本文研究了基于主题要素的向量空间模型,采用查询向量的话题跟踪方法,对突发事件新闻的后续报道进行追踪。考虑到新闻报道6大基本要素(5W1H)的重要性,本文尝试性地利用报道中的时间信息和地点信息以及事件内容来表示新闻文档,从而便于对突发事件新闻的后续报道进行追踪,提高跟踪效率。本文的主要工作有:1.通过对网上下载的突发事件新闻报道进行统计,深入分析了突发事件新闻报道本身特点以及与相关后续报道之间的联系,以便利用时间信息和地点信息。同时,根据国家的行政区域划分建立了包括省、市、区、县、乡镇等的地名库。此外,对事件、报道、后续报道等相关概念进行了扩充。2.对时间信息和地点信息的使用特点进行了分析,通过命名实体器识别,抽取并规范了新闻文本中的时间和地名。对于时间信息,比较了事件信息和报道时间信息之间的先后关系。通过地名粒度之间的相关度和地名在新闻文本中的位置等信息来计算地名之间的相似度。3.将时间信息、地名信息与事件内容结合起来表示新闻文档,提出了基于主题要素的突发事件新闻追踪算法,利用时空信息提高事件跟踪效率。4.设计了一个实验系统,可以抽取地名和报道时间并进行相似度计算和突发事件新闻的跟踪。为了证明本文研究方法的有效性,我们从收集的突发事件新闻语料中选择了20个事件共880篇报道进行了实验,实验结果表明本文所提出的方法在一定程度上提高了话题跟踪的效率。
其他文献
目的探讨通心络胶囊对治疗冠心病舒张性心力衰竭的临床疗效。方法观察病例总数60例,随机分为治疗组30例,对照组30例。治疗组口服通心络胶囊,每次4粒,每日3次,并联合常规西药
立德树人是发展中国特色社会主义教育事业的核心,也是培养德、智、体、美全面发展的社会主义建设者和接班人的本质要求。初中阶段是学生的道德修养和道德品质发展的重要时期,
目的观察腹腔镜胆囊切除术综合护理干预的临床效果。方法选取2015年12月至2017年11月接收的106例行腹腔镜胆囊切除术患者,根据随机数字表法将患者分为观察组和对照组,各53例
企业社会责任的缺失已经引发一系列社会问题,其本身已影响了社会的良性运行,对企业社会责任的研究已不仅仅是经济学和管理学研究的范畴,更应是哲学、社会学学科应该关注的重
本文采用Fairclough的三维框架,从语篇、话语实践和社会实践三个层面,对美国《华盛顿邮报》在3月21日发表的一篇关于"中美贸易战"的新闻报道进行了语言学特征的描述、互文性
<正>我国是历史悠久的统一多民族国家。中华民族多元一体是先人们留给我们的丰厚遗产,也是我国发展的巨大优势。在全国民族团结进步表彰大会上,习近平总书记发表重要讲话,站
为了提高对艺术品的三维重构和分拣能力,提出一种基于视觉传达的艺术品颜色分拣方法.采用颜色特征提取方法进行艺术品视觉图像的三维重构,结合稀疏散乱点重组方法进行艺术品
<正>"五十六个民族五十六枝花,五十六族兄弟姐妹是一家。"中华民族和各民族的关系,形象地说,就是一个大家庭和家庭成员的关系;各民族之间的关系,就是一个大家庭里不同成员的
当前,随着国有企业改制的不断深入,为数众多的国有企业借改制之机,逃避或悬空金融债务的事时有发生。以濮阳市为例,2006年发生逃废债诉讼案件4030件,涉案金额5115万元,结案42件,执行
本文以海上承运人的责任期间为研究对象,通过比较国内审判实务、相关国际公约、正在起草的运输法草案等,分析我国《海商法》中责任期间制度所面临的问题,并提出解决方案。遵