论文部分内容阅读
话题检测与跟踪(TDT)作为一项帮助人们解决信息过载问题的研究,以实现对新闻媒体信息流中新话题的自动识别和对已知话题的动态跟踪,以新闻专线、广播、电视等媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的报道,并将涉及某个话题的报道组织起来以某种方式呈现给用户。它的研究目标是要实现按话题查找、组织并利用来自多种新闻媒体的多语言信息。话题跟踪是TDT的子任务之一,本课题对突发事件的后续报道进行追踪,让人们可以知道该事件的最新动态,从整体上了解一个事件的全部细节以及该事件与其他事件之间的联系。本文研究了基于主题要素的向量空间模型,采用查询向量的话题跟踪方法,对突发事件新闻的后续报道进行追踪。考虑到新闻报道6大基本要素(5W1H)的重要性,本文尝试性地利用报道中的时间信息和地点信息以及事件内容来表示新闻文档,从而便于对突发事件新闻的后续报道进行追踪,提高跟踪效率。本文的主要工作有:1.通过对网上下载的突发事件新闻报道进行统计,深入分析了突发事件新闻报道本身特点以及与相关后续报道之间的联系,以便利用时间信息和地点信息。同时,根据国家的行政区域划分建立了包括省、市、区、县、乡镇等的地名库。此外,对事件、报道、后续报道等相关概念进行了扩充。2.对时间信息和地点信息的使用特点进行了分析,通过命名实体器识别,抽取并规范了新闻文本中的时间和地名。对于时间信息,比较了事件信息和报道时间信息之间的先后关系。通过地名粒度之间的相关度和地名在新闻文本中的位置等信息来计算地名之间的相似度。3.将时间信息、地名信息与事件内容结合起来表示新闻文档,提出了基于主题要素的突发事件新闻追踪算法,利用时空信息提高事件跟踪效率。4.设计了一个实验系统,可以抽取地名和报道时间并进行相似度计算和突发事件新闻的跟踪。为了证明本文研究方法的有效性,我们从收集的突发事件新闻语料中选择了20个事件共880篇报道进行了实验,实验结果表明本文所提出的方法在一定程度上提高了话题跟踪的效率。