论文部分内容阅读
作为一个新兴的自然语言处理研究方向,话题检测与跟踪(TopicDetectionandTracking,TDT)是一项旨在基于事件对信息进行组织和利用的研究,也是为了应对信息过载问题而提出的一项应用研究。它是指在新闻专线和广播新闻等来源的新闻数据流中自动地发现话题并把话题相关的内容联系在一起的技术。自1996年TDT概念提出以来,国内外许多研究机构都参与了这一技术的研究。目前TDT研究已经引起了国内外研究者们的广泛关注,逐渐成为自然语言处理领域的一个研究热点,但国内在这方面的研究起步相对比较晚。 本文以文本形式的中、英文新闻报道流为处理对象,对话题检测与跟踪研究中的话题检测、话题跟踪以及报道关系检测三个子任务分别进行了深入细致地研究,并提出了多个行之有效的算法。具体来讲,本文从如下几个方面进行了研究: 1.研究了话题检测技术。本文针对话题检测研究中存在的两大难题提出了解决办法,即“难以区分”问题和话题的动态演化特性造成的困难。首先,对于“难以区分”问题,结合英语新闻报道的书写及内容特点,提出了词汇区分技术并给出了基于词汇区分技术的话题检测算法;其次,针对话题的动态演化特性造成的困难,提出了面向动态演化的双质心话题模型,并对其中的关键技术进行了详细阐述,包括分界点的建立、初始质心的建立与更新以及当前质心的建立与更新,并给出了基于双质心话题模型的话题检测算法;最后,分析了话题的时间特性,提出了基于话题持续时间的动态阈值模型,并结合其特点提出了一种比值法来选择和话题最相似的报道。 2.研究了基于查询向量的英语话题跟踪技术。具体来讲,对其中的三个关键问题进行了研究,即特征项抽取算法、特征项权值计算方法以及报道与话题的相关性判定方法。本文结合英语新闻报道的特点和多分类器融合的思想对上述三个问题提出以下几种有效的算法:提出了基于词汇区分与位置特征相结合的特征项抽取算法,此处的位置特征是指新闻报道的独特的头重脚轻的倒金字塔式结构;提出了基于多个特征项抽取算法融合的特征项权值计算方法,为了有效地融合多个特征项抽取算法,此处探索提出了“一个为主、其余为辅”的融合策略;提出了基于多数投票策略的双重过滤算法,该算法融合了余弦函数和加权和函数两种相似度计算方法。 3.研究了报道关系检测技术。本文认为为了得到高性能的报道关系检测系统,必须充分挖掘报道内容中所包含的信息。在此思想的指导下,受词汇共现分析的启发,提出了词汇动态共现技术。词汇动态共现是指满足一定关系约束的词对,而关系约束是指一组特征。本文还实现了基于词汇动态共现的报道关系检测系统,并验证了不同的关系约束对系统性能的影响。 4.研究了汉语话题检测与跟踪中报道和话题的相似度计算问题,结合对汉语缩略语的构词方式的分析,提出了基于词形与词频相结合的相似度计算方法。通过实验验证,该方法大大地提高了汉语话题检测与跟踪系统的性能。