论文部分内容阅读
话题发现与追踪研究是对大规模的新闻流数据进行分析,以期发现、追踪、组织其中包含的多个话题。话题被定义为“一个具体事件(或活动)以及与之直接相关的事件(或活动)集合”。自1996年确立研究方向以来,一直是自然语言处理领域的热点。到目前为止,话题发现与追踪相关技术已经被广泛应用,尤其是舆情监控和新知识发现这两个方面。本文对话题发现与追踪中的话题关联识别和话题追踪问题进行研究,在表示模型和关联追踪方法上提出了以下改进技术:话题关联识别,判断随机两篇报道的话题相关性,即是否描述同一个话题,是话题发现与追踪研究的核心技术。在这方面主要取得了以下研究成果:事件模型:对报道表示模型中的特征选择、相似度计算方法以及多向量表示模型的特征集合划分标准进行分析,提出了一种基于事件框架的多向量事件模型,并在使用过程中结合不均衡支持向量机分类模型解决了训练数据中正负样本比例失调的问题。此外,还对模型间的模糊匹配技术进行了初步研究。实验表明,基于事件模型的话题关联识别系统的性能有较大幅度的改进。动态信息扩充技术:针对单个报道中内容较少以及内含话题可能发生演化漂移的问题,把处理过的报道对充分利用起来,打破报道对之间的独立性,提出了一种动态扩充方法,并对扩充信息进一步分析研究,挑选出核心信息、名实体信息、依存名词三类信息进行精化,在最大程度上确保表示模型的有效性。实验表明,无论是动态扩充方法还是三种特征精化策略都能很好地改进话题关联识别系统的性能,是进一步改进识别效果的两个有效途径。话题追踪,根据一个话题的已知信息在一个报道流中追踪该话题的相关报道,是话题发现与追踪的主要研究内容之一,也是话题发现与追踪中唯一一个有先验知识的研究任务。在这方面主要取得了以下研究成果:动态话题模型:针对待追踪话题存在的话题漂移现象,提出了一种新的动态话题模型,这也是上述信息扩充技术的延续和深入。该模型使用一个基于话题的权重计算方法,把训练数据按话题聚类,从话题的角度度量所有追踪到的相关报道特征,在此基础上从全局的角度选择特征用于扩充,在学习相关信息的同时也尽可能地减小伪相关报道中的噪音影响。另外还用最新的话题无关报道来定位过滤当前话题模型中的动态噪音。实验表明,这种话题模型能够很好地动态调整发生了偏移的话题,不仅能够保证追踪性能不衰退,还能使追踪性能进一步提高。基于话题的权重计算方法也可以用于静态模型中的特征度量,并且是有效的。联合追踪方法:由于话题追踪中已知相关信息较少,致使追踪性能起点低,且无法处理追踪过程中遇到的新知识,同时也为了充分发挥话题关联识别技术在判断话题关联性方面的特点,提出了一种联合追踪方法。该方法首先从可包含任意话题的训练数据中设计一个独立于具体话题的基于关联特征的追踪方法,然后以线性组合的方式使该方法辅助基于已知信息的追踪方法。实验表明,联合追踪方法能够较好地解决上述问题,更重要的是该方法综合了本文提出的大部分改进技术且使性能获得累计改进。