论文部分内容阅读
话题关联识别用于判断新闻报道对流中每对中的两篇报道是否描述了同一个话题。为解决其中报道篇幅短小、稀疏问题严重及其内容存在漂移等问题,提出了一种动态信息扩充技术,用于改进报道表示模型。该技术用过去最新的话题相关报道来扩充当前报道,动态更新原有模型。此外,还研究了扩充信息的精化问题,通过有选择地加重一些重要特征的权重来减小扩充过程中噪音带来的影响。该方法在TDT4中的中文语料上进行了实验,结果表明动态信息扩充技术能够较大幅度地改进话题关联识别的性能,对多种特征采取的精化技术也对性能改进产生了较大影响。