论文部分内容阅读
向量空间检索模型在话题识别与追踪领域的成功应用,从理论上证明用于信息检索的贝叶斯网络模型亦可用于该领域。信念网络模型属于基于贝叶斯网络的检索模型的一种,论文尝试将其用于话题识别与追踪模型的构建,为该领域提出新的研究方法。特征选择是话题模型构建的基础,互信息是文本处理领域一种有效的特征选择方法。在基本互信息的基础上,将出现相同高频词的新闻报道进行聚类,计算聚类后术语的互信息,将追踪到的相关报道的发生时间和话题的发生时间量化为时间距离,使其反比影响互信息的动态更新,得到基于聚类的动态互信息计算方法,用于计算新闻报道中术语的权重。为了获得TDT4语料中,每个话题的初始特征子集规模,给出基于类内距离最小、类间距离最大的目标函数,并采用坐标下降法对其求解。结合信念网络模型和新闻报道的特点,给出四个基于信念网络的话题模型BSTM-I、BSTM-II、BDTM-I和BDTM-II。BSTM-I包括三类节点:新报道节点、术语节点和话题节点,弧体现节点间的隶属关系。BSTM-II在BSTM-I的基础上加入事件节点,弧的指向和意义不变,为体现核心报道、核心事件的重要性,BSTM-II对核心报道、核心事件中的术语权重进行了两次线性提高调整。BDTM-I属于动态话题模型,节点类型和弧的意义与上述模型相同,不同的是在话题追踪过程中,其术语层会随着话题的发展而不断更新,重复出现的术语权重采用求和平均的方法更新,新出现的术语作为新的节点插入术语层。以上三个话题模型沿用了传统建模思想,具备和以往模型相同的优缺点。BDTM-II打破传统建模的思想,运用信念网络模型提供了一个灵活框架的优势,将术语节点分为两类:初始核心术语节点和更新术语节点,并采用析取手段将它们作为两类证据进行归并。依据模型的拓扑结构,给出了上述四个模型计算新闻报道和话题相似度的概率推导过程,用于判断新的新闻报道是否和话题相关。通过系统分析动态话题追踪的误报原因,提出动态话题追踪中的误报检测。该方法首先分析了时间距离、相似度差值、相似话题分布及与核心内容相似度分别如何影响误报检测,然后通过将这四项内容线性调和得到了误报检测因子的计算方法,用于判断追踪到的相关报道是否属于误报,若属于误报,则对部分特征权重进行衰减,并确定模型结构是否需要调整。实验采用TDT4语料,结合DET曲线验证了以上研究内容的合理性和有效性。