基于信念网络的话题识别与追踪模型研究

来源 :河北大学 | 被引量 : 1次 | 上传用户:fancyyeast1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
向量空间检索模型在话题识别与追踪领域的成功应用,从理论上证明用于信息检索的贝叶斯网络模型亦可用于该领域。信念网络模型属于基于贝叶斯网络的检索模型的一种,论文尝试将其用于话题识别与追踪模型的构建,为该领域提出新的研究方法。特征选择是话题模型构建的基础,互信息是文本处理领域一种有效的特征选择方法。在基本互信息的基础上,将出现相同高频词的新闻报道进行聚类,计算聚类后术语的互信息,将追踪到的相关报道的发生时间和话题的发生时间量化为时间距离,使其反比影响互信息的动态更新,得到基于聚类的动态互信息计算方法,用于计算新闻报道中术语的权重。为了获得TDT4语料中,每个话题的初始特征子集规模,给出基于类内距离最小、类间距离最大的目标函数,并采用坐标下降法对其求解。结合信念网络模型和新闻报道的特点,给出四个基于信念网络的话题模型BSTM-I、BSTM-II、BDTM-I和BDTM-II。BSTM-I包括三类节点:新报道节点、术语节点和话题节点,弧体现节点间的隶属关系。BSTM-II在BSTM-I的基础上加入事件节点,弧的指向和意义不变,为体现核心报道、核心事件的重要性,BSTM-II对核心报道、核心事件中的术语权重进行了两次线性提高调整。BDTM-I属于动态话题模型,节点类型和弧的意义与上述模型相同,不同的是在话题追踪过程中,其术语层会随着话题的发展而不断更新,重复出现的术语权重采用求和平均的方法更新,新出现的术语作为新的节点插入术语层。以上三个话题模型沿用了传统建模思想,具备和以往模型相同的优缺点。BDTM-II打破传统建模的思想,运用信念网络模型提供了一个灵活框架的优势,将术语节点分为两类:初始核心术语节点和更新术语节点,并采用析取手段将它们作为两类证据进行归并。依据模型的拓扑结构,给出了上述四个模型计算新闻报道和话题相似度的概率推导过程,用于判断新的新闻报道是否和话题相关。通过系统分析动态话题追踪的误报原因,提出动态话题追踪中的误报检测。该方法首先分析了时间距离、相似度差值、相似话题分布及与核心内容相似度分别如何影响误报检测,然后通过将这四项内容线性调和得到了误报检测因子的计算方法,用于判断追踪到的相关报道是否属于误报,若属于误报,则对部分特征权重进行衰减,并确定模型结构是否需要调整。实验采用TDT4语料,结合DET曲线验证了以上研究内容的合理性和有效性。
其他文献
未来,我们所生活的城市会是什么样子呢?已经有很多建筑师提出了自己的想法,且令人耳目一新。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
【目的】初步探究纳米氧化锌(ZnONPs)暴露对小鼠生殖系统的急性损伤及其机制。【材料和方法】通过灌胃的方式向6-8周龄(约30 g)的健康昆明小鼠(雌雄各半)暴露纳米氧化锌,每次
运动性疲劳是指机体生理过程不能维持其机能在特定水平上和(或)不能维持预定的运动强度。足见运动疲劳是由运动引起的,而非病理原因。但是在运动训练或体育健身引起疲劳后,如果不
特征抽取是模式识别领域的核心问题之一,其主要任务是从原始样本信息中提炼出最有利于模式分类的有效鉴别信息。特征编码和回归分析方法因其计算简单、有效等特性在特征抽取
随着计算机网络与通信技术、多媒体技术的快速发展,数字化视频监控系统在国民经济的各个领域中都得到广泛地应用。视频监控系统具有监控目标实时性强、适于远距离传输、便于
一、前言现代心理语言学和认知心理学认为,话语理解涉及读者、文章、作者和上下文这几个因素的相互作用。在话语理解中,读者的个人知识、目的、兴趣等都影响着其对文章的理解,而
复习课是物理教学的难点,许多老师和学生认为复习课就是一味地重复、枯燥的说教,学生的学习也变成了机械的记忆,知识也不能很好的迁移并内化成自身的能力。以物理科学方法教