新闻话题表示模型和关联追踪技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:gx2784500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题发现与追踪研究是对大规模的新闻流数据进行分析,以期发现、追踪、组织其中包含的多个话题。话题被定义为“一个具体事件(或活动)以及与之直接相关的事件(或活动)集合”。自1996年确立研究方向以来,一直是自然语言处理领域的热点。到目前为止,话题发现与追踪相关技术已经被广泛应用,尤其是舆情监控和新知识发现这两个方面。本文对话题发现与追踪中的话题关联识别和话题追踪问题进行研究,在表示模型和关联追踪方法上提出了以下改进技术:话题关联识别,判断随机两篇报道的话题相关性,即是否描述同一个话题,是话题发现与追踪研究的核心技术。在这方面主要取得了以下研究成果:事件模型:对报道表示模型中的特征选择、相似度计算方法以及多向量表示模型的特征集合划分标准进行分析,提出了一种基于事件框架的多向量事件模型,并在使用过程中结合不均衡支持向量机分类模型解决了训练数据中正负样本比例失调的问题。此外,还对模型间的模糊匹配技术进行了初步研究。实验表明,基于事件模型的话题关联识别系统的性能有较大幅度的改进。动态信息扩充技术:针对单个报道中内容较少以及内含话题可能发生演化漂移的问题,把处理过的报道对充分利用起来,打破报道对之间的独立性,提出了一种动态扩充方法,并对扩充信息进一步分析研究,挑选出核心信息、名实体信息、依存名词三类信息进行精化,在最大程度上确保表示模型的有效性。实验表明,无论是动态扩充方法还是三种特征精化策略都能很好地改进话题关联识别系统的性能,是进一步改进识别效果的两个有效途径。话题追踪,根据一个话题的已知信息在一个报道流中追踪该话题的相关报道,是话题发现与追踪的主要研究内容之一,也是话题发现与追踪中唯一一个有先验知识的研究任务。在这方面主要取得了以下研究成果:动态话题模型:针对待追踪话题存在的话题漂移现象,提出了一种新的动态话题模型,这也是上述信息扩充技术的延续和深入。该模型使用一个基于话题的权重计算方法,把训练数据按话题聚类,从话题的角度度量所有追踪到的相关报道特征,在此基础上从全局的角度选择特征用于扩充,在学习相关信息的同时也尽可能地减小伪相关报道中的噪音影响。另外还用最新的话题无关报道来定位过滤当前话题模型中的动态噪音。实验表明,这种话题模型能够很好地动态调整发生了偏移的话题,不仅能够保证追踪性能不衰退,还能使追踪性能进一步提高。基于话题的权重计算方法也可以用于静态模型中的特征度量,并且是有效的。联合追踪方法:由于话题追踪中已知相关信息较少,致使追踪性能起点低,且无法处理追踪过程中遇到的新知识,同时也为了充分发挥话题关联识别技术在判断话题关联性方面的特点,提出了一种联合追踪方法。该方法首先从可包含任意话题的训练数据中设计一个独立于具体话题的基于关联特征的追踪方法,然后以线性组合的方式使该方法辅助基于已知信息的追踪方法。实验表明,联合追踪方法能够较好地解决上述问题,更重要的是该方法综合了本文提出的大部分改进技术且使性能获得累计改进。
其他文献
<正>2014年9月26日凌晨三点五十五分,备受病痛折磨的毛丰美走了。听到消息,我和老伴急匆匆地赶到毛家,只见院里院外已经站满了人。个个神情悲戚,鸦雀无声,只有祭奠的哀乐沉重
河网概化是水利模型建立的关键,也是研究流域水环境的基础,针对如何科学合理的对流域河网进行概化并与实际河网基本一致这一问题。以黄河流域内蒙古段作为研究对象,基于河网
2010年7月29日正式公布实施的《国家中长期教育改革和发展规划纲要(2010-2020)》在战略主题中明确提出了"重视安全教育、生命教育、国防教育、可持续发展教育"。可见,"生命教
随着中学数学课程的改革,高中数学新教材中新增了研究性学习内容.如何通过对研究性课题的学习激发学生数学学习兴趣,成为中学数学教学中亟待解决的问题.本文从以下三方面简述
在全球化语境下,一种新的帝国主义形式出现了。这种新形式关联于美国,而它的特征可以从文化的角度来进行刻画,这就是文化帝国主义。借助于后福特主义的多元主义,文化帝国主义
产品特点 本品为吸传导型苗后选择性除草剂,杀草谱广,用药适期宽,使用方便,除草效果好,对小麦及后茬作物安全,增产增收。