话题检测与跟踪关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wdq007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个新兴的自然语言处理研究方向,话题检测与跟踪(TopicDetectionandTracking,TDT)是一项旨在基于事件对信息进行组织和利用的研究,也是为了应对信息过载问题而提出的一项应用研究。它是指在新闻专线和广播新闻等来源的新闻数据流中自动地发现话题并把话题相关的内容联系在一起的技术。自1996年TDT概念提出以来,国内外许多研究机构都参与了这一技术的研究。目前TDT研究已经引起了国内外研究者们的广泛关注,逐渐成为自然语言处理领域的一个研究热点,但国内在这方面的研究起步相对比较晚。  本文以文本形式的中、英文新闻报道流为处理对象,对话题检测与跟踪研究中的话题检测、话题跟踪以及报道关系检测三个子任务分别进行了深入细致地研究,并提出了多个行之有效的算法。具体来讲,本文从如下几个方面进行了研究:  1.研究了话题检测技术。本文针对话题检测研究中存在的两大难题提出了解决办法,即“难以区分”问题和话题的动态演化特性造成的困难。首先,对于“难以区分”问题,结合英语新闻报道的书写及内容特点,提出了词汇区分技术并给出了基于词汇区分技术的话题检测算法;其次,针对话题的动态演化特性造成的困难,提出了面向动态演化的双质心话题模型,并对其中的关键技术进行了详细阐述,包括分界点的建立、初始质心的建立与更新以及当前质心的建立与更新,并给出了基于双质心话题模型的话题检测算法;最后,分析了话题的时间特性,提出了基于话题持续时间的动态阈值模型,并结合其特点提出了一种比值法来选择和话题最相似的报道。  2.研究了基于查询向量的英语话题跟踪技术。具体来讲,对其中的三个关键问题进行了研究,即特征项抽取算法、特征项权值计算方法以及报道与话题的相关性判定方法。本文结合英语新闻报道的特点和多分类器融合的思想对上述三个问题提出以下几种有效的算法:提出了基于词汇区分与位置特征相结合的特征项抽取算法,此处的位置特征是指新闻报道的独特的头重脚轻的倒金字塔式结构;提出了基于多个特征项抽取算法融合的特征项权值计算方法,为了有效地融合多个特征项抽取算法,此处探索提出了“一个为主、其余为辅”的融合策略;提出了基于多数投票策略的双重过滤算法,该算法融合了余弦函数和加权和函数两种相似度计算方法。  3.研究了报道关系检测技术。本文认为为了得到高性能的报道关系检测系统,必须充分挖掘报道内容中所包含的信息。在此思想的指导下,受词汇共现分析的启发,提出了词汇动态共现技术。词汇动态共现是指满足一定关系约束的词对,而关系约束是指一组特征。本文还实现了基于词汇动态共现的报道关系检测系统,并验证了不同的关系约束对系统性能的影响。  4.研究了汉语话题检测与跟踪中报道和话题的相似度计算问题,结合对汉语缩略语的构词方式的分析,提出了基于词形与词频相结合的相似度计算方法。通过实验验证,该方法大大地提高了汉语话题检测与跟踪系统的性能。
其他文献
本文首先讨论了态势觉察中战场态势要素及其提取流程,研究了基于模糊推理和基于模板匹配的态势觉察技术。重点研究了事件检测及其实现方法,将战场事件划分为三类事件:基本事件、
在分析了移动通信网络中无线基站内部互连标准的基础上,针对目前无线基站系统内部互连的问题,本论文提出以串行RapidIO互连标准替代现有基站互连标准的无线基站架构方案,形成
近年来,随着硬件工艺的改进和无线网络技术的成熟,人们可以通过随身携带的移动终端(如智能手机、PDA、平板电脑等)随时随地乃至在移动过程中获取互联网服务。当前,在移动终端
在云计算环境下,云服务提供商通过网络为云用户提供按需的资源,如计算、网络、存储等资源。云用户的关注点不再立足具体的计算设备维护升级带来的成本,而是转向了云服务提供
E-Learning以网络技术和多媒体技术为核心,给教师和学生、学生和学生之间搭建了一座通信桥梁,为更多渴望知识的人提供获取知识的一种新的手段。然而,网络上知识载体呈现爆炸增长
作为一种实时应用,基于IEEE 802.11无线局域网的VoIP电话技术有其特定的需求,延时、抖动和丢包率等仍然是影响VoIP通话质量的主要因素。IEEE 802.11 MAC层协议采用基于载波监
运动控制器是大幅面彩色喷墨写真机的重要组成部分,写真机的一些重要的性能指标,如分辨率、色彩,绘图速度等都需要运动控制器来保证。本文分析了运动控制器的功能,并结合NIOSII系
从软件构件模型的角度出发,对软件的组装技术进行了研究,提出了基于软件构件模型的构件设计、制作和组装方法;并根据项目的需求,基于ASP.NET和C#语言实现了基于web的原子构件和复
学位
近年来,随着三维重建技术的发展,城市重建已成为学术研究和商业应用的热点。基于图像的城市重建技术能够高效且低成本地获取大规模城市三维模型。该技术首先使用图像序列生成