自适应话题跟踪技术研究

来源 :华北电力大学(保定) 华北电力大学 | 被引量 : 0次 | 上传用户:yange20092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代计算机网络已经渗透到人类生活的方方面面。网络上每天充斥着海量的信息并且时时更新,如何筛选甄别网络信息成了一项日益严峻的研究任务。话题跟踪技术就是在此基础上发展起来的。该项研究主要针对新闻报道类信息,目的是监控新闻报道信息流,持续收集指定话题的后续报道。而具备自学习能力的话题跟踪系统被称为自适应话题跟踪。本文主要进行了以下几方面的研究工作:首先,针对话题跟踪任务中存在的训练语料稀疏和话题漂移问题,本文提出了基于静态模型和动态模型相结合的双态话题模型自适应技术。其中,动态模型结合滑动文本窗机制捕捉话题新内容并去除过时内容,及时反映话题侧重点的变化,同时扩充了话题模型的语料;静态模型起制衡作用,避免可能存在的错误判断。在与现有话题跟踪系统实验对比结果中,准确率提高2.73%,召回率提高1.98%,综合指标提高2.42%。双态话题模型可以显著提高自适应话题跟踪系统的性能。其次,话题跟踪中的固定阈值有初始值难以确定和调整幅度难以把握的缺点。针对这一问题,本文对现有的阈值算法进行了总结,并结合动态阈值模型,探讨了两种新的自适应阈值模型算法。实验结果中,准确率比改进之前提高了2.65%;召回率提高了12.20%;综合指标提高了7.41%;而阈值适应区间仅为0.05。即本文提出的改进算法在不需要大量实验测取经验值、实验坏点相对较少的优势下,可以达到较好的自适应跟踪性能。最后,针对话题模型中存在大量非重要特征噪声这一问题,将语义域话题模型首次应用到了自适应话题跟踪系统中。以新闻标题作为报道语义域的凝聚核心,以句子为单位集聚报道主题,保留特征空间的主要内容。实验结果中,准确率提高0.96%,召回率提高4.40%,综合指标提高了2.64%,语义域话题模型在简化步骤的同时,达到了较高的系统性能。自适应话题跟踪技术是自然语言处理、数据挖掘、智能信息处理等各领域交叉学科的重点研究内容,又是实际生活中提供便捷信息获取方式的重要手段。因此,无论从技术还是应用上而言,自适应话题跟踪技术研究都具有广阔的前景。
其他文献
摘要:数字签名技术是网络信息安全的重要手段之一,群签名是一种特殊的数字签名,并具有额外的安全属性。然而随着电子商务、电子政务的飞速发展,对群签名提出了许多特殊的要求,
摘要:近年来,无线定位技术在应急通信、公共安全、资讯服务、导航追踪等领域取得了长足的发展,但大多数定位解决方案都是基于卫星的室外定位。因为室内环境下接收不到卫星信号
随着互联网技术的发展和医疗信息化的推进,跨医院的医疗信息数据共享逐渐形成,数据规模庞大、来源多样化所带来的网络安全问题及支付安全等问题愈发凸显。本文针对目前医院网
近年来以WLAN和3G为代表的无线网络技术及其应用都在飞速发展。然而WLAN和3G网络都具有各自的优势,同时也具有很强的互补性,两者的融合将为用户提供高速率、广覆盖的具有极高性
在公路养护中,路面裂缝是衡量公路质量最重要的一个指标,目前国内主要依靠人工来检测高速公路的路况,不仅会受到养护工主观意识的影响,而且还浪费了大量的人力资源,因此基于
随着移动通信技术的飞速发展和移动网络的快速演进,移动视频监控已经广泛应用于城市交通、家居安防等领域。基于移动性的优势,移动视频监控还可以应用在应急指挥、救灾抢险等对
针对频偏估计问题,本文从理论和仿真实验的角度对TD-SCDMA系统基于Midamble码的频偏估计算法、OFDM系统基于PN序列和基于循环前缀的频偏估计算法进行了研究。首先研究了频偏产
目前,图像和视频已经越来越成为多媒体的主要表现形式,如何有效地从大规模的图像视频数据中定位用户真正需要的图像块,已经成为了图像和视频处理领域比较热门的问题,感兴趣区
无线电频谱资源是信息社会发展的重要基础和战略性资源。随着信息通信业务的迅猛发展,频谱资源紧缺问题越来越突出。优化频谱资源配制、提高频谱利用效率是解决频谱紧缺问题的
随着互联网和无线移动通信技术的发展,人们对移动多媒体业务的需求越来越大。然而网络丢包及无线信道中出现的数据差错与丢失造成了接收端图像质量的下降。而多描述编码能满