论文部分内容阅读
现代计算机网络已经渗透到人类生活的方方面面。网络上每天充斥着海量的信息并且时时更新,如何筛选甄别网络信息成了一项日益严峻的研究任务。话题跟踪技术就是在此基础上发展起来的。该项研究主要针对新闻报道类信息,目的是监控新闻报道信息流,持续收集指定话题的后续报道。而具备自学习能力的话题跟踪系统被称为自适应话题跟踪。本文主要进行了以下几方面的研究工作:首先,针对话题跟踪任务中存在的训练语料稀疏和话题漂移问题,本文提出了基于静态模型和动态模型相结合的双态话题模型自适应技术。其中,动态模型结合滑动文本窗机制捕捉话题新内容并去除过时内容,及时反映话题侧重点的变化,同时扩充了话题模型的语料;静态模型起制衡作用,避免可能存在的错误判断。在与现有话题跟踪系统实验对比结果中,准确率提高2.73%,召回率提高1.98%,综合指标提高2.42%。双态话题模型可以显著提高自适应话题跟踪系统的性能。其次,话题跟踪中的固定阈值有初始值难以确定和调整幅度难以把握的缺点。针对这一问题,本文对现有的阈值算法进行了总结,并结合动态阈值模型,探讨了两种新的自适应阈值模型算法。实验结果中,准确率比改进之前提高了2.65%;召回率提高了12.20%;综合指标提高了7.41%;而阈值适应区间仅为0.05。即本文提出的改进算法在不需要大量实验测取经验值、实验坏点相对较少的优势下,可以达到较好的自适应跟踪性能。最后,针对话题模型中存在大量非重要特征噪声这一问题,将语义域话题模型首次应用到了自适应话题跟踪系统中。以新闻标题作为报道语义域的凝聚核心,以句子为单位集聚报道主题,保留特征空间的主要内容。实验结果中,准确率提高0.96%,召回率提高4.40%,综合指标提高了2.64%,语义域话题模型在简化步骤的同时,达到了较高的系统性能。自适应话题跟踪技术是自然语言处理、数据挖掘、智能信息处理等各领域交叉学科的重点研究内容,又是实际生活中提供便捷信息获取方式的重要手段。因此,无论从技术还是应用上而言,自适应话题跟踪技术研究都具有广阔的前景。