论文部分内容阅读
随着互联网的出现和普及,在互联网上传播的资讯浩如烟海。面对海量的互联网媒体资讯,人们需要一种手段能够快速、准确地获取自己感兴趣的有关某一话题的相关信息。话题检测与追踪技术(TDT)正是为了满足这种需要,它是一种研究如何检测新发生的话题事件并追踪话题事件后续发展动态的信息智能获取技术。本文根据北京市教委科技发展计划资助项目“主题新闻服务系统”课题展开研究,围绕TDT的发展方向,提出并实现了一个有监督自适应话题追踪系统的解决方案。
本文提出的话题追踪系统的解决方案主要包括以下几个方面:
(1)信息抽取技术:为了充分利用互联网的资源,为用户提供某个话题的相关信息,本系统采用了基于模板匹配的信息抽取技术,对互联网上与某个话题相关的信息进行抽取,这样可以有效地提高信息采集的准确率。
(2)追踪数据源配置工具:被追踪的话题的语料往往存在于不同的数据源中,为了提高话题追踪系统的灵活性,针对不同的数据库源和文本源,本系统采用修改Xml配置文件的方式,来达到不修改程序就可完成对不同数据源追踪的目的。
(3)有监督自适应话题追踪算法:现有的打分算法比较多,IBM采用的对称Okapi公式算法是目前国际上比较领先的算法,在TDT评测中名列前茅。已有的话题追踪技术都面临难以处理话题漂移现象、训练样本较少等困难,本文在IBM的对称Okapi公式算法基础上,通过人工调整关键词和增量学习的方式,基于话题追踪任务中的有监督自适应机制提出了一种新算法,改进了话题追踪的效果。
(4)话题追踪信息服务:通过充分考虑用户的需求,本文设计并实现了一个基于Web的话题追踪系统,该系统分别提供了话题管理、话题分析、话题检索、个性化定制等服务功能。另外,本文还对各个服务模块功能的实现进行了描述。
本文的特色和创新之处在于:基于有监督自适应机制提出了一个话题追踪新算法,设计并实现了一个基于Web的话题追踪系统。通过实验对有监督自适应话题追踪系统与无监督自适应话题追踪系统进行性能比较,实验数据表明新算法能够有效的降低话题追踪的误报率和漏报率,提高话题追踪的性能。