基于Web的有监督自适应话题追踪系统的设计与实现

来源 :北京工商大学 | 被引量 : 0次 | 上传用户:shmi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的出现和普及,在互联网上传播的资讯浩如烟海。面对海量的互联网媒体资讯,人们需要一种手段能够快速、准确地获取自己感兴趣的有关某一话题的相关信息。话题检测与追踪技术(TDT)正是为了满足这种需要,它是一种研究如何检测新发生的话题事件并追踪话题事件后续发展动态的信息智能获取技术。本文根据北京市教委科技发展计划资助项目“主题新闻服务系统”课题展开研究,围绕TDT的发展方向,提出并实现了一个有监督自适应话题追踪系统的解决方案。 本文提出的话题追踪系统的解决方案主要包括以下几个方面: (1)信息抽取技术:为了充分利用互联网的资源,为用户提供某个话题的相关信息,本系统采用了基于模板匹配的信息抽取技术,对互联网上与某个话题相关的信息进行抽取,这样可以有效地提高信息采集的准确率。 (2)追踪数据源配置工具:被追踪的话题的语料往往存在于不同的数据源中,为了提高话题追踪系统的灵活性,针对不同的数据库源和文本源,本系统采用修改Xml配置文件的方式,来达到不修改程序就可完成对不同数据源追踪的目的。 (3)有监督自适应话题追踪算法:现有的打分算法比较多,IBM采用的对称Okapi公式算法是目前国际上比较领先的算法,在TDT评测中名列前茅。已有的话题追踪技术都面临难以处理话题漂移现象、训练样本较少等困难,本文在IBM的对称Okapi公式算法基础上,通过人工调整关键词和增量学习的方式,基于话题追踪任务中的有监督自适应机制提出了一种新算法,改进了话题追踪的效果。 (4)话题追踪信息服务:通过充分考虑用户的需求,本文设计并实现了一个基于Web的话题追踪系统,该系统分别提供了话题管理、话题分析、话题检索、个性化定制等服务功能。另外,本文还对各个服务模块功能的实现进行了描述。 本文的特色和创新之处在于:基于有监督自适应机制提出了一个话题追踪新算法,设计并实现了一个基于Web的话题追踪系统。通过实验对有监督自适应话题追踪系统与无监督自适应话题追踪系统进行性能比较,实验数据表明新算法能够有效的降低话题追踪的误报率和漏报率,提高话题追踪的性能。
其他文献
当前,随着网络的高速发展,以及网络的突发业务流量的急剧增加,网络应用系统的性能已经成为人们关注的焦点。深入研究表明,在真实的网络应用环境中,自相似模型更适于描述真实
电子选举是密码学的重要应用方面,与传统的人工选举相比,电子选举可以节约大量的人力物力,具有明显的优点。目前已发展的电子选举协议的安全性都依赖于中央机构,这就要求投票
随着信息科技的高速发展,解放军大力加强了部队各方面的信息化建设。解放军某部针对新时期干部管理特点,基于成熟的目标管理理念,并以某设计研究所为试点研制和开发了基于B/S
随着并行计算的规模越来越大,超级计算机的规模扩展到成千上万的独立节点,这意味着硬件更容易在运行时间较长的任务时发生故障,已经有结论表明超过10万个处理器节点的系统在
伴随着数据库和网络技术的快速发展和迅速普及,在高校和企业内部使用的不同业务系统,由于是在不同时期,采用不同的技术标准和开发平台来建设的,信息孤岛现象日益严重,综合集
高斯混合模型能够用参数化的方法描述样本空间中的数据分布,将高斯混合模型的参数作为图像的特征具有简洁高效的优点。层次性图像检索在图片高斯混合特征的基础上通过聚类得
为了解决计算能力有限的对象(用户)所面临的大维数方阵的高次幂计算问题,作者利用云计算平台(云服务端),提出了一个方阵幂可验证安全云计算外包方案。该方案中包含两个不同的
蒙特卡罗马可夫链(MCMC)算法是概率推理中的重要方法,在统计学、人工智能、图形学、统计物理等有重要应用。MCMC算法对机器的计算速度和存储空间有很高的要求。并行计算机能
在现代社会中,随着科技与经济的飞速发展,人们对身份识别技术的重视程度也进一步提高。但是,传统的身份识别技术由于其自身固有的缺点已经不能满足社会发展的要求,生物特征识
随着网络信息技术、移动通信技术以及移动数字终端技术的快速发展,移动商务应用越来越广泛,尤其在企业级的应用更是前景无限。OLAP(Online Analyical Processing,联机分析处