基于新闻时空要素的新事件检测方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:woshizzh1713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展以及计算机用户的急剧增加,互联网已经成为人们获取信息的一项主要途径。然而互联网上很多重要的信息一般都被其它信息掩盖,人们很难从如此众多的网络信息资源中获取到有用的信息。尤其是在当今社会,突发事件已经成为困扰世界各国的重大问题,人们对突发事件的发生以及影响比较关注,相关人员需要第一时间掌握相关动态。本文的研究对象——新事件检测(NED)的目标就是检测出报道一个新闻话题种子事件的第一篇新闻。本文主要针对时间与地点在新闻报道中的作用进行研究,把时间与地点作为新闻报道间计算相似度的重要测度。并针对新事件检测过程中新闻簇的漂移现象进行了一定的分析研究,设计相关的新闻簇模板更新算法来减少漂移给新事件检测带来的影响。本文的主要工作为以下几点:1.本文采用特征加权的方式对传统的tf-idf模型进行改进。设置了一个参数ω,用参数ω来调整特征项权值的大小,这样就对一些词频低,但是比较重要的特征词的权重做了适当的放大,从而提高新事件检测的准确率。2.设计了一个基于主题要素的突发事件新闻新事件检测算法,利用时空信息提高新事件检测效率。对时间信息与地点信息进行规范化,分别计算出新闻报道与新闻簇的时间相似度与地点相似度;并将时间相似度、地点相似度与内容相似度三者结合起来表示新闻文档间的相似度。3.引入了特定的新闻簇模板自动更新算法,让新闻簇模板的表示随着新闻报道的不断加入而发生变化。4.设计了一个实验系统,分为五组实验,并从失报率、错报率、标准化代价函数三个方面对本文采用的方法进行评测。
其他文献
随着IP网络的迅速普及和相关技术的进步,VoIP技术不断发展并被广泛应用。依赖VoIP技术和IP网络,企业就可以构建自己的通信系统,为企业内部提供通信服务。公共交换电话网络因
嵌入式实时技术和人机交互技术是当今世界的两大热门技术,已经被广泛应用在工业控制、交通管理、环境监测等民用领域,同时在武器装备信息化等军事领域也得到了重要的应用。而
学位
作为计算复杂性的一个重要分支,判定树复杂性从上世纪70年代开始就受到了广泛的关注,并且被发现和其他的理论计算机方向,比如通信复杂性,电路复杂性,布尔函数分析等有着深刻的联系
在信息时代,人们积极探索如何及时有效地从信息的海洋中获取有用的知识。数据发布作为数据交换和共享的一种有效方式已被许多机构和组织采用。但是,数据发布也带来了个人隐私以
随着邮政综合网的互连互通,网络环境下邮政应用系统的使用越米越广泛,因此探讨如何为邮政综合网的安全运行提供更好的技术保障,显得尤为必要。现有的网络安全技术有入侵检测、杀
学位
图像分割是由图像处理进入到图像分析的关键步骤,是图像工程中的一个重点和难点。目前关于图像分割已有很多成熟的算法,不同算法都有各自的优点和不足之处。由于细胞图像的特
随着控制技术、计算机技术、通信技术的飞速发展,现场总线技术正逐渐取代集散控制技术。PROFIBUS现场总线技术作为应用最为广泛的现场总线技术之一,截止至2008年8月,其安装节点
计算机辅助教学(Computer Aided Instruction,CAI)是现代科学技术在教育领域的主要应用。随着校园网络的普及,基于校园网环境下的网络多媒体学习系统逐渐成为CAI教育发展的研究
学位
随着互联网的迅猛发展,流媒体成为网络上的重要传输内容。然而,由于流媒体的先天特征,导致了流媒体商家和作者对媒体版权的权益受到侵害变得异常简单。这也正是促进DRM技术进步
随着计算技术的逐步发展,一种新的计算模式--普适计算,正从学术研究逐渐走向实际应用。普适计算环境中,各种嵌入的,移动的和固定的计算、传感设备存在于看得见或者看不见的每一个