基于突发事件新闻标题的过滤方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:kongling54321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决互联网上信息过载方便人们快速的找到自己所需的感兴趣的信息,产生了文本信息过滤技术。文本信息过滤是指根据用户的信息需求,从大规模动态文本信息流中自动选出用户所需的信息。当今,互联网是人们获取新闻必不可少的一种媒体。在网络上所有新闻中,近年来大家很关心那种不容易预测突然爆发的,在世界各国都可能引起重大影响的突发事件新闻,如:地震、流感、瓦斯爆炸和交通事故等新闻。对于突发事件新闻文本来说标题是一篇新闻报道内容的概括,是文本内容的浓缩,与文本主题密切相关,这部分的内容对于人们过滤信息有最重要的参考价值,利用标题进行文本过滤,可以起到事半功倍的效果。文章针对人们当前关心的突发事件新闻进行了基于突发事件新闻标题的过滤方法研究,并给出了过滤模型。该方法是利用突发事件新闻标题采用基于内容过滤的方法进行过滤,用户兴趣描述是根据用户提供示例文本的方式获得。  文章以突发事件新闻语料库为研究背景,结合突发事件新闻标题的特点,对突发事件新闻进行基于标题的文本过滤方法研究。该方法借鉴TFIDF思想,采用基于词频统计的方法,提出了以标题兴趣相关度为依据进行过滤。具体研究内容和方法如下:  (1)从突发事件新闻的特点出发,根据中科院分词软件2009版进行分词,对分词后出现的一些关键未登录词建立了突发事件新闻各个类对应的未登录词词典,将所建立的未登录词词典添加到分词软件中重新进行分词,从而完成突发事件新闻语料库中的一些关键的未登录词的识别问题。  (2)依据标题兴趣相关度方法进行过滤,先根据用户兴趣的描述计算出待过滤标题中各个特征的兴趣相关度,在此基础上再计算出标题兴趣相关度,将其与过滤阈值进行比较,大于过滤阈值的文本即满足用户需求。  (3)建立突发事件新闻的类别特征库,将标题特征和用户兴趣类特征的共现相似度应用于过滤中,重新确定标题中特征的兴趣相关度和待过滤标题的兴趣相关度,再根据此方法进行过滤研究。  根据以上的研究,文章对各个过滤方法进行详细阐述,并通过实验做了测试,实验证明所提出的过滤方法有较好的过滤效果。
其他文献
随着网络和存储系统的不断发展,数据集中存储、集中访问、分布处理的使用模式已经成为数据存储的发展趋势。存储集中带来数据访问对共享资源的竞争,导致在大规模并发访问时存储
在医学诊断和治疗的过程中,常常需要对比多幅图像进行分析以获得更精确和全面的信息。图像分析需要多幅图像的几何位置保持一致,即需要对多幅图像进行配准。因此,医学图像配准是
随着互连网的发展,P2P(peer-to-peer)己经成为发展最快的网络应用之一。有关调查表明,P2P业务已悄然占据了互联网业务总量的60%-80%,成为杀手级宽带互联网应用。P2P业务流量
本论文目的是根据部队实弹射击训练的立项需要,研究一套基于机器视觉(图像处理)技术的自动报靶系统。本系统主要目标是实现计算机自动报靶,减少传统射击训练中效率低、安全性
稀疏矩阵相关算法是典型的非规则算法,也是数值计算领域重要的组成部分,现已被广泛应用到各个领域之中。随着数值计算领域的发展,稀疏矩阵算法库已经成为高性能领域的研究热点。
移动对象索引的效率是移动数据管理系统的核心问题。由于大量移动对象位置的频繁改变,导致基于移动对象位置的索引执行效率非常低下。如何降低移动对象位置改变而带来的索引
随着信息化技术和医学数字化影像设备在医学领域中日益广泛的应用,医院每天都将产生大量的医学图像数据。如何有效地管理和运用这些数据成为了目前的研究热点,因此基于内容的
随着时态数据库的深入研究,时态数据量的日益增大,外层应用对时态数据的检索提出了更高的要求。本文建立了一个双时态数据检索模型,结合时态查询的需求,扩充了数据查询语言;并分析
植物是生物圈的重要组成部分,在人类生产、生活的众多领域中都发挥着不可替代的作用。植物分类学是植物学研究和农、林业生产经营领域中非常重要的基础性工作,分类的主要依据
嵌入式设备联网的潮流是大势所趋,如何让嵌入式系统利用丰富的网络资源是当今研究的热点,而嵌入式协议栈的研究是联网设备和技术的研究与开发的热点之一。 TCP/IP协议栈是一