网络新闻热点话题自动发现系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:guaiguainiu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,网络媒体已经成为当今社会的主流媒体和主要信息来源。然而,网络信息资源的爆炸式增长给用户的信息获取造成了很大的困难。如何从海量网络信息中及时、准确地获取热点信息,成为一个亟待解决的问题。  本文设计并实现了一个网络新闻热点话题自动发现系统,该系统由数据采集、数据处理和热点话题自动发现三部分组成,其中热点话题自动发现是系统的核心。本文的主要成果和创新点包括:1)依据新闻文本的结构特征和内容特征,对传统的文本向量化方案进行改进,主要的改进体现在特征选取和特征权重计算上;2)计算新闻文本相似度时,在余弦距离的基础上,引入了一个能够体现网络新闻报道时间特征的时间修正因子;3)采用K-Means算法和Single-Pass算法相结合的文本聚类方案,较好地结合了二者的优点;4)制定了一个基于话题的媒体关注度的话题热度计算方案,该方案不仅可以计算话题的当前热度,还可以计算话题在过去某一个时间段内的热度。  本文紧紧围绕网络新闻的基本特征,在深入研究热点话题自动发现系统实现流程的基础上,设计并实现了一个网络新闻热点话题自动发现系统,该系统能够从自动采集到的新闻数据中动态、实时地发现热点话题。最终进行的系统测试表明,系统预期功能得以实现,并达到了较好的性能指标。
其他文献
学位
近年来,随着我国经济的高速发展和商业活动的日趋频繁,货币的发行流通量逐年增大,点钞机在银行的日常业务中变得不可或缺。而目前市场上的点钞机多以钞票尺寸检测来识别票面面额,对不同版本纸币的兼容不够理想,因此对不同版本不同面额纸币进行自由混点存在一定制约。普通的点钞机可以实现相同版本相同面额纸币的清点并具有“磁性”、“紫光”和“红外”等一般鉴伪功能。本文在此基础上提出了一种基于图像识别技术的智能点钞机的
自20世纪90年代初文献报道应用体外冲击波技术促进骨折愈合以来 [1],国内外有关该技术治疗骨肌疾病的报道逐渐增多,并已成为研究热点 [2-12].近年来,通过不断深入研究及完善,
期刊
接入网是整个电信网最具有技术挑战性的区域之一。为了满足用户对带宽日益增长的要求,实现接入网的高速化、宽带化和智能化,各种接入技术层出不穷,如LAN、xDSL、Cable Modem
在现代通信系统中,高效快速的编码算法的研究已经成为视频图像传输的关键技术,是业界极为关注的热点课题。通过设计高效快速编码算法来实现视频码流的实时传输有着重要的工程
随着Internet的日益发展与扩大,基于Internet技术的各种应用快速发展。其中IPPhone就是近些年来兴起的实用技术。IPPhone又称VoIP(Voice over IP)或Internet电话,可实现语音,
微阵列技术的到来将对生物学和医学产生一场革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。微阵列基
随着互联网化、智能化大潮的来袭,互联网开始入侵家庭领域,“互联网+高清大屏”的新组合正在成为人们获取极致体验的新趋势,我们称之为“大屏互联网时代”。近年来基于安卓平台
无线移动通信自诞生以来,其发展速度令人惊叹。短短几十年移动通信系统已经历了第一代和第二代,完成了从模拟技术向数字技术的过渡。目前第三代移动通信系统的国际标准已经制定
世界测谎学百年发展的最新研究热点是红外测谎和MRI脑测谎。在此基础上,测谎系统微型化是必然发展趋势。2004年,美国已将微型语音测谎器嵌入眼镜结构的设计中。本工作选题是