网络热点话题发现系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:WUTEK2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,人们更加倾向于从网络上获取所需的新闻热点信息。由于网络数据具有信息来源广、传播速度快、内容杂乱无章等特性,想要从海量的网络信息流中发现自己感兴趣的话题具有一定的难度,因此需要寻找一种能够自动地对网络数据进行处理并发现热点话题的方法。网络热点话题发现正是利用网络爬虫、文本预处理、话题发现及热点话题识别等技术,自动地抓取网络文档并发现大众感兴趣的热点话题,因此逐渐成为研究的热点内容。通过对话题发现算法的研究,设计一种基于密度聚类策略与Single-pass策略相结合的双层文本聚类模型,并利用该模型进行网络话题发现。针对网络数据巨大的特性,先利用DBSCAN算法对单次爬取的网络数据进行小规模聚类形成话题微类,再利用Single-pass策略对微类执行增量聚类形成话题类。针对双层模型中采用的Single-pass策略计算速度慢的缺点,将该算法进行了改进。由于传统的Single-pass策略需要将文档与话题类中包含的全部文档执行相似度计算,效率较低。结合质心的概念,将微类和话题类都表示成质心向量的形式,这样仅需比较微类跟话题类质心向量的相似程度,降低了计算的复杂度。在网络热点话题识别部分,设计一种话题热度度量模型,该模型结合媒体和用户两方面对话题的关注程度,将影响话题热度的相关因素量化,从而得出热度量化公式。利用公式测量话题的热度并依据测量的热度值将话题排名。在研究相关技术的基础上,利用网络爬虫、话题发现以及热点话题识别技术设计并实现了一个网络热点话题发现系统。通过将系统采用的双层模型与传统的Single-pass策略对比,验证了双层模型方案的可行性。将系统对网络数据进行处理,并将处理结果与各典型网站提供的热点话题进行对比,验证了系统的有效性。
其他文献
文本分类是一个传统而又历久弥新的话题,在互联网技术日益发达的今天,其应用越来越广泛。在文本分类的过程中,由于用特征向量表示文本时的高维性、高稀疏度等特点,特征选择显
BSP(Board Support Packet——板级支持包)是介于底层硬件和上层软件之间的底层软件开发包,其主要功能为屏蔽硬件,提供操作系统的引导及硬件驱动。Linux操作系统目前已发展为
面向对象数据模型将面向对象思想与数据库技术相结合,以一种很自然的方法解决了传统信息项目中遇到的诸多问题,面向对象方法作为理论时下已应用到绝大多数信息化系统设计中。面
随着智能移动设备的广泛应用,人们的日常行为很容易被拥有位置记录功能的设备所获得并存储。被记录的这些位置数据不但清楚地标识了用户所在的物理位置,而且还隐含了用户的一
密码安全在计算机信息安全领域中受到越来越广泛的关注,对于密码破解技术的研究也层出不穷。密码破解技术不仅仅在非法领域中得到使用,它还能被应用于电子取证等合法领域。对
在电厂设备的维修领域中,预测维修是近十年发展起来的一门综合性新技术,汽轮机预测维修是其中的研究热点之一.根据电厂提出的实际需求,济南大学计算机应用研究所与山东鲁能控
伴随着计算机网络和多媒体技术的发展,人们不仅仅满足于用单模态数据来描述一篇文档,包含多种模态的多媒体文档越来越频繁的出现在网络中,因此跨媒体检索也越来越受到人们的
无线传感器网络是一种新型的、无基础设施的、自组织的无线网络。近年来随着微电子技术、传感器技术及通信技术的发展,无线传感器网络技术发展迅猛,进展很快,而且在军事与民用方
Ad Hoc网络是随着无线通信技术的快速发展而出现的一种新型网络,节点能够自由进入网络拓扑并且无须基础设施的特性,使得Ad Hoc网络的出现推进了实现在任意环境下自由通信的进程
工作流管理系统的最重要功能之一就是工作流建模。一个好的工作流模型是实现一个具有高度灵活性、可靠性、可用性、可伸缩性和互操作性的工作流管理系统的关键和基础。工作流