【摘 要】
:
互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实
论文部分内容阅读
互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实社会的镜像,因而可以采集BBS中的数据,为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以BBS实时数据为基础的。本文在分析国内外BBS热点话题发现与监控现状和发展的基础上,从系统的整体设计和实现过程入手,深入分析系统结构设计和系统处理流程等方面的问题。本文的主要研究内容如下:(1)BBS数据采集:数据采集是整个热点话题发现与监控系统的基础,本文利用传统网络爬虫的运行原理,并结合论坛的特征,提出基于论坛版块扩展的BBS数据采集策略,实现对BBS论坛的高效采集。(2)BBS数据预处理:采集所得的数据为非结构化数据,系统需要对其处理,使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个主要步骤。(3)BBS热点话题发现:话题识别是热点话题发现的关键步骤,本文采用Single-Pass聚类算法进行话题识别,在实际应用时针对原算法存在的缺陷做了相应改进,并给出实验结果及和分析。在话题识别的基础上,综合话题包含的主题贴子数、参与讨论的ID数、回复数、浏览数等信息,对话题进行热度评分,筛选出论坛中的热点话题。(4)BBS热点话题监控:本文采用基于自主学习的1NN增量分类算法来实现对BBS热点话题的监控。
其他文献
近年来,学术界针对数据发布中的隐私保护问题已经提出了许多模型和算法,这些模型和算法在不同程度上解决了数据发布中的隐私泄露问题。但是,现有的模型和算法主要是针对分类
目前在计算机视觉和模式识别领域内,非负矩阵分解(NMF)越来越多得被用作特征提取。NMF寻找两个小的非负矩阵,使得它们的乘积能够最好的拟合原始矩阵。而非负的这个限制导致了
无线传感器网络是由在监测区域内部署的大量多功能、低能耗、廉价的微型传感器节点组成的智能专用网络。由于具有部署灵活、扩展方便、价格低廉等优点,无线传感器网络在工业、
数字水印技术在图像、视频和文本等多媒体载体上的应用已经成熟,但在嵌入式系统、集成电路设计等领域的知识产权保护仍处于探索阶段。考虑到设计和开发一个新的FPGA芯核电路需
网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需
面向服务的体系架构(Service Oriented Architecture,SOA)的提出,使软件开发从传统的面向对象方式向面向服务方式转变。作为可以在组织内部的异构计算资源中被共享、组合和复
电子商务中产生越来越多的产品和交易信息,使得用户快速找到自己想要的产品变得越来越困难。同时,电子商务企业也面临着如何推荐让用户满意的产品从而提高销售量的问题。电子
基于生物感知的图像显著特征分析在二十世纪九十年代末兴起,并逐渐成为生物视觉感知领域研究的焦点。该方法结合人类心理学和生理学理论知识,基于人类视觉注意机制,模拟人眼
本文是以步态识别为应用背景,主要探讨了步态识别中的模板选择和模板上的特征提取问题。步态识别经历多年的发展,逐渐形成了基于模型和无模型两种基本稳定的框架,基于模型的
随着计算机和通信技术的迅猛发展,多媒体技术也日新月异,网络娱乐节目的内容形式从由文字和图片为主逐渐向视频过渡。网络提供给人们享受丰富多彩视频节目的同时,也给色情、