基于规则和相关度的微博垃圾评论检测系统及实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:yellowerriver
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的使用在生活中已经成为一个很重要的信息来源或工作或娱乐或推广或寻觅,随着微博使用量的扩大,微博评论也变得丰富多彩,甚至有时回复成为了亮点。也正因此如此,越来越多的人开始关注微博评论,甚至是一些别有用心的垃圾评论制造者。然而微博垃圾评论的出现,让评论的形象大打折扣。因此本文重点是发现并处理微博中的垃圾评论,总结垃圾评论的规则和通过相关度判断出评论的发展趋势并利用WEB开发的B/S结构构建微博评论分类系统。新浪微博是当今微博几大平台之一,技术成熟的API接口为很多第三方开发用户提供了方便。本系统从新浪微博数据平台API接口下载微博评论,并作为实验样本,导入自行开发的垃圾微博评论分类系统中,存储到指定数据库,通过参数设定设定参数的初期规则库。将数据到如分类系统经过规则库过滤形成分类,在此同时分类的评论增强了评论规则库的成熟度。在过滤过程中使用到了神经网络和数据挖掘理论。利用神经网路来联系数据与数据之间的关系,通过长期总结的规则来评判评论的分类情况。本系统的特色在系统中的产生垃圾评论的同时还会通过相关度和数据挖掘形成新的信息来强壮本系统的规则库。这个过程产生了评论规则库。当规则库趋近成熟时分类结果更趋于所需分类结果。在程序中还涉及到可以切换人工手动挑选的功能,本文认为这是必不可少的,正所谓人工智能与人工密不可分,系统日志功能为系统的正常运行保驾护航。本系统的开发语言Java,采用JSP技术实现网页界面。Java最大优点是跨平台能力强,系统运行稳定。在大的数据处理的微博评论分类系统中,一个稳定的代码平台是刚性前提。以JS和CSS完成美化页面效果o SQL Server 2000为数据存储数据库,SQL Server2000数据库技术成熟,补丁完善。系统采用BS结构原因是在网络发展迅猛的今天通过网络浏览器就可以使用系统减少了安装环境步骤同时随时随地可以使用。
其他文献
随着大数据时代的到来,数据已呈爆炸式的增长,海量数据的存储已成为数据中心的首要问题,重复数据大量存在于信息处理与存储的各个环节中,如文件系统、邮件附件、web对象以及
人脸自动识别是一种利用计算机分析人脸图像特征以实现人的身份验证的技术,是近二十年来图像处理、模式识别和计算机视觉领域中极富挑战性的研究课题之一。多年来,人们对人脸识
面向对象模型基于方法学原理,关系数据模型基于集合论原理,理论基础的不同导致了两种模型之间的阻抗不匹配。为解决这一问题而提出的对象关系映射(Object Relational Mapping,简
数据网格通过使用网格技术将网络上分散、异构、局部自治的资源整合起来,通过有序管理和协同计算,消除信息孤岛,发挥综合效能,实现资源的广泛共享、有效聚合、充分释放,提供
随着对等网络(Peer-to Peer,即P2P)技术日趋成熟,P2P技术的应用领域也在逐步扩大。传统的文件共享系统发展日趋成熟,基于P2P的流媒体服务逐步走向完善,P2P游戏已经开始了尝试
大数据是当前计算机领域研究的热点问题之一。企业通过大数据分析消费者行为,部门销售数据等指标,能得出对企业增加市场竞争力产生重要作用的情报数据。随着大数据对企业发展
本文对飞机地面作业MAS开发平台的设计与实现进行了研究。主要内容包括: 第一,研究了飞机地面作业调度的工作任务,通过分析工作任务的特点,归纳了单机地面服务的任务流程,划分
无线局域网WLAN(Wireless Local Area Network)由于具有支持移动计算、架构灵活快捷、维护费用较低和可扩展性好等优点,得到了非常广泛的应用,但同时开放的无线传输介质也给WLA
目标跟踪,即实时提取视频中的目标和估计目标的位置和速率。目标跟踪技术在智能监控领域有着广泛的应用。单摄像头跟踪研究是目标跟踪研究的基础。本文主要对单摄像头单目标和
体绘制技术是科学计算可视化的一种重要方法,它能够从体数据集中抽取内在的本质信息,并借助交互式图形图像技术展现出来。由于体绘制是将三维空间的离散数据直接转换为二维图