论文部分内容阅读
微博的使用在生活中已经成为一个很重要的信息来源或工作或娱乐或推广或寻觅,随着微博使用量的扩大,微博评论也变得丰富多彩,甚至有时回复成为了亮点。也正因此如此,越来越多的人开始关注微博评论,甚至是一些别有用心的垃圾评论制造者。然而微博垃圾评论的出现,让评论的形象大打折扣。因此本文重点是发现并处理微博中的垃圾评论,总结垃圾评论的规则和通过相关度判断出评论的发展趋势并利用WEB开发的B/S结构构建微博评论分类系统。新浪微博是当今微博几大平台之一,技术成熟的API接口为很多第三方开发用户提供了方便。本系统从新浪微博数据平台API接口下载微博评论,并作为实验样本,导入自行开发的垃圾微博评论分类系统中,存储到指定数据库,通过参数设定设定参数的初期规则库。将数据到如分类系统经过规则库过滤形成分类,在此同时分类的评论增强了评论规则库的成熟度。在过滤过程中使用到了神经网络和数据挖掘理论。利用神经网路来联系数据与数据之间的关系,通过长期总结的规则来评判评论的分类情况。本系统的特色在系统中的产生垃圾评论的同时还会通过相关度和数据挖掘形成新的信息来强壮本系统的规则库。这个过程产生了评论规则库。当规则库趋近成熟时分类结果更趋于所需分类结果。在程序中还涉及到可以切换人工手动挑选的功能,本文认为这是必不可少的,正所谓人工智能与人工密不可分,系统日志功能为系统的正常运行保驾护航。本系统的开发语言Java,采用JSP技术实现网页界面。Java最大优点是跨平台能力强,系统运行稳定。在大的数据处理的微博评论分类系统中,一个稳定的代码平台是刚性前提。以JS和CSS完成美化页面效果o SQL Server 2000为数据存储数据库,SQL Server2000数据库技术成熟,补丁完善。系统采用BS结构原因是在网络发展迅猛的今天通过网络浏览器就可以使用系统减少了安装环境步骤同时随时随地可以使用。