论文部分内容阅读
随着互联网技术的迅猛发展,网络信息逐渐成为个人及企业的主要信息来源,这些丰富多样的信息资源在给人们带来便利的同时,也充斥着大量不良信息,如反动、色情、毒品、赌博、非法营销的产品广告等,既不利于建设绿色健康的网络环境,也会对获取信息的过程造成障碍。鉴于网络信息中文本信息所占比例较大,对不良文本过滤技术的研究有助于净化整体网络信息,从而快速有效地取得有用文本信息,具有很高的实际应用价值。本文以基于向量空间模型(VSM)的朴素贝叶斯算法为核心,提出了一种面向大量流动网络信息的不良文本过滤技术,并对其中所包含的方法、模型进行研究及改良,最终实现针对指定系统的不良文本过滤。本文主要研究工作和成果如下:(1)使用VSM作为文本表示方法,通过对特征选择方法的改良,确定类中心向量集合。优化朴素贝叶斯算法的方法模型,从而训练得到适用于文本过滤的分类算法,为后续技术的提出奠定基础。(2)提出一种基于朴素贝叶斯算法的不良文本过滤技术,该技术引入假设检验思想,首先使用Ansj中文文本分词方法,然后将基于VSM的朴素贝叶斯分类算法与不良文本过滤相结合,最终应用类别阈值集合完成验证,实现对不良文本的筛选过滤。(3)使用Java语言编写网络爬虫,应用Jsoup开源HTML解析器,分析各指定网站的网页结构,实现语料信息的抓取。在此基础上,结合应用系统信息分析筛选语料,形成最终语料集合。(4)应用Eclipse开发了基于朴素贝叶斯算法的不良文本过滤技术测试平台,采用一组基础测试对本文所提过滤技术的可行性进行了验证,并通过三组对比测试,进一步证明了该技术的过滤效果及其他改良效果。