基于朴素贝叶斯算法的不良文本过滤技术研究及应用

来源 :长安大学 | 被引量 : 1次 | 上传用户:zhubaoqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,网络信息逐渐成为个人及企业的主要信息来源,这些丰富多样的信息资源在给人们带来便利的同时,也充斥着大量不良信息,如反动、色情、毒品、赌博、非法营销的产品广告等,既不利于建设绿色健康的网络环境,也会对获取信息的过程造成障碍。鉴于网络信息中文本信息所占比例较大,对不良文本过滤技术的研究有助于净化整体网络信息,从而快速有效地取得有用文本信息,具有很高的实际应用价值。本文以基于向量空间模型(VSM)的朴素贝叶斯算法为核心,提出了一种面向大量流动网络信息的不良文本过滤技术,并对其中所包含的方法、模型进行研究及改良,最终实现针对指定系统的不良文本过滤。本文主要研究工作和成果如下:(1)使用VSM作为文本表示方法,通过对特征选择方法的改良,确定类中心向量集合。优化朴素贝叶斯算法的方法模型,从而训练得到适用于文本过滤的分类算法,为后续技术的提出奠定基础。(2)提出一种基于朴素贝叶斯算法的不良文本过滤技术,该技术引入假设检验思想,首先使用Ansj中文文本分词方法,然后将基于VSM的朴素贝叶斯分类算法与不良文本过滤相结合,最终应用类别阈值集合完成验证,实现对不良文本的筛选过滤。(3)使用Java语言编写网络爬虫,应用Jsoup开源HTML解析器,分析各指定网站的网页结构,实现语料信息的抓取。在此基础上,结合应用系统信息分析筛选语料,形成最终语料集合。(4)应用Eclipse开发了基于朴素贝叶斯算法的不良文本过滤技术测试平台,采用一组基础测试对本文所提过滤技术的可行性进行了验证,并通过三组对比测试,进一步证明了该技术的过滤效果及其他改良效果。
其他文献
作为司法改革的"试验田",最高人民法院巡回法庭在司法体制和工作机制上进行了一定的创新,将司法改革各项举措更加有效贯彻的同时,确保司法的制度资源和人力资源得到最优化的
介绍了挥发性有机化合物的基本定义(volatile organic compounds),产生原因以及处理情况,针对挥发性有机化合物现状制定了控制措施,并根据回收和毁灭的分类方法来对双方进行
漆树所产生漆是从其树干韧皮部采割而来。应用植物解剖学技术对陕西的3个漆树品种的韧皮部进行结构及其发育变化研究,结果表明:3个漆树品种韧皮部的基本结构无明显差别,次生
职业资格证书与学历证书融通是促进高职教育改革与发展的需要。高职院校应从汽车类专业岗位(群)的职业能力与任务及相对应的职业资格证书分析入手,从以工作过程为导向的课程
从建筑规划和可再生能源利用的角度,对高速公路服务区的节能减排进行了分析,提出了应用措施,倡导在今后服务区建设中树立节能环保的建筑理念。
期刊
湾区经济发展战略的实施为深化广东区域协调发展提供了新的理念、新的机制、新的模式,注入了新的活力,创造了新的机遇,有望成为广东省实现区域协调发展新的抓手;也为建设湛茂
随着我国经济体制改革和区域经济自主权益的增强,国民经济发展组织由过去的以部门(条条)为主逐步转向以区域(块块)为主,对经济发展战略的研究和战略规划已深入到不同层次和
目的:胃癌是影响人类健康的常见的恶性肿瘤,其在消化系统恶性肿瘤中占第一位,每年死于胃癌者25.16/10万。随着环境、饮食等因素的变化,其发病率正逐年增高。与其他恶性肿瘤一
东西文化兼备的林语堂,通过英文创作"对外国人讲中国文化",文化传播效果显著。本研究从林语堂的文化立场出发,分析其英文著译作品,旨在探讨其独特的文化观如何影响其翻译策略,