基于朴素贝叶斯算法的不良文本过滤技术研究及应用

来源 :长安大学 | 被引量 : 1次 | 上传用户：zhubaoqiu

【摘要】

：

随着互联网技术的迅猛发展,网络信息逐渐成为个人及企业的主要信息来源,这些丰富多样的信息资源在给人们带来便利的同时,也充斥着大量不良信息,如反动、色情、毒品、赌博、非

【作者】

：

赵文

【出处】

：

长安大学

【发表日期】

：

2018年01期

【关键词】

：

不良文本过滤向量空间模型朴素贝叶斯特征选择网络爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的迅猛发展,网络信息逐渐成为个人及企业的主要信息来源,这些丰富多样的信息资源在给人们带来便利的同时,也充斥着大量不良信息,如反动、色情、毒品、赌博、非法营销的产品广告等,既不利于建设绿色健康的网络环境,也会对获取信息的过程造成障碍。鉴于网络信息中文本信息所占比例较大,对不良文本过滤技术的研究有助于净化整体网络信息,从而快速有效地取得有用文本信息,具有很高的实际应用价值。本文以基于向量空间模型(VSM)的朴素贝叶斯算法为核心,提出了一种面向大量流动网络信息的不良文本过滤技术,并对其中所包含的方法、模型进行研究及改良,最终实现针对指定系统的不良文本过滤。本文主要研究工作和成果如下:(1)使用VSM作为文本表示方法,通过对特征选择方法的改良,确定类中心向量集合。优化朴素贝叶斯算法的方法模型,从而训练得到适用于文本过滤的分类算法,为后续技术的提出奠定基础。(2)提出一种基于朴素贝叶斯算法的不良文本过滤技术,该技术引入假设检验思想,首先使用Ansj中文文本分词方法,然后将基于VSM的朴素贝叶斯分类算法与不良文本过滤相结合,最终应用类别阈值集合完成验证,实现对不良文本的筛选过滤。(3)使用Java语言编写网络爬虫,应用Jsoup开源HTML解析器,分析各指定网站的网页结构,实现语料信息的抓取。在此基础上,结合应用系统信息分析筛选语料,形成最终语料集合。(4)应用Eclipse开发了基于朴素贝叶斯算法的不良文本过滤技术测试平台,采用一组基础测试对本文所提过滤技术的可行性进行了验证,并通过三组对比测试,进一步证明了该技术的过滤效果及其他改良效果。

其他文献

最高人民法院巡回法庭的运行机制——以审判权的内部运行为中心的考察

作为司法改革的"试验田",最高人民法院巡回法庭在司法体制和工作机制上进行了一定的创新,将司法改革各项举措更加有效贯彻的同时,确保司法的制度资源和人力资源得到最优化的

期刊

最高人民法院巡回法庭审判权内部运行机制司法体制改革司法权威

可挥发性有机物的治理工艺分析

介绍了挥发性有机化合物的基本定义(volatile organic compounds),产生原因以及处理情况,针对挥发性有机化合物现状制定了控制措施,并根据回收和毁灭的分类方法来对双方进行

期刊

可挥发性有机物监测方法治理技术

漆树韧皮部的结构与发育

漆树所产生漆是从其树干韧皮部采割而来。应用植物解剖学技术对陕西的3个漆树品种的韧皮部进行结构及其发育变化研究,结果表明:3个漆树品种韧皮部的基本结构无明显差别,次生

期刊

漆树韧皮部乳汁道结构发育

汽车类专业职业教育“双证融通”培养模式研究

职业资格证书与学历证书融通是促进高职教育改革与发展的需要。高职院校应从汽车类专业岗位(群)的职业能力与任务及相对应的职业资格证书分析入手,从以工作过程为导向的课程

期刊

汽车类专业职业教育双证融通

节能型高速公路服务区的建设研究

从建筑规划和可再生能源利用的角度,对高速公路服务区的节能减排进行了分析,提出了应用措施,倡导在今后服务区建设中树立节能环保的建筑理念。

期刊

节能服务区高速公路

简阳城山相映人水共生

期刊

简阳城山

湾区经济发展战略对湛茂阳城市带实现高质量发展的重要影响

湾区经济发展战略的实施为深化广东区域协调发展提供了新的理念、新的机制、新的模式,注入了新的活力,创造了新的机遇,有望成为广东省实现区域协调发展新的抓手;也为建设湛茂

期刊

湾区经济北部湾城市群区域协调发展沿海经济带粤港澳大湾区高质量发展

山东日照市区域发展战略模式研究

随着我国经济体制改革和区域经济自主权益的增强,国民经济发展组织由过去的以部门(条条)为主逐步转向以区域(块块)为主,对经济发展战略的研究和战略规划已深入到不同层次和

期刊

区域发展战略模式日照市港口开发港口城市

COX-2 P16和HGF在胃癌中的表达及意义

目的:胃癌是影响人类健康的常见的恶性肿瘤,其在消化系统恶性肿瘤中占第一位,每年死于胃癌者25.16/10万。随着环境、饮食等因素的变化,其发病率正逐年增高。与其他恶性肿瘤一

学位

胃肿瘤基因表达还氧合酶P16肝细胞生长因子免疫组织化学

文化立场观照下林语堂“译出”策略研究

东西文化兼备的林语堂,通过英文创作＂对外国人讲中国文化＂,文化传播效果显著。本研究从林语堂的文化立场出发,分析其英文著译作品,旨在探讨其独特的文化观如何影响其翻译策略,

期刊

文化立场林语堂“译出”策略音译法注释法

基于朴素贝叶斯算法的不良文本过滤技术研究及应用

其他学术论文