基于内容的网络不良文本信息过滤若干关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dingxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
围绕着网络不良文本的信息过滤,作者在以下几个方面深入展开了自己的工作:第一、网页文本的文本表达虽然可以使用传统(普通)文本的表达方法,但是它并不完全等同于传统文本.对于处理网页信息而言,如何得到网页正文是预处理的第一步.论文针对这一目的,提出了对Web网页文本去噪得到正文处理的相应算法.第二、文本特征有很多,例如文件的名称、大小、日期、类型、主题、类别、词等.这些特征或者由信息的生成者提供,或者可以从文本内容中自动抽取.研究抽取算法和开发抽取程序的研究者和开发者很多,所开发系统的输出都有着各式各样的规定.这给使用这些特征抽取程序进行后续信息处理的系统开发带来了很多麻烦.针对这个问题,论文提出了一个层次清晰、易于扩展的XML统一文本自动处理描述接口(UTRAP)规范.应用它,系统能使用统一的规范对文本的特征进行描述,对各种各样的特征进行统一的处理.该规范不仅仅是信息处理系统中的一个统一接口,还可以在开放式的文本处理大平台中有所作为.第三、已有的匹配算法在处理中文字符时性能欠佳,并存在不能良好的同时处理中英文信息、不能对中文字符进行有效的排序等等缺点.论文提出了一种面向中文的匹配算法——CDSA算法,并通过实验验证了该算法在克服已有算法不足的同时,并不影响算法的效率和空间复杂度.第四,应用我们提出的"基于字同现频率的文本主题抽取算法",论文创新性地讨论了基于主题(Topic)抽取的文本过滤.该算法根据关键词在主题的分布情况、以及在非主题中的分布情况分别给予关键词不同大小的权重,从而实现有针对性的过滤,尤其在色情文本过滤应用中,具有很高的精度.第五、基于特征字串匹配(关键词匹配)的文本过滤技术是当前基于内容文本过滤的技术主流,它的优点是突出的:简便、快速和较高的查全率;但它的缺点也是鲜明的:只能保证较低的准确率.论文通过试验,研究并指出了特征字串匹配过滤的优缺点存在的本质原因.第六、论文提出了一个基于内容的安全过滤系统系统模型,并详细讨论了其中的基于临近类别分类的过滤模型.针对色情样本,使用KNN、Bayes等算法分别对基于临近类别分类模型进行了试验和对比试验.试验结果证明,在基本不影响过滤速度的同时,该过滤模型大大提高了过滤的精度,充分证明了该过滤模型的优越性和可行性.最后,根据我们的"两段式过滤"思想,论文具体实现并评测了"基于内容的Web文本过滤系统"(CBWIFS).
其他文献
创新是一个企业生存和发展的灵魂。随着我国建设创新型国家进程不断的推进,现代企业越来越重视创新方法在企业创新战略中的重要作用。如何提高企业的竞争力和影响力,如何应用
角点是指图像中灰度值变化剧烈的点,包括物体轮廓上曲率变化最大的点、多条直线的交点、单调背景上的孤立点等等。由于角点所含的信息量较高,角点的数目亦相对较少,所以角点
应用层组播研究,尤其是应用层叠加组播研究,是近年来网络研究领域新兴而重要的研究方面,是实现新一代网络交互应用的关键技术。本文针对协同工作CSCW研究领域关键技术群组通信应
集群通信系统是由多个用户共用一组无线信道,并动态使用这些信道的专用移动通信系统,主要用于指挥调度通信。集群通信系统强调“快速呼叫接入”和“信道共享”,由于这两方面也正
作为传统的语音拾取工具,单个孤立麦克风在噪声处理、声源定位和跟踪,语音提取和分离等方面存在不足,严重影响了语音通信质量。如果使用多个麦克风组成阵列,在时频域的基础上
脑机接口(BCI)是一种不依赖于正常的外周神经和肌肉组成的输出通路的通讯系统,形成于20世纪70年代。基于BCI原理设计的装置有望帮助神经肌肉系统瘫痪的病人实现与外界的交流。应
软件测试技术的发展已经有较长的一段历史,而自动化测试技术又是现阶段软件测试的研究热点。Web应用软件是当前各种应用软件发展的主流,因此Web测试技术受到了越来越多的关注。
随着科技的发展,各行业的管理手段从人工逐步转变成自动或半自动方式。尤其在化工、冶金等行业,和较恶劣环境下进行实时监控时,为提高生产率和减少人为因素造成的误判,需采用
本论文主要讲述的是利用数字图像处理技术识别变造币的最佳算法和系统模型以及它在自动存款机上的应用。为课题在存款机上的实际应用提供了理论依据,最后给出了自动存款机
图像特征匹配是计算机视觉众多任务中的一项关键技术,在物体检测和识别、图像配准、视频理解以及三维重构等领域有着广泛的应用。图像特征匹配的基本方法包含三个步骤:首先,