不良文本过滤建模理论及应用关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:abcd494895936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的开放性和日益增长的规模,为人们提供了自由交换信息的便捷手段。同时巨大的开放信息源也使一些恶意的和不良的(反动、色情等)内容信息趁机而入,成为用户获取有效信息的严重障碍。为保护国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监管,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监管的技术和服务。为此研发先进的文本内容安全监管技术是一项紧急而又重要的课题。 本文综合运用机器学习、模式识别、数据挖掘、知识发现、自然语言理解、中文信息处理、粗糙集理论、人工智能等学科的相关知识,通过分析各类不良信息的特征,结合文本信息处理目前研究进展,深入研究了适合不良文本信息过滤的模型、文本预处理技术、文本特征选择技术、过滤算法以及相关应用等。 首先,对国内外不良文本过滤现状及相关过滤系统的研究状况进行了讨论分析,分析了基于PICS(PlatformforInternetContentSelection)的内容选择,基于URL的过滤,基于特征词过滤的优缺点,指出智能内容过滤是进行文本深层次分析的必要技术,并指出了文本安全过滤的应用领域。研究了处理大样本集的文本预处理技术、特殊字符处理技术、快速词频统计算法、网页正文获取等关键技术。 其次,研究了文本处理中的文本表达技术和特征选择技术,包括Filter特征选择技术,Wrapper特征选择技术,基于粗集的特征选择技术,以及权重计算和归一化技术。指出了各种特征选择技术的优缺点,并对文本表达技术进行了实验。得出不同的过滤器需要采用适于其本身的文本表达方法,正确的归一化能够得到较好的结果。实际的样本集一般是不平衡样本,不同的过滤器对于不平衡样本集实验结果的性能差别较大。实验表明:中心向量法、支持向量机基于向量空间模型来表示文本,正确归一化后,和没有归一化前比较,性能有很大的提高。NaiveBayes由于采用概率模型表示文本,在标准样本集(平衡样本集)上得到了同中心向量法和基于支持向量机的方法相当的结果。而且在实际样本集(不平衡样本集)上,对于训练集,准确率差于中心向量空法和基于支持向量机的方法,然而在过滤未知不良样本上,准确率非常差,而中心向量法和基于支持向量机的方法较好。分析表明一方面由于不同反动网站的反动样本语法风格不一样,另一方面由于反动样本特征空间较大,基于概率的统计方法不能反映全部特征空间分布。中心向量法和支持向量机对于平衡样本集或不平衡样本集都表现了较好的性能。 第三,讨论了粗糙集的基本概念,指出了粗糙集的理论本质。研究了粗糙集属性约简算法,比较了基于区分矩阵的约简算法和基于属性重要度的约简算法,指出基于区分矩阵的约简算法在处理文本属性时是不可行的。提出了一种混合的属性约简算法,实验表明该方法在处理文本信息时是非常有效的,一方面利用常用的特征选择方法降低了文本维数,另一方面利用粗糙集约简算法去掉了很多冗余属性。 第四,提出了一种粗糙集和相关过滤器相结合的针对主题特殊文本过滤的新方法,且基于属性重要度,对文本属性进行前向选择提出了一种新的粗糙集属性约简算法,它产生几个约简,由于各约简基之间没有相同的属性,实验表明在处理不良文本数据时,具有更强的过滤能力。整个过程分成两个阶段:首先将多约简算法作为前端预处理工具,进行文本特征选择,大大降低了属性维数,然后用统计方法设计过滤器进一步对约简后的属性进行分类过滤,计算量大大减少,同时提高了分类速度。通过实验结果可以看出,对未经粗糙集约简的文本属性集和经过快速约简的文本属性集比较,当约简个数m取值增加后,所选择的属性个数大大减少,中心向量法和基于支持向量机的方法在训练集和测试集上都达到了未经约简前的准确率。 第五,融合粗糙度和知识的粗糙熵,引入粗集的粗糙熵来量测知识的不确定性。这种测度量测知识的不确定性比粗糙度和知识的粗糙熵更充分。得出粗集的粗糙度、知识的粗糙熵、粗集的粗糙熵随着知识更细的划分而单调下降。 最后,开发了内容安全网关中不良文本过滤模块,设计了一个有效的不良文本过滤架构。基于多模式匹配算法研究设计了高效的不良文本过滤引擎,并应用于安全网关和电子邮件过滤系统中。
其他文献
未来的网络将朝着大规模方向发展。网络分布地域越来越广,包含的节点数越来越多,组成结构越来越复杂,致使传统的路由协议难以适应大规模网络的应用需求,因此提出针对大规模网络的
均衡和信道编码技术在现代移动通信系统中发挥着重要的作用。在单载波系统中,抵抗频率衰落选择性信道的判决反馈均衡器得到了广泛的研究。对于OFDM系统而言,尽管其自身的调制和
数字电视的发展和传输网络的双向化改造是广播电视系统的重大变革,它将在一定程度上改变人们的生活方式。数字电视可以带来以下一些好处:较模拟电视更清晰的画面、多达数百套标
多输入多输出(Multiple-Input Multiple-Output, MIMO)可以提高数据速率并利用分集提升系统性能,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)能够有效对抗多
人脸检测作为人脸信息处理中的一项关键技术,近年来在模式识别与计算机视觉领域中,已经成为一个受到普遍重视、研究十分活跃的方向。随着智能化信息处理技术的发展,人脸检测
无论就生存还是生活而言,目标跟踪是自然界的一个基本问题。在过去的二十多年中,随着科学技术的进步和现代战略战术的发展,机动目标的跟踪理论和方法已经获得很大发展。 本文
今天,嵌入式系统已经无处不在,从汽车、家用微波炉、PDA、电视机,到工控生产现场、通讯、仪器、仪表、汽车、船舶、航空、航天、军事装备、消费类产品等方面,都能发现嵌入式