基于互信息的网页信息过滤技术的研究与应用

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:hujinjinliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息化高度发达的社会里,人们可以享受到信息化技术所带来的诸多便利,如网上购物、网上银行、远程办公等。同时,各种各样的非法信息,如色情、暴力、反动、封建迷信等,也通过网络呈现在人们的面前。这些非法信息不仅让人们在精神上和肉体上遭受双重伤害,而且更进一步加深了网络文化产业对社会所造成的负面影响。目前过滤掉这些非法信息也就成了人们的当务之急。因此,如何有效地过滤掉这些非法信息也就成为众多专家学者们研究的一个焦点。在信息论中,互信息通常是两个随机变量之间统计相关性的度量单位。在文本分类中,若特征词属于某一类别,则它们之间的互信息量最大。因此,人们使用互信息来度量特征词与类别之间的相关性。互信息量越大,特征词和类别的相关性也越大;反之则越小。由于互信息事先不需要对两个变量之间的关系作任何假设和限制,所以它在中文分词、图像处理、文本分类等方面应用非常广泛。因此,本文将互信息作为待测文本与主题之间相关性的度量并提出了基于互信息的网页信息过滤技术的研究与应用。本文依据训练语料库的构建、文本的向量表示、文本内容的特征提取、互信息过滤模型的改进以及Resnik的选择倾向模型等知识与技术构建一个对非法网页信息进行过滤的系统。具体内容如下:首先,统计模型在实际应用中一个最基础的前提就是构建训练语料库。本文先构建两个正则表达式以提取网页中的标题和正文,然后对抽取到的信息进行人工校验和整理,从而得到一个规模适中、分布均匀的语料库。然后,统计模型的另一个基本问题就是如何有效地表示文本内容。本文对文本进行切词、停用词处理,将单个词语看作向量中的一个项,这样就可以用向量来表示文本内容。为了提高计算速度和过滤效率,本文依据CHI模型设计了一个精简向量空间维数的算法以获得一个维数合适的特征向量。其次,本文对平均互信息公式进行改进并计算该待测文本特征向量与所有主题特征向量的平均互信息值,然后把它们与事先设定的阈值进行比较。若有一个值比事先设定的阈值大,则应把该待测文本作为非法文本过滤掉;若这些平均互信息值均小于事先设定的阈值,则应把该待测文本作为合法文本并呈现给用户。最后,特征向量中特征项的动态更新也是非法网页过滤系统的一个重要组成部分。因此,本文将依据Resnik提出的选择倾向模型设计和实现一个动态更新特征向量中特征项的算法来解决上述问题。在上述理论研究的基础上,本文设计并构建了一个对网页中的非法信息进行过滤的系统并对其进行了一系列实验。其实验结果说明此系统的执行速度令人基本满意,过滤效果良好。
其他文献
Web2.0技术的快速发展,使得网络成为一个公共的信息编辑和发布的平台,让每个人可以分享自己的观点、心情,其中也包含了大量的个人意见、情绪和情绪反馈。识别和度量基于时间序列
随着数字产品的应用愈发广泛,数字信息的安全问题逐渐成为人们关心的问题,其中以数字产品的版权保护最为重要和紧迫。数字水印作为保证数字信息安全的一项有效手段,已成为产业界
自古以来,中国人对建筑、城市规划、艺术品形态等都讲究成双成对,并推崇对称美,自然对文玩核桃的配对要求也非常严格。一般来讲,配对核桃的三围尺寸在不超过一毫米的情况下,越相似
社交网络上的人物社会关系是分析人物网络行为的一类重要信息,如何高效准确地从社交网络上抽取人物关系信息,是本文研究的重点本文首先提出一种基于特征提取的人物关系分类的改
随着人口的增长和社会经济的快速发展,社会对土壤的产出比不断加大。在投入一定的情况下怎么提高土壤的产出已是当前精准农业主要解决的问题。数据挖掘致力于解决从海量数据
近年来,利用手机终端进行产品推介已经在许多工业产品、餐饮、娱乐、旅游等产品中得以实现,但就农产品领域来说,还处在一种摸索、起步的阶段。由于农产品的产销过程环节多、复杂
学位
无线传感器网络是由大量具有无线通信与计算能力的微小传感器节点构成的自组织分布式智能系统,它综合了传感器技术、微机电技术、嵌入式计算机技术和现代无线通信技术,成为了
无线Mesh网是一种新型宽带无线接入系统,可以看作是WLAN和移动AdHoc网络的融合,具有可靠性、自组织性和自愈性等特点。由于无线Mesh网络拓扑结构的动态变化以及无线信道的不稳
随着计算机网络的迅速发展,计算机网络技术的应用越来越广泛,其规模也越来越庞大;安全事件层出不穷,安全形势日益严峻。信息安全态势相关技术能够综合各安全因素,全面、整体地反映大规模网络的信息安全状况,并能够对其发展趋势进行预测。目前,信息安全态势的相关技术研究已经成为网络信息安全领域的研究热点。本文概述了电力信息安全态势研究的基本内容,设计并且实现了电力信息安全态势分析系统,该系统所包含的功能模块自下