文本多特征表达研究及在网络内容安全中的应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:achm207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作者所研究的信息过滤系统是专门针对色情、反动等不良信息的过滤,是信息过滤的一种特殊应用,是网络内容安全的研究课题之一.围绕着网络不良文本的信息过滤,作者在文本特征抽取以及文本多特征描述方面深入展开了自己的工作:第一、提出了"负过滤"的概念.所谓"负过滤",即被过滤出的、并非要提交给用户的信息,这与"正过滤"(被过滤出的即要提交用户的)恰好相对.典型的"负过滤"应用有:垃圾邮件过滤,色情信息过滤,聊天室过滤等.如果说正过滤系统目前的研究焦点大都在于用户兴趣的表达和如何跟踪用户的兴趣迁移,那么负过滤系统的研究则主要应该集中在提高过滤精度和速度上.第二、作者在考察了现有汉语抽词分词算法后,针对基于实例的信息过滤系统设计了位置记忆跳跃匹配算法(PRJM),使用该算法在汉语文本中抽取重复字串,并从中生成过滤类别特征词典.与同类算法相比,该算法在速度、性能上都有了很大的提高,能很好的满足信息处理的实时性要求.第三、主题是文本内容的体现.目前的文本主题抽取算法大都存在着限定领域的问题,无法适应网络多种多样的文本处理需要.基于此,作者提出的基于同现频率和文本上下文的主题抽取算法(SECC)是一种较好的适应各类文本的主题抽取算法.在语料库多种文体类型文本的主题抽取试验中,该算法得到了不错的抽取结果.第四、写作时作者会针对不同的场合、不同交流功能、不同的读者采用不同的文体.正确识别文章的文体能有助于更准确的建立用户检索描述和文本描述,以便更好地满足用户的信息检索需求.但文体类型种类相当多,并且随着时代的发展,文体类型也在不断的发展变化之中,网络文本的文体类型更是如此.作者根据对网络文本的分析和研究,首先对网络文本文体进行了初步的分类,形成了自己的网络文本文体分类体系(HGT).并在此基础上,对根据该分类体系进行文体的自动识别进行了相关的研究和实现.第五、在现有处理纯文本多模式匹配算法的基础上,作者提出了双状态机(BSA)算法使之适用于XML文本,从而不仅可以统一文本的标注,也统一了文本特征的抽取和处理步骤.
其他文献
传统的录像系统受到当时技术发展水平的局限,录像介质一般采用磁带,而磁带为一次性产品,不能进行反复地拷贝、重放,图像的高质量保存受到了很大的威胁.随着半导体技术以及数
IP网络性能测量对网络研究与发展十分重要,可以用于分析当前Internet的基本特性,如网络体系结构和流量模型等.Internet因其异构性、业务类型的多样性且变化的随机性,使得人们
本文主要对激光大气通信的电子学系统进行了设计。 论文从激光大气通信的空间环境出发,对光信号传输过程中信道中的大气湍流和背景光噪声干扰问题进行了分析,并在此基础上论
随着"数字地球"这个概念的提出,与之相联系的"数字城市"现今已成为人们研究的一个热点.论文正是围绕数字城市中的建筑物物多分辨率建模技术及其可视化展开的.该文论述了单分
随着电子商务、电子政务的发展。传统的对称加密技术已经不能适应网络发展的需要。主要表现在不能解决身份鉴别问题和密钥管理困难。而公钥基础设施(Public Key Infrastructu