论文部分内容阅读
作者所研究的信息过滤系统是专门针对色情、反动等不良信息的过滤,是信息过滤的一种特殊应用,是网络内容安全的研究课题之一.围绕着网络不良文本的信息过滤,作者在文本特征抽取以及文本多特征描述方面深入展开了自己的工作:第一、提出了"负过滤"的概念.所谓"负过滤",即被过滤出的、并非要提交给用户的信息,这与"正过滤"(被过滤出的即要提交用户的)恰好相对.典型的"负过滤"应用有:垃圾邮件过滤,色情信息过滤,聊天室过滤等.如果说正过滤系统目前的研究焦点大都在于用户兴趣的表达和如何跟踪用户的兴趣迁移,那么负过滤系统的研究则主要应该集中在提高过滤精度和速度上.第二、作者在考察了现有汉语抽词分词算法后,针对基于实例的信息过滤系统设计了位置记忆跳跃匹配算法(PRJM),使用该算法在汉语文本中抽取重复字串,并从中生成过滤类别特征词典.与同类算法相比,该算法在速度、性能上都有了很大的提高,能很好的满足信息处理的实时性要求.第三、主题是文本内容的体现.目前的文本主题抽取算法大都存在着限定领域的问题,无法适应网络多种多样的文本处理需要.基于此,作者提出的基于同现频率和文本上下文的主题抽取算法(SECC)是一种较好的适应各类文本的主题抽取算法.在语料库多种文体类型文本的主题抽取试验中,该算法得到了不错的抽取结果.第四、写作时作者会针对不同的场合、不同交流功能、不同的读者采用不同的文体.正确识别文章的文体能有助于更准确的建立用户检索描述和文本描述,以便更好地满足用户的信息检索需求.但文体类型种类相当多,并且随着时代的发展,文体类型也在不断的发展变化之中,网络文本的文体类型更是如此.作者根据对网络文本的分析和研究,首先对网络文本文体进行了初步的分类,形成了自己的网络文本文体分类体系(HGT).并在此基础上,对根据该分类体系进行文体的自动识别进行了相关的研究和实现.第五、在现有处理纯文本多模式匹配算法的基础上,作者提出了双状态机(BSA)算法使之适用于XML文本,从而不仅可以统一文本的标注,也统一了文本特征的抽取和处理步骤.