论文部分内容阅读
随着信息技术的发展,互联网信息不断增加,其中有很多有益的知识,也有很多有害的信息,如色情、恐怖主义等。对互联网信息进行管理是一个快速增长的的需求。
当前市场上存在很多网络内容过滤产品,大部分是根据URL分类库进行过滤。由于互联网的网页等资源很多,不可能全部收集并分类,而且网页经常发生变化,基于URL分类库的方法不够灵活和准确。因此,还需要根据内容进行实时过滤。不论是基于URL分类库,还是基于内容实时过滤,都离不开文本分类技术。
在当前文本分类的研究工作中,文本表示方法大部分为基于词特征的向量空间模型(VSM)。这种表示方法忽略了词之间的相互关系,造成了信息的丢失。另外一种文本表示是基于潜在主题的表示,如潜在狄利克雷分配(LDA),这种表示方法引入了词之间的联系,但是会丢失一些浅层的词汇信息。因此,单一的文本表示都存在不足。
本文主要针对单一文本表示的不足进行了研究,同时研究了文本分类技术在网络内容过滤中的应用。主要工作包括:
1)基于随机森林算法的多视角文本分类方法。鉴于单一文本表示的不足,尝试结合两种文本表示方法,以减少信息的丢失来提高分类的精度。其中,使用了随机森林方法来结合基于词的文本表示和基于潜在主题的文本表示。随机森林方法是一种集成学习方法,具有很好的分类性能,但在应用到结合两类文本表示时,它不能公平地结合两类特征。因此,分别构造两类特征树,引入了权重参数。在标准数据集上的实验验证了方法的有效性。
2)基于文本分类的内容过滤系统框架设计。提出了一个基于透明代理缓存的多层反馈式过滤系统框架设计。结合基于关键词过滤、基于URL分类库过滤和实时文本自动分类过滤等多种过滤手段,在保证准确率的同时减少对用户正常访问的影响。
3)文本分类技术在URL分类库建立中应用。将文本分类技术应用到URL分类库建立中。通过应用改进的随机森林算法有效地结合词表示,潜在主题表示以及网页的结构化信息。
4)文本分类技术在实时过滤中应用。将文本分类技术应用到实时的文本自动分类过滤。使用了计算复杂度较低的类中心法,并使用了网页的、、三种容易提取并且对分类贡献较大的结构化信息,兼顾了精度和处理效率。
5)原型系统实现:在Linux平台下实现了一个原型系统,并且开发了一个图形界面的配置管理系统。