论文部分内容阅读
互联网的发展为第三次科技革命插上翅膀,让人类进入信息爆炸的时代,每一天这个世界上的信息总量都在以恐怖的速度巨量攀升,我们的大脑每时每刻都在主动或被动地接收处理大量的信息。在这个时间越来越宝贵的信息高速时代,如何从庞杂的信息中精确地查找、过滤、分辨我们需要的信息是极为重要的,作为信息的重要载体,如何对文本进行快速的区分至关重要,文本分类技术也由此应运而生。文本分类技术从上个世纪70年代诞生至今,它的地位也越来越发重要。因此对文本分类相关技术的研究与应用也有着重要的意义。首先,本文介绍了文本分类的背景,目前国内外取得的研究进展。接着本文立足于提高文本分类的稳定性和准确性,研究了文本分类的相关技术,对其中的各个环节包括文本的预处理阶段、文本特征选择算法、文本特征加权算法、文本表示模型、文本分类算法都作了详尽介绍,并就文本的特征选择和加权算法以及文本分类技术的应用进行了深入的研究,主要的研究内容如下:针对CHI卡方检验特征算法对于低频词存在缺陷的情况,进行了两点改进。其一,引入了考虑类别内影响的DT(Document&Term)因子,它包括词频和文本频率因子。其二,引入类别偏离因子,加强了原算法未考虑不同类别中特征词的影响力区别的不足。据此提出新的改进卡方检验算法ICHI,并通过三组实验对比了其他传统特征选择方法和他人改进的方法,在SVM算法上,分类性能相比传统CHI提升了5.6%,相比已有改进方法提升了2.2%。验证了此改进算法的有效性与优越性。针对传统TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)算法对于特征词类别影响力考虑不足的缺陷,提出了新的逆类别频率的概念,基于此对原TF-IDF算法改进后提出TF-CF(Term Frequency-Category Frequency)算法,接着提出了将word2vec词向量与TF-CF算法加权运算作为分类的特征输入的W2V-CF模型,并设计实验将该模型与包括传统方法和其它文献方法在内的五种模型分别进行了性能评估对比,在SVM算法上,相比传统BOW词袋模型,性能提升了7.7%,相比已有改进模型,性能提升了1.7%,验证了该模型的合理性和实用性。将文本分类技术与TCP反向代理技术相结合,设计并实现了可以对网络敏感网页与文件(包括word,pdf等)进行隔离过滤或者设置分类规则进行限制的系统,并通过对系统的功能测试和压力测试验证了系统的实用性。此系统的设计研究工作对于后续在线内容文件的控制管理分发技术方面的研究具有参考意义。