论文部分内容阅读
随着互联网的发展,人们越来越多地依靠网络来获取和发布信息,互联网中存储和传播的信息对于大众舆论的形成和传播有巨大的影响,其中也隐藏着巨大的安全威胁。许多不法分子利用网络自由交互的特点,在网络上散布各种有损社会和谐的言论,即所谓的敏感信息,这些信息一旦扩散开来,往往会造成极其恶劣的影响,进而带来巨大的舆论压力,并造成相当的经济损失。因此,及实、准确对网络敏感信息进行识别成为相关部门急需解决的问题。通常网络敏感信息的传播速度非常快,因此传统的机器学习方法会面临一个严峻的问题,那就是不能花费大量的时间来进行样本标注。只能应用少量已标注样本在采用大量未标注样本的辅助下完成分类器的训练,即采用半监督学习的方法来解决这个问题。敏感信息在网络舆情中占的比例很小。在采集到的样本中,很大一部分是普通舆情信息,如果采用这样的数据进行分类器的训练,分类的结果势必会偏向样本数较多的那一类。为了解决这个问题,可以采用过采样的方法来增加少数类样本,使正负类样本数均衡,进而提高分类器的性能。文本采用文本分类的方法来解决网络敏感信息识别的问题,分析得到网络敏感信息具有传播速度快,影响恶劣,且样本数少的特点,针对这几个特点在文本分类的各个步骤中采用了相应的解决办法。提出了将过采样技术与半监督学习结合的方法,并对传统的SMOTE算法做出了改进,经过实验证明,改进的算法有效地提高了分类器的性能。