基于半监督学习的网络敏感信息识别

来源 :天津大学 | 被引量 : 0次 | 上传用户:mrcool111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们越来越多地依靠网络来获取和发布信息,互联网中存储和传播的信息对于大众舆论的形成和传播有巨大的影响,其中也隐藏着巨大的安全威胁。许多不法分子利用网络自由交互的特点,在网络上散布各种有损社会和谐的言论,即所谓的敏感信息,这些信息一旦扩散开来,往往会造成极其恶劣的影响,进而带来巨大的舆论压力,并造成相当的经济损失。因此,及实、准确对网络敏感信息进行识别成为相关部门急需解决的问题。通常网络敏感信息的传播速度非常快,因此传统的机器学习方法会面临一个严峻的问题,那就是不能花费大量的时间来进行样本标注。只能应用少量已标注样本在采用大量未标注样本的辅助下完成分类器的训练,即采用半监督学习的方法来解决这个问题。敏感信息在网络舆情中占的比例很小。在采集到的样本中,很大一部分是普通舆情信息,如果采用这样的数据进行分类器的训练,分类的结果势必会偏向样本数较多的那一类。为了解决这个问题,可以采用过采样的方法来增加少数类样本,使正负类样本数均衡,进而提高分类器的性能。文本采用文本分类的方法来解决网络敏感信息识别的问题,分析得到网络敏感信息具有传播速度快,影响恶劣,且样本数少的特点,针对这几个特点在文本分类的各个步骤中采用了相应的解决办法。提出了将过采样技术与半监督学习结合的方法,并对传统的SMOTE算法做出了改进,经过实验证明,改进的算法有效地提高了分类器的性能。
其他文献
如何提高大规模柔体碰撞检测的执行效率一直是计算机图形学领域的技术难点之一。传统的主流算法是通过选定一种或者多种包围盒(BV),构建包围盒层次结构(BVHs),将碰撞物体之间的碰撞
上世纪八十年代以来,互联网及其技术得到了迅猛的发展,人们从那时开始便进入到了一个称之为“信息爆炸”的时代。互联网的出现和发展不仅使得信息的采集、传输的规模和产生的速
随着信息时代的高速发展,使得二维条码在多个领域内广泛的被应用,但在复杂环境情况下,对所拍摄的二维条码进行解码会受外界条件影响,造成拍摄的条码图像退化,不利于二维条码信息
随着全球信息化的高速发展,计算机网络已经成为了一种不可或缺的信息知识来源,但随之而来的,是网络信息的无限增长。这种无限制的增长带来的是信息资源供给量远远大于资源的需求
机器翻译作为计算机自然语言处理的一个重要分支。近年来,随着计算机计算速度,存储容量的不断提高,基于实例的机器翻译方法越来越受到研究者的青睐。基于实例的机器翻译(EBMT)克
生产调度问题是一类复杂的组合优化问题,在实际生活中存在于多个领域,如铸造业、金属加工业、物流、通讯等。对生产调度问题进行研究的主要目的是使得资源在使用过程中进行合理分配,从而提高资源的利用率及生产效率,合理的调度方案可以大幅提升企业的竞争力。随着社会的发展,生产调度问题逐渐变复杂,从经典调度发展到一类新型的调度,即批处理机调度。批处理机调度问题(简称批调度问题)区别于传统调度的主要特征是一台机器在
基于H.264/AVC编码标准的可分级视频编码(Scalable Video Coding,SVC)可以实现时间、空间和质量三种可分级性编码,以应对网络异构性、终端设备多样性和用户需求个性化等要求。由
在人工智能不确定性问题研究中,如何实现定性概念定量化,是解决多属性复杂系统评价的难点,传统的方法是通过专家依据经验给出定性评价指标的隶属度或隶属函数,经过随机模糊变换实
传统的手写输入法识别过程包括用户输入,单字识别,用户选择以及改错,在这个过程中,不免会打断用户书写过程中的思路,难以保持书写的连贯性,导致输入法的效率低。同时这种输入法识别
搜索引擎的出现帮助用户在纷繁杂乱的互联网信息中寻找相关的信息,因此检索结果的排序是至关重要的。作为新兴信息检索技术的排序学习算法是解决互联网信息检索问题的新的解决