【摘 要】
:
随着网络信息技术的发展,人们在日常工作中需要处理越来越多的文本信息,文本分类作为这一领域的关键技术近年来日益受到关注,传统的文本分类方法需要大量的已知类别文本来帮
论文部分内容阅读
随着网络信息技术的发展,人们在日常工作中需要处理越来越多的文本信息,文本分类作为这一领域的关键技术近年来日益受到关注,传统的文本分类方法需要大量的已知类别文本来帮助构建分类器,然而通常情况下我们只能得到少量的已知类别样本和大量的未知类别样本,如果只利用这些已知类别样本来构建分类器,不但得到的结果具有一定的局限性,大量的未知类别样本隐含的信息也难以得到有效利用,这就造成了一定程度上的资源浪费,而且人工为未知类别样本打标记也需要耗费大量的人力物力,因此半监督学习应运而生。半监督学习是一种介于监督学习和无监督学习的一种学习方式,它只需要部分已知类别的训练样本,结合未知类别样本含有的知识来学习构建分类器。本文在现有的半监督分类算法的基础上,提出了一种可以有效提高分类性能的基于多数投票的半监督分类方法,并结合文本分类,提出了一种扩大已知样本集的新方法,论文的主要工作如下:1.介绍了文本分类的关键技术,包括文本的表示、文本的预处理、特征选择、特征权重计算,常见的分类方法和分类性能评估。2.介绍了半监督学习的概念,并结合现有的半监督分类算法,引入了基于最近邻的多数投票规则,通过实验证明了该方法的有效性。3.将半监督分类的思想用于文本分类,并根据文本的特征提出一种加入相似样本的小样本半监督学习方法,该方法首先通过已知类别样本集提取出能代表每个类别的代表特征,再根据这些代表特征从未知类别样本集中挑选出相似样本加入到已知类别样本集,扩大了已知类别样本集的规模,再用以后续的学习。实验中采用了一个标准的中文分类数据集来验证该方法的有效性。
其他文献
无线传感器网络(WSN,wireless sensor network)是微机电系统、片上系统和无线通信技术高度集成而孕育出的一种新型信息获取和处理模式。在无线传感器网络的研究领域,定位问题
传统课件由于固化了教学内容、知识的表达方式及呈现顺序,因而无法在课堂上根据学生对知识点的反应及时调整教学内容和教学方法,难以适应变化多样的课堂教学需要,影响了教师和学
随着企业在信息化建设的不断投入,在运行中的信息系统数量越来越多,系统的规模也越来越大,且IT基础设施规模庞大、结构复杂、品牌众多,为实现信息资源合理配置、有效管理,确保系统
随着我国对近地空间环境的不断探索,获取了海量的空间环境探测数据,这些数据具有时变、动态、空间真三维、属性多维的特性,而目前基于文件的数据组织存储方式不能高效回答数
本文首先就ITS的概念、国内外发展现状进行了研讨,分析了面向服务架构的应用现状,并对传统ITS、面向服务架构、知识服务和Agent技术进行了简单的分析和研究,为服务型AB-ITMS
阿尔茨海默症(AD)是世界上最常见的疾病之一。它是一种神经退行性疾病,会使得患者的认知功能出现障碍,记忆力衰退。至目前为止,对其尚未有有效地知了手段。也因此,AD的早期诊断是一
针对电梯轿厢内暴力行为的日益增多,安全问题需要得到更多的关注。而目前的传统视频监控无法自动地检测异常行为,还需要人参与其中,其效率和准确性都不能令人满意。智能视频
行人检测是计算机视觉领域重要的研究方向,其涉及到数学、模式识别、人工智能和机器学习等多学科的知识。行人检测在智能交通领域(如车辆安全、视频监控和自动驾驶系统等)具有广
随着虚拟现实和三维仿真技术的发展,越来越多的针对特定领域的仿真系统应运而生。而针对目前起重吊装行业中手工制定吊装方案的繁重和低效,且无法直观地对吊装方案的有效性和