基于机器学习的文本分类算法研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:nishiwangba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,互联网中越来越多的数据蕴涵着巨大的价值。以文本为代表的非结构化数据在提供丰富内容、表达情感、共享经验的同时,也为建立用户画像、舆情检测等各类数据挖掘工作提供了大量宝贵的数据资源。文本分类作为自然语言处理领域中的基础任务,不仅有助于信息的自动选择、处理,加快信息化流程,而且服务于情感分析、自动摘要、人机对话等复杂任务,可以为用户提供智能、个性化的服务。根据训练数据的标注情况,文本分类可以分为监督文本分类和半监督文本分类。其中半监督文本分类的研究还十分缺乏。因此,进一步提高文本分类的准确率、解决半监督场景下的文本分类是目前自然语言处理领域研究的热点。在监督文本分类任务中,充足的标记样本可以用来训练复杂模型从而达到更优的性能。相比浅层学习模型,神经网络模型具有强大的特征提取和复杂问题建模能力。传统的文本表示无法充分训练神经网络,而利用携带语义信息的词向量可以将文本表示成二维网格型数据,适合于卷积网络的处理。加之卷积擅长处理空间关系的特点使得其可以自动地提取上下文及结构特征,因此卷积神经网络的使用大幅度地提高了文本分类的性能。在此基础上,本文提出针对不同长度的文本使用不同结构的神经网络进行特征提取,进一步提高了分类的准确率。而在半监督文本分类任务中,标记数据的缺乏导致强大的监督分类模型常常出现欠拟合或过拟合的现象。协同训练算法从差异化的特征空间角度出发,借助监督分类器的优势,取得了不错的成果。然而,寻找同时满足充分冗余和条件独立两个假设条件的双视图是文本协同训练的难点,故现有研究大多仅限于一些特殊场景下双视图的构造。因此,为了提高模型的普适性,本文提出从全局(文档“摘要”)和细节(特征词)的角度分别进行文本表示,构建基于不同粒度的协同训练双视图。在此基础上,使用多次下采样方法进一步提高不平衡数据集的半监督分类性能。实验结果表明,本文提出的基于全局/细节双视图的协同训练模型在半监督文本分类任务上性能更优。
其他文献
样品采用乙腈直接提取,离心分离及固相(C18柱)净化方式,经衍生后,用液相色谱紫外检测器测定牛奶中5种青霉素残留,方法最小检测质量 度0.005mg/L,回收率范围在68.9%-101.3%之间,相对标准偏差为3.21%-6.18%。
土地利用的变化是近些年比较热门的研究方向。在大力发展建设的过程中因城市盲目扩张易造成资源浪费、土地闲置、建设重复、制度与实际不相协调等问题。为了建设高质量的城市,需要对土地的发展规律有所理解。对于土地利用发展变化问题的研究主要集中在构建高可用的模型,深入地挖掘土地发展的特征,以实现在宏观规划方面的有效调控,实现土地利用的协调、健康和可持续地发展。从土地利用变化的研究来看,主流的方法是基于元胞自动机
诉讼活动中,司法鉴定作为法定证据之一,在证明案件事实,印证其他证据材料方面具有重要作用,为促进公正司法提供了有力的技术支撑和保障。但实践中,司法鉴定在服务公正司法方
通过不插电的计算机科学教学来培养和训练学生的计算思维能力,综合运用文献研究法、教育实验法和行动研究法,结合不插电的计算机科学在宁夏某学校课堂的具体应用,展示了信息
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
光纤传感是上个世纪80年代兴起的新型传感器,随着新型工业技术的发展,光纤传感技术已经在工业、农业、环境,医疗等领域得到了广泛利用。在药物分析中,光纤传感相较于以空气为
目的:探讨糖尿病多重一对一健康教育对社区2型糖尿病患者血糖控制、自我管理行为的影响。方法:抽取2016年8月-2017年1月笔者所在社区中心管理的2型糖尿病患者60例为研究对象,
中医学具有十分悠久的历史,在<内经>一书成书之后,标志着中医学已经从经验医学上升为一门独立的自然科学.春秋战国之际,我国的社会制度正在经历着巨大的变化,以宗族制度为基
【正】近年来,郑州市坚持把解决城镇就业再就业问题作为各级政府工作的重中之重,完善机制,强化责任,不断推进工作制度化、规范化建设,有力地促进了就业再就业工作。2005年,全
动机是二语学习的关键性因素之一。文章分析了一年制新疆少数民族预科生英语学习现状,基于二语动机自我系统理论,提出了相应的教学启示和建议。