基于TF-IDF和机器学习的文本向量化与分类研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:iamwoceo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和社交媒体的爆炸式增长,数据量与信息量暴增。随着各种信息铺天盖地的到来,数据飞速更新。对于用户来说,想要准确地获得对于自己有价值的信息越来越难。因此自动化的文本分类与挖掘的技术应运而生,也随着时代的发展变得越来越重要。由于文本分类技术的飞速发展,数据挖掘、机器学习不断被运用到文本分类中。本文选取清华大学NLP实验室的THUCNews数据集的子集Cnews,共10个类别,训练集与测试集的比例为5:1,共6万条样本。首先,在预处理方面,利用jieba分词工具,并进行去表情符号和特殊字符等处理,然后利用TF-IDF词向量化模型来提取文本的特征向量。考虑到量纲的影响以及词频与文本的相关度可能不一定是线性的增长关系,分别提出标准化TF-IDF和1+log(TF)_IDF的词向量方式,对TF-IDF中的TF计算方式进行了改进。本文通过逻辑回归、支持向量机、朴素贝叶斯和梯度提升等机器学习分类算法,首先验证了标准化TF-IDF和1+log(TF)_IDF的词向量方式相比于传统TF-IDF词向量方式来说在分类效果上的提升,并利用准确率、召回率、F值等指标对分类模型进行了评价和分析。然后与传统的Word2vec的词向量模型进行对比,进一步验证了本文提出的标准化TF-IDF和1+log(TF)_IDF的词向量方式在短文本词向量特征提取方面的优势。最后利用Voting融合分类模型,验证了模型融合在一定程度上可以提升分类器的分类效果。
其他文献
水声通信是实现水下万物互联的关键技术,也是联接空天海地一体化信息网络的重要纽带。在众多宽带水声通信技术中,差分相干检测正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因在对抗多径干扰以及降低信道估计依赖等方面表现卓越,成为新一代高速水声通信的国际研究前沿。然而,要在复杂恶劣的水下环境实现差分OFDM信号精准检测极具挑战。具体而言,水
学位
生命体征检测在医疗、健康监护、灾后救援等方面有重要应用价值。传统接触式检测方法(如:运动手环、医用心电监护仪、心率带等)对于特殊人群及环境并不适用,具有较大局限性,因此非接触式生命体征检测的研究具有重要意义。毫米波作为一种新型的非接触式检测方式,具有全天候,距离分辨率高,无隐私泄露,体积小等优点,在生命体征检测方面有广阔应用场景。生命体征探测提取包括人体目标定位及生命体征参数估计,围绕这两个问题,
学位
为进一步优化道路交通环境,预防和减少道路交通事故,降低城区碳排放,全国各城市均积极推动中心城区高排放大货车限行禁行措施。本文面向江西省某市交警支队高排放车辆限行管理系统需求,针对城市每日过车抓拍图片数据量大,基于人工审核准确率低工作量极大,与通行证对比出违法通行记录效率过低,缺乏可视化数据分析等问题,基于互联网与人工智能技术,研发了一套面向智慧交通的城市高排放车辆限行管理系统。本文首先针对现有系统
学位
近年来海洋军事通信、海底矿物探测等业务需求日益增多,磁感应(Magnetic Induction,MI)通信依靠耦合线圈感应的磁场分量进行通信,有速率高、天线结构简单等诸多优势。这种近场通信方式在土壤、油藏等恶劣环境中应用效果良好,为水下通信提供了新思路。本文结合磁感应通信特点,对水下磁通信传输图像的实际应用展开研究。首先分析磁感应传输原理及通信模型。分析了水下电磁波和磁感应信号的传输特性,包括频
学位
随着基于位置信息的各种室内智能服务的广泛普及,低成本高精度的室内定位技术成为国内外研究的热门方向,其中基于蓝牙的室内定位技术以低成本、低功耗、应用广等特点受到广泛关注。2019年1月,蓝牙技术联盟在蓝牙5.1协议中新增了“寻向”定位功能,将天线阵列技术引入了蓝牙平台来实现定位精度的进一步提升。相比于基于接收信号强度(Received Signal Strength Indication,RSSI)
学位
网络规模的快速增长加剧了无线Mesh网络流量分布的复杂性和动态性,给路由算法的设计提出了更高的要求。传统基于单点转发的路由策略需预设网络流量特征,易出现拥塞且难以匹配网络状态变化。因此,本论文提出融合机会路由与强化学习来构建路由策略,利用机会路由的多点转发思想缓解拥塞,同时应用深度强化学习来适应网络拓扑和负载的动态变化,并联合考虑不同性能指标来优化路由选择。本论文主要研究内容如下:1、介绍并分析了
学位
疲劳驾驶对道路交通安全构成极大的隐患,研究显示对疲劳驾驶行为进行及时预警和干预,可大幅降低此类交通事故发生的几率。传统疲劳驾驶监测工具多应用中高档轿车或基于可穿戴设备,其价格昂贵、数据采集单一,复用性和可扩展性较低。本文尝试基于驾驶员已有的移动设备,构建一套面向驾驶员疲劳检测的应用系统,借助多模数据采集和分析,实现驾驶状态监测、车辆行驶状态监测以及疲劳驾驶状态检测与行驶预警,为更好实现驾驶员疲劳驾
学位
目前货运列车制动状态检测大量依赖人工,效率较低。为提高列车制动状态检测的效率,减少人工作业以及保障车厢安全,本文利用深度学习算法对列车制动状态进行自动检测,其关键是对制动缸缺陷进行检测。制动缸缺陷检测流程包括制动缸目标检测阶段和缺陷判断阶段,先利用目标检测算法检测出关键目标,再利用缺陷判断算法对制动缸缺陷进行检测。而关键目标的检测存在两方面难题:(1)制动缸目标检测框的精度不够,存在较大偏差;(2
学位
在科研管理领域,随着信息化建设工作的逐步深入,积累了海量的科研数据,迫切需要一种更高效的方式进行存储。同时,对于科研管理人员而言,传统科研信息管理系统的查询操作繁琐且无法按需检索,使用成本较高。基于知识图谱的问答系统(Knowledge Graph Question Answering,KGQA)可以有效地解决上述问题。目前,中文知识问答方法对于简单问题具有较好的效果,但在解决复杂问题方面不够理想
学位
后疫情时代,线下课程在不断向线上方向转型,使得在线仿真实验系统的开发越发成为教育领域的一个重要组成部分。“计算机组成原理”是一门理论性和实践性都很强的课程,其中MIPS汇编指令教学任务在线下教学过程中,教师在验收实验时需要花费大量精力,效率不高。为减轻线下教学的负担,方便学生随时通过线上实验系统进行课程学习,并通过线上实验自查,纠正实验过程中出现的问题和错误,利于学生和教师根据教学进度安排,完成汇
学位