改进的TF-IDF特征选择和短文本分类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:axiaaawei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络很快成为互联网用户获取信息、交流和学习的重要平台,同时该平台也产生了海量的文本数据,这些数据内容简短,上下文语义关联程度大,表达方式多样,但是蕴含大量的信息。如何处理这些短文本并从中获取有价值的信息,一直以来是人们所关心的问题。文本分类是指将文本信息归为一个或多个类型的过程,可以解决短文本杂乱无章的问题、提高信息利用率以及帮助用户缩小信息检索范围。考虑到这些非结构化文本数据的特点,传统的特征表示方法和分类模型对其直接进行处理结果精度有限。针对这种情况,本文主要从两个方面着手改进:文本特征选择方法和文本分类算法。一、鉴于短文本数据集的非均衡性,传统特征选择方法的不适用性,本文首先把类频方差和卡方检验引入词频-逆文档频率算法中,形成两个单模型特征选择算法,将两个单模型融合再引入词向量训练工具Word2vec形成的算法记为WoTFI,用于特征获取,该模型既考虑到文本数据的语义信息,又兼顾到特征词在类内和类间分布的差异。和不同的特征表示模型对比,WoTFI不仅能够灵活实现特征词权重的分配,也对分类结果产生了积极影响。二、对传统分类算法做了改进,采用双向长短时记忆网络框架结合双通道特征输入的卷积神经网络实现短文本分类。WoTFI作为模型的一种通道特征输入,另一个通道为字符级的特征嵌入表示,通过捕获单词或短语形状和形态信息得到短文本特征,再利用卷积神经网络算法对上述两通道特征处理获取更深层次的特征。在池化层和长短期记忆网络层分别引入局部响应归一化和Dropout策略,使得监督学习算法加快,防止模型过拟合,增加算法的泛化能力。本文的分类模型集成卷积神经网络和双向长短期记忆网络模型的优点,既可以捕获双向语义依赖关系,有效保留短文本的语义信息,同时,避免了长序列训练过程中梯度爆炸和消失问题。实验设置的数据集大小不同、包含中文文本和英文文本、分类的类别数目也不一样,通过对比实验可知,本文模型的性能指标优于传统模型。
其他文献
传统的公司金融理论认为人是完全理性的,而心理学研究表明,人并非完全理性,人在做决策时信念和偏好往往会出现系统性偏差,并表现出过度自信、典型性、锚定、损失规避等行为特
总结22例重度妊娠高血压综合征患者临床护理经验,认为应严密监测重度妊娠高血压综合征孕妇的生命体征,控制抽搐发生,监测胎动胎心,适时终止妊娠,控制并发症发生,并做好饮食护
目的探讨以喙突为起点重建离断肱二头肌长头腱治疗闭合性肱二头肌长头腱起点离断的疗效。方法对7例肱二头肌长头腱起点闭合性离断进行切开缝合重建于喙突上。在喙突上打洞,将
以苏云金芽孢杆菌库斯塔克亚种(Bacillus thuringiensis subsp.kurstaki)8010为研究材料,通过PCR技术获得Bt 8010菌株NAD(P)H:醌氧化还原酶基因上下游2个片段,以含有卡那霉素抗性
目的:随着人们生活水平的提高,糖尿病已经成为人类健康的第三大杀手。在治疗糖尿病的过程中,控制血糖是关键。只有控制血糖,才能减缓糖尿病的病理进程,才能减少合并症的发生
会议
目的观察奥氮平应用于脑卒中后精神障碍患者的临床效果。方法选取医院收治的脑卒中后抑郁患者76例为研究对象,随机分为观察组和对照组,每组38例。对照组采用氟西汀治疗,观察
我国是农业大国,每年都产生大量的秸秆、谷壳及果皮等植物质类农业废弃物,虽然通过功能材料、直接还田、用作动物饲料或燃料等方式拓展了其利用空间和途径,然而还是有大量的