基于多词向量集成和神经网络的文本分类方法研究

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:qczjhyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类(Text Classification)是文本挖掘和自然语言处理中的一个重要的研究领域,旨在将文本归到预先定义的一个或多个类别中,许多不同的应用最终都可以转化为分类问题。传统的文本分类方法主要关注两个问题:特征表示和分类器选择。传统的文本特征表示方法通常基于词袋子模型(bag-of-word),该模型会出现数据稀疏、词序丢失等问题。传统的分类器往往也存在通用性差,调参困难等问题。近年来,基于神经网络的深度学习技术为文本分类带来了新的思路,本文在文本分类方法的国内外研究现状的基础上,提出了一个基于多词向量集成和神经网络的文本分类方法,本文的主要工作如下:第一,基于神经网络的文本分类相关技术理论研究。本文介绍了文本分类相关研究现状,重点介绍了基于神经网络的文本分类相关技术,并详细阐述了其理论基础。本文对比了传统文本分类和神经网络文本分类之间的差别,然后总结了用于文本分类的相关神经网络结构,最后介绍了各种词向量表示技术。第二、提出一种新的基于多词向量集成的神经网络文本分类模型。该模型可以集成多种词向量,并利用它们所包含的丰富词义信息来生成高质量的文本表示,最终促进文本分类的准确率。模型包含输入、文本表示向量生成、文本表示向量修正和分类四个模块。模型使用多种词向量初始化输入层,不再依赖传统的文本特征表示方法,避免了数据稀疏问题。同时,通过特定的网络结构(如卷积),模型还能有效地建模文本的词序和上下文信息。为了更合理地集成各种词向量,模型通过自适应修正策略来修正各词向量生成的文本表示向量,确保最终生成的文本表示能准确表达原文本的意思,提高分类的准确率。多个中英文分类数据集上的实验结果表明,该模型能取得良好的分类效果,优于多个基准模型。第三、文本表示向量自适应修正策略的设计与实现。由于训练模型和语料的不同,不同版本的词向量能够建模词不同方面的语义信息,这使得不同词向量对某一特定分类任务的贡献是不同的。因此,有必要对各词向量加以区分,调整它们对最终文本表示的影响。本文提出了基于Highway网络和基于注意力的两种文本表示向量修正策略。修正策略使模型具备了区分能力,重要词向量将会更多的影响最终的文本表示,而不重要的词向量的影响力将被弱化,从而避免其对分类产生负面影响。实验结果表明,两种修正策略都能有效的提高模型的分类准确率。
其他文献
目的观察多发性硬化肝肾阴虚型与脾肾阳虚型患者的质子共振波谱分析及弥散张量成像差异。方法对45例多发性硬化(MS)急性期患者的临床表现进行辨证分型,分为肝肾阴虚型(28例)
外资在我国经济发展中发挥了独特而重要的作用,也在一定程度上代表了国家鼓励的产业发展风向标。今天我们从外商投资政策来看看我国光伏产业的发展动态及未来方向。$$外商投资
报纸
给体质量(6.4±1.1)g的仿刺参体腔注射100μL灿烂弧菌、假交替单胞菌、希瓦氏菌和蜡样芽孢杆菌(细菌终密度为10^7~10^8 cfu/mL),以体腔注射100μL无菌海水的仿刺参作对照组,
建设项目涉及的利益主体众多,容易产生个体利益最大化与整体利益最优之间的矛盾,进而在不同行为主体间产生冲突型博弈。常见的冲突型博弈具有两个非帕累托最优的纳什均衡,且
解放战争时期,土地改革在东北解放区如火如荼地开展,推翻了封建土地制度,提升了农业生产力,提高了农民群众思想觉悟,在物质资源和人力保障方面为东北和全国的解放战争做出了
随着我国经济建设蓬勃开展,重大工程项目不断兴建,重大工程规范化管理技术也日益受到我国理论研究者和管理工作者的关注。在深入分析重大工程规范化管理技术内涵的基础上,分别以
目的探讨美沙拉嗪与康复新液联合治疗对溃疡性结肠炎(UC)患者细胞因子的影响及疗效。方法83例UC患者随机分成两组,治疗1组单独口服美沙拉嗪1.0 g,3次/d;治疗2组除口服美沙拉嗪
介绍了自力式压力调节阀工作原理及结构特点。重点阐述了弹簧型自力式压力调节既可稳压又可断阀介质的双重功能,并通过特殊工况下的实际应用来进一步分析弹簧型自力式压力调
本论文对“2017央视财经论坛暨中国上市公司峰会”的一场分论坛的现场视频进行汉英同传模拟实践。目的是通过对真实的论坛活动现场进行模拟同声传译,加强实践练习,以提高自身
果柄强度是影响花生机械收获的重要农艺性状。本研究对76个花生品种(系)进行了果柄强度、产量和品质的测定。筛选出适宜机械化收获的大花生新品系6个:R17-9,P17-91,P17-70,P1