基于注意力机制和卷积神经网络的中文学术文献分类研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:sorkayi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个互联网时代,信息呈现“爆发性”增长,文本是信息表达和传递的主要形式,进行文本分类可以让用户更好地筛选出特定领域的文本,从而可以更好地研究和利用文本本身的价值。文本分类方法有很多,随着技术的发展,在分类效果、分类速度和迁移性等方面都有了很大的进步,基于深度学习的文本分类方法也让文本分类技术有了进一步的发展。传统的文本分类方法主要存在以下不足:不能很好处理大样本数据、计算量大、处理大量数据时训练速度慢等,而基于深度学习的分类方法可以较好地处理大样本数据,因此本文采用深度学习中的卷积神经网络方法进行中文学术文献分类的研究。学术文献具有一定的规范性,其与传统的文本有一定的区别,因此将文本分类方法应用于学术文献的分类中需要考虑到这些区别。在学术文献分类领域,更好地进行自动分类可以减少文献管理者的工作量,使文献能够得到有效管理,现在出现了越来越多的线上图书馆、学术搜索引擎和开源期刊等线上学术资源,对文献进行自动分类,有利于线上学术资源系统的构建,有利于学者对学术资源的充分利用。论文的主要内容分为五大部分:第一部分主要介绍中文学术文献分类的研究情况;第二部分主要对卷积神经网络、注意力机制的相关概念进行描述,并概括了中文学术文献分类的流程;在第三部分,首先将卷积神经网络分类算法用于新闻文本得到分类结果,以及将其用于中文学术文献得到分类结果,两者之间有所区别,论文对两者的分类效果进行了比较,发现中文学术文献分类效果较差,并对原因进行了分析。其次,将卷积神经网络算法用于“标题”和“标题+关键词+摘要”两种数据集中,得到了不同的分类效果,可以看出用于“标题+关键词+摘要”的数据集中分类效果更优。再次,论文对比了基于字符和基于词的学术文献分类结果,发现基于字符的分类效果优于基于词的分类。论文第四部分是基于第三部分的研究,选择第三部分中分类效果较优的情况,将基于字符的卷积神经网络算法用于中文学术文献的“标题+关键词+摘要”数据集中,并在第四部分中加入注意力机制,验证加入注意力机制的分类效果,并且与第三章中的分类效果进行对比和分析。第五部分对本文进行总结,分析基于注意力机制和卷积神经网络的中文学术文献分类的过程和分类效果,总结研究的不足,并提出展望。
其他文献
由于社会、经济等现实问题的复杂性,在多属性决策过程中,决策者在给出决策信息时,不仅会在几个值之间犹豫不决,也可能会认为某一个值比另一个值出现的概率大。而概率犹豫模糊集作为一种新的不确定性决策信息的表达形式,特别适用于描绘决策者存在犹豫情形且每个值出现的概率可能存在不同的决策问题,其更能全面地刻画决策者的偏好,并且有效避免决策信息的丢失。概率犹豫模糊集出现的时间较晚,现有的理论研究还不是很充分,并且
学位
《十四五规划》提出超级版中国制造2025,积极引导轻工制造企业进行改革创新,实现高质量发展。而我国轻工制造企业产品销售依旧存在效率低、差异大和消耗高等问题,为此,本文对轻工制造企业销售效率评价及提升路径展开研究。研究的思路如下,首先结合销售渠道和产品品类异质性构建并联网络DEA模型测算2015-2019年销售效率值,以此对销售效率时序变化进行测算和分析。其次结合销售渠道和区域异质性,对我国六大经济
学位
21世纪以来,随着经济的飞速发展,全球二氧化碳等温室气体的排放量激增,温室效应、气候变暖等现象日益凸显,也因此引发了严重的生态环境问题。在此背景下,通过实证研究,分析低碳试点省份能源消费碳足迹的空间分异演化态势及影响因素,有利于为各试点省份碳减排工作的后续开展提供实证依据和策略支持,对于当前我国碳中和战略的实施有着重要的现实意义。本文首先基于可获得的2006-2017年各省份相关数据,采用政府间气
学位
创新是引领社会经济发展的第一动力,而高技术企业正是推动创新活动的主要角色和力量,其发展水平还影响着国家在国际上的竞争优势。由于高技术企业区别于一般企业具有技术和知识高度汇集、高投入、高风险的特点,使得任何一家企业都难以凭借一己之力独揽下全部的前沿高技术和市场。随着创新范式的不断演化升级,高技术企业的市场生存模式从企业之间的竞争到产业链间的竞争,逐渐演化成创新生态系统间的竞争。目前我国的高技术企业创
学位
现实生活中的多属性决策问题会因为环境等因素,逐渐演变成风险型多属性决策问题。而直觉模糊数作为一种不确定性数据的表现形式,适用于大多风险型多属性决策问题。其次,面对复杂多变的外部环境,决策者往往会受到自身心理行为的影响,使其从“完全理性人”转变为“有限理性人”,这种转变会对风险型多属性决策过程产生直接影响。而在心理行为领域中,前景理论和后悔理论最具代表性,可以分别描述决策者的损失规避和后悔规避心理。
学位
经济粗放式发展致使大量废弃物堆积,对生态环境造成严重损害,生产活动的急速扩张使原生矿产资源遭到过度损耗,经济社会与资源环境的矛盾愈加突出。“城市矿产”资源是从城市废弃物中提炼出的再生资源,能作为原生矿产资源的替代品,帮助解决废弃物治理问题,减轻对原生矿产资源的索取度。“城市矿产”产业链本质是循环经济产业链,其关键在于形成闭环。但是“城市矿产”产业链闭环中出现了处理成本过高、二次污染等问题,且“城市
学位
在党十九届五中全会通过的“十四五”规划中,强调了新发展阶段,优先发展农业农村,并全面推进乡村振兴。作为农业版的众创空间——星创天地的发展,深受科技部重视,尤其是其所孕育出来的创新优势。这也使得星创天地和众创空间的研究,逐渐受到学术圈的重视。然而,目前大部分研究都重实际案例分析、偏碎片化、轻理论。还没有专门研究星创天地创新能力系统的文献,且对于创新能力的研究多处于静态系统分析。本文通过研读星创天地、
学位
长三角城市群作为我国经济发展的重要引擎,其地区生产总值占全国总量的二成以上,但是随着经济的加速发展和城镇化的不断提高,导致长三角地区出现了用地紧张、空气污染等一系列生态环境问题,抑制了长三角城市群的发展潜力,威胁了人们的健康并降低了人民的幸福感。因此,本文对该地区的生态福利绩效及其提升路径开展研究,在准确评价其生态福利绩效的基础上,提出相应的提升路径,以助其突破发展瓶颈、提高民生福祉,从而为最终实
学位
空中交通密度的急剧增长与基本保持不变的民航可用空域资源存在很大的矛盾,由此导致我国的航班延误问题日趋严重,不仅产生了巨大的经济损失,也造成了不良的社会影响。此外,空域资源容易受到恶劣天气等突发状况的影响,导致大面积的航班延误,这已成为我国主要的空中交通问题。传统的不正常航班恢复问题是由空管部门进行决策,航空公司只能遵照执行,美国联邦航空局提出了基于协同决策(Collaborative Decisi
学位
随着泛在网络时代去中心化特征的日渐成熟,基于用户生成内容(User Generated Content,UGC)模式下的在线问答社区已然成为用户寻求自身个性化信息需求的习惯性偏好渠道,量身定制信息推送、专指性资源聚合等多维信息服务也成为学界及问答社区研究与关注的焦点。然而,现有的绝大多数更具用户专指性且面向特殊用户群体中弱势群体的在线母婴问答社区却将庞杂的用户生成信息资源按时间或极简主题进行堆叠与
学位