基于深度学习的多语种文本分类系统的研究与实现

来源 :延边大学 | 被引量 : 0次 | 上传用户:xujungang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和全球化进程的发展,对于多语种文本信息的分析与共享成为人们生活和工作中不可或缺的一部分,因此对多语种文本分类技术的研究具有重要的应用价值。已有的文本分类研究成果,大多是面向单一语种环境的,当处理不同语种的文本时,往往需要训练多个单语种文本分类系统来支持多语种数据集,工作成本较高,因此迫切需要开发多语种文本分类系统,以适应用户需求的变化。本学位论文针对中、英、朝三种语种的科技文献摘要,研究多语种文本分类问题,采取各语种各自提取特征然后融合的策略解决语种障碍问题,通过搭建深度神经网络模型提高分类性能,并设计实现多语种文本分类系统,为中英朝科技文献跨语种共享平台的建设奠定技术基础。首先,收集中、英、朝三种语种的科技文献摘要,将9万余篇多语种摘要文本按内容分为13个类别,组织成多语种平行语料库。其次,提出一种基于双向长短时记忆和卷积神经网络的多语种文本分类模型。结合主题向量和词向量构成各语种的文本表示,分别输入到对应的子神经网络模型提取该语种更深层次的文本特征,然后将各语种的特征进行融合,最终输出分类结果。最后,分析并设计系统功能模块,开发多语种文本自动分类软件系统。该系统可实现对中英朝任意语种的文本进行分类,并按类别存储,也为用户提供自主修改类别、查看文档等功能,方便用户管理。同时,用户也可按需求在线对分类器进行更新,在保证分类准确度的同时增加了用户的可控性。本文提出的多语种文本分类模型能够降低对外部资源的依赖,实验和系统运行结果表明,本文所提出的基于双向长短时记忆和卷积神经网络的多语种文本分类模型相比于传统方法,分类准确度提高了 2到5个百分点。另外,本文设计并实现的多语种文本分类系统核心功能完善,满足实际应用的需求。
其他文献
<正>花生是鲁西南地区重要的油料经济作物,2018年邹城市花生种植面积达25万亩。传统的花生种植模式问题较多,如连茬种植,施肥不科学,一穴双粒密度偏大等,严重限制了花生产量
1故障情况链式手制动机拉杆3根圆钢组焊处裂纹现象较突出,严重影响了车辆运行安全。运用部门在日常检查中经常发现手制动机拉杆裂纹、折断故障及手制动机拉杆托架座脱焊故障
术语内涵的不同解释是语言任意性和非任意性之争的缘由之一,因此,必须对它们进行本源性的、语篇分析式的清理和阐释.分析表明,任意性最根本的意思是我们无法从物理、生理等自
佛山电器照明股份有限公司作为老牌绩优股,上市11年坚持每年现金分红,是深沪两市累计每股派现最高的公司。那么,该公司为何要采取这种长期稳定的现金股利分配政策,公司采用该
综述了木瓜有效成分和药理作用的最新研究报道,为进一步保护和合理开发利用木瓜资源提供理论基础。
目的:分析用玻璃体手术治疗白内障手术并发症的临床效果。方法:回顾性分析2010年5月-2015年12月笔者所在医院收治的68例(68只眼)白内障手术并发症患者(均适时进行了玻璃体切除术)的
通过客观结构化临床考试应用于全科医师转岗培训临床能力考核,体现出全科医师各站平均成绩跟总分有较大差距,且临床基本技能成绩相对较高,临床技术操作为最薄弱的环节。对全
利用骨干系法组配 78个杂交组合 ,对玉米的 5个产量构成因素与籽粒产量进行遗传相关和通径分析 ,结果表明 ,穗长等 5个产量构成因素与籽粒产量的遗传相关系数均为正值 ,且均
本试验采取对添加海藻酸钠的试验组和未添加海藻酸钠的对照组进行反复冻融4次,通过测定每次冻融后的样品进行样品蛋白含量、盐溶性蛋白含量、乳化性、总巯基含量、蛋白质Ca2+
伴随着我国经济社会的发展,城镇化战略的持续推进,社区作为公民生活的场所,如何治理好社区已成为我国当今社会治理面临的主要问题之一,正如习近平总书记在十九大报告中所指出