基于深度学习的蒙古文标准符合性检测系统的设计与实现

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:zhurx180
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前蒙古文信息标准化体系正在构建,而蒙古文的标准符合性检测工具仅仅只有两个,其一系统采用的是提取印刷体白体蒙古文的特征并对其进行相似度的计算,通过人工设定一个固定阈值来判断被测字样与国家标准字样是否一致;其二系统主要是以人工鉴别的方法来判断给定字样与国家标准字样是否一样。上述这两种检测系统各有利弊,但都在不同程度上填补了蒙古文标准符合性检测工具的空白。由于它们在实际应用中的效率并不高,而且都难以推动已发布的蒙古文信息技术标准的实施。所以为了解决上述这种问题,本文通过对蒙古文的标准符合性检测进行了相关的调研后,实现了基于深度学习的蒙古文标准符合性检测系统,为蒙古文的信息标准化建设做出了一点贡献。本文的主要研究内容包含以下几点:(1)构建了基于国家标准的传统蒙古文编码符合性检测的数据集。先将待测的编码序列存储在txt文件中,进行不同字体的切换,同时人工截取相应区域的图片,将图片通过OCR技术把蒙古文单词切分出来,再将得到的目标图片逆时针旋转90°并进行保存,经过上述操作后再通过人工校的方式把符合国家标准的字符图像存放入训练集中。由于已出版的字库文件很少,所以构建出的数据集是一个小型数据集,不满足深度学习进行分类的条件,为此选择对数据集进行相应的数据增强。本文采用了深度学习框架Keras中的ImageDataGenerator类进行样本的扩充。训练集由数据增强后的数据样本构成,使用了12个已发布的蒙古文白体字库,然后从训练集中按照0.25的比例随机地划分出来验证集,用于共同训练分类模型。测试集则是选用市场占有量比较大的三种产品的白体字库的字型。(2)由于传统蒙古文的单词图像在进行字元切分的时候难度比较大和一些特征提取不便的问题,本文选用了在图像分类领域大放异彩的卷积神经网络模型作为分类模型。实验的基础模型选用LeNet-5模型,对比模型则是选用改进基于Lenet-5的卷积神经网络模型和AlexNet模型。在对比实验中,通过改变输入图像的尺寸大小和训练次数等影响因素来观察基础模型和对比模型的分类性能,最终选取了在实验中分类效果更优的AlexNet模型为蒙古文标准符合性检测的模型,该模型在蒙古文编码字符集测试集上的准确度为98.72%,在蒙古文转换规则测试集上的准确度为98.48%,在蒙古文资源测试集上的准确度为100%。本文在Windows系统下通过PyQT5实现了基于深度学习的蒙古文标准符合性检测系统,其实验结果达到了比较好的效果,能够满足实际的应用。
其他文献
选取126名女大学生实施10周初级瑜伽练习,在瑜伽练习前后对受试者进行身体形态和心肺功能相关指标进行测试发现瑜伽练习可以减少脂肪、降低安静心率与血压、增加肺活量,结果
<正>我家的客厅没有电视机,左右两边都是书架,贴壁而立。其中一边的书架是定制的,深达三十厘米,里外可以放两排书,里层的书立在一个隐藏的小木架上,比外层高出七八厘米,不至
《仪礼》一书的基本结构可分为经文与记文。前人曾指出《仪礼》中的记文的主要的作用是补经之未备,阐经之未明。但是并没有学者把《仪礼》一书中各篇经文与记文的关系都加以
目的:优化白豆蔻挥发油β-环糊精包舍的最佳工艺条件。方法:以包舍率和包舍物收率为筛选指标,以挥发油与β-环糊精的配比、包合时间和包合温度为考察因素,采用正交试验对白豆蔻挥
目的对国际传播视野中的中国设计与“中国制造”进行研究分析。方法从国际传播视野的角度,对产品的材质、造型、图案和色彩进行分析。进入国际贸易体系中的中国产品同时也是
目的探讨不同部位侧脑室肿瘤的显微手术治疗方法及效果。方法回顾性分析2003年至2008年经显微手术治疗的15例侧脑室肿瘤患者的临床资料。结果肿瘤全切除12例,次全切除2例,大
在国家税务总局提出构建税收现代化的六大体系中,"互联网+"和大数据治理是其中的重要支撑。在金税三期工程和营改增试点全面推广的大背景之下,本文从国际趋势、发展规律和创
以2-丙烯酰胺基-2-甲基丙磺酸(AMPS)、马来酸酐(MA)、N,N-二甲基丙烯酰胺(DMAM)、烯丙基聚乙二醇(APEG)为单体合成了一种四元共聚物降失水剂AMDA,采用FTIR、失水仪等手段对其
  本文观察了LSM产Al-3Ti-0.2C细化剂和国产Al-5Ti-1B细化剂的内部粒子形貌,系统研究了上述两种细化剂对7050合金铸态显微组织的影响。研究表明,当Al-3Ti-0.2C细化剂添加量为
随着互联网信息技术发展日新月异,与金融业愈加联系紧密,互联网金融作为借助技术手段创新的金融模式迎合了现代商业需求。因有着高效率、低成本的特点,投融资双方都可以基于