基于场景理解的汉语词汇学习软件的设计与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：donnybaby

【摘要】

：

【作者】

：

刘佳媛

【出处】

：

华中师范大学

【发表日期】

：

2020年01期

【关键词】

：

学习理论 vocabulary 数据集汉语词汇学学习效果学习模块神经网络 learner 最大概率情景学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文的全球化普及己经成为了一种必然趋势。掌握汉语词汇是学好汉语的关键因素之一。然而,市场上的词汇学习软件目前存在着许多缺点,例如学习内容与学习环境脱轨,这使得词汇含义抽象导致低效学习。为解决这一问题,提髙学习效率,本文采用基于深度学习的场景理解算法,从学习环境中自动生成汉语词汇学习列表,设计了一种新型汉语词汇学习软件。该算法首先检测并识别由摄像机捕获的场景图像中的对象,并生成包含候选汉字的词汇表,用于从所识别的对象的信息学习。此外,列表中的每个字符都与在线搜索的学习材料相关。这种方法的优点在于它建立了真实场景中词汇与对象之间的关系,从而解决了词汇学习行为与现实环境脱节的问题.最后,根据情景学习和多渠道记忆学习理论,设计并实现了第二语言汉语词汇学习的演示软件。具体的工作内容如下:1.自然场景目标对象的自动检测和识别.介绍了一种深度学习的方法,并且将它应用到自然场景目标对象的自动检测和识别中,最后实现并展示了识别效果。其核心内容是对场景的理解。具体而言,它指的是对学习者学习环境中目标的认识和理解。最终目标是提取由所理解的对象的名称和数量检测到的信息,并使用处理结果作为元数据作为对下一个中文词汇表的输入来执行适当的处理。对象识别分为以下几个步骤:1.数据集准备。2.将其输入预先训练的神经网络以获得相应的特征图。3.为特征图中的每个点设置预定的ROI以获得多个候选ROI。4.这些候选ROI被发送到RPN网络以进行二进制分类和BB回归,并且一些候选ROI被过滤掉。S.对剩余的ROI执行ROIAIign操作。6.最后,对这些ROI,BB回归和MASK生成进行分类。首先,准备数据集。本文使用MS COCO数据集将120k数据集划分为80k训练集,35k验证集和5k测试集,训练集中有82,081张图片。COCO数据库共有81个类别。接下来,将在Keras深度学习框架上构建一个神经网络。这里使用的MASK R-CNN是一个两阶段框架,第一阶段扫描图像并生成提议框,第二阶段对提议框进行分类并生成边界框和掩码。具体深度学习流程图如下:此时,我们已经有了明确定义的神经网络结构,因此我们可以将样本数据作为网络的输入进行训练。通过批量迭代训练,我们可以得到成熟的网络模型参数。训练步骤如下:1.从图像训练数据集文件夹中读取每个图像,在读取过程中保留其文件夹信息,并根据其灰度值将图像转换为张量。每个文件夹代表一个单独的类别,该文件夹中的所有图像属于同一类别。2.将所有分类保存在字典中,并按1-81对它们进行编号。使用该数字查询字典中的特定类别,并将类别的标识转换为张量。3.根据每个图片的文件夹信息,对应于类别标识符,将新的键值对插入队列中,并且训练样本中的每个图片与其类别标签正确关联。4.确定队列中的最小样本数,对队列进行分区,并确定队列中的训练样本图像按批量大小输入训练网络。5.使用Mask R-CNN进行训练。6.收敛后获得成熟的模型。当学习者将图像从终端上传到后台服务器时,服务器将图像的灰度值矩阵作为输入提交给分类器到网络。分类器通过使用已经学习的网络参数来提取和识别上载的图像,并预测分类结果。最后,输出具有图像分类预测结果的最大概率分布值的一个类别标签作为图像类别结果。我们可以看到这张照片中的一些常见物体,如床,灯,椅子.手提包等。所以经过深度学习识别.我们可以看到识别结果如下。可以看出,测试图像中的每个对象都己被识别和预测.这是基于该深度学习算法的优越性和自动分割功能,我们可以肴到侮个对象都被准确地识別和分割。2.生成词汇学习列表。经过深度学习,我们获得基于COCO数据库和预测参数的训练模型。此时,我们需要输入我们需要检测的图像,并将结果输出保存为单词列表。具体方法是:1.输入需要预测的图像大小。2.输入训练模型保存的路径和文件名。3.加载要预测的图像。4.将图像格式转换为我们需要的矩阵格式。5.将数据格式转换为可以计算的float32格式。6.转换力指定的输入格式的形状。7.将预测结果定义为具有最大logit值的分类。8.使用softmax获取概率。9.获得标签位置的最大概率。10.定义Savar类。11.加载检查点状态,这里将获得最新训练的模型。12.加载模型和训练过的参数。13.获取文件名保存模型时迭代的轮数。14.获取预测结果并获取标签名称。我们己经能够识别COCO数据集中与每个标签相对应的对象的名称。此时,我们将这81个类别存储在".name"类型列表中。目前,我们已经有了一个英文单词列表。接下来,根据81个英语词汇表的序列号,我们还创建了一个中文词汇表。两个词汇表是根据序列号对应的关系。通过这种方式,创建了基于COCO数据库的中文词汇表。3.扩充列表学习资源。但是,COCO数据库中的词库数量有限,因此为了扩展词汇量,我们使用了一个额外的子类别。获取中文词汇表与英语词汇表一致,我们可以创建一个新的".name"文件,使文件和以前的中文词汇表具有相同的序列号。通过序列号,我们可以从主类词汇表中获取子类词汇表。在识别出类别的词汇后,将显示出查询词汇表下的相应子词汇列表。另外,本文还加入了在线学习资源,即通过点击相应子词类别中显示的中文词汇来链接与中文词汇对应的图像搜索引擎搜索结果。类似地,实现过程为将每个子类词汇表及其相应的网络URL通过序其列号来链接。4.结合情景学习策略和多通道学习策略实现了演示软件.系统实现的步骤分为以下几个步骤:1。将准备好的资源文件和训练好的模型导入系统。2.创建主界面并添加“开始"按钮。3.创建主学习界面,包括打开图片,检测图片,显示图片的中文名称,文本检测和语音播放。4.创建子类词汇表接口,包括词汇表的超链接。第一个是登录模块,它只有几个文本组件和一个按钮组件。文本组件包括软件的中文名称和相应的英语解释。适合初学者熟悉界面,简单明了,不需要登录和注册,可以直接使用,非常方便。第二个是词汇学习的基本模块。该模块有六个按钮元素和三个文本框元素和一个轴元素。按钮组件分别提供以下功能:1.打开图像,主代码实现从本地计算机文件夹打开图片的功能,并将其显示到轴组件。2.检测,主要代码实现功能是调用己经训练过的深度学习模型来识別检测到的打开图像中的对象。并根据区域的大小,选择图片中最主要的对象。3.查看单词。此组件的功能是在右侧的空白文本框中显示检测到的对象类名称。4.检测正确或错误结果,其主要功能是在右侧提供一个可编辑的空白文本框,并将文本框的输入与标识类名称进行比较。播放,通过类名的名称调用直接播放音频数据库中的音频。6.相关词汇,该组件的功能是打开扩展学习模块。此主词汇学习界面,结合了多通道学习策略,通过语音播放,文本显示和自然场景图像学习等功能,将多个学习通道结合起来。因此,使用多通道记忆方法,可以加深学习者的词汇记忆。该软件还增加了文本验证反馈功能,使学习者能够加深和巩固记忆,提升记忆效果。同时,还结合了情景学习策略,将视觉捕捉的图像信息和文本信息直接联系起来,将学习者置于学习环境之中,提升学习效果。第三个是扩展学习模块。该模块由与主词汇列表对应的子词汇列表和对应的URL链接组成。通过这种扩展学习的方法,可以在学习者的文本词汇与图像之间建立思维联系,同时丰富词汇学习者的词汇量,加深学习者对基本词汇的理解和记忆。5.学习效果检验。首先,本文将现代汉语词典与本文所设计的词汇学习软件的学习效果进行了比较,以检测所设计的学习软件是否能提升学习效率。从图中可以看出,我们设计的软件明显优于传统的学习软件。在相同的时间内,我们可以使用我们的软件来掌握比传统软件更多的新词。关于忘记学习单词的问题,也是在相同的时间长度内,我们设计的忘记速度的软件比传统软件慢得多。换句话说,我们设计的软件具有"学得更快,记忆更久"的特点。此外,根据调查问卷,收集得到了本文设计软件的优点统计图:根据用户调查的反馈,我设计的软件的最大优点是它不仅是一个单词搜索软件,而且是一个简单易用的学习软件,可以随时随地学习汉语单词。但最大的缺点是它无法为中文相关的考试来备考。本文主要工作也是本文的创新点如下:1.将深度学习方法应用于汉语学习的词汇学习软件中,由此实现了情景学习的学习策略,将学习者置于学习环境中,将学习对象与学习环境相互联系,解决了学习与现实脱轨的问题。2.自动生成了基于自然环境的词汇学习列表,并衍生生成了子词汇学习列表,让学习者能够利用列表资源进行学习,从而加深和扩展了学习效果,丰富了学习的途径。3.结合多通道学习策略和情景学习策略,设计并实现了词汇学习演示软件,实验结果证明,本文所设计的词汇学习软件的学习效果明显优于传统学习词汇软件的学习效果。

其他文献

上呼吸道CT影像学解剖结构与SLIPA喉罩型号选择的研究

目的:通过研究患者上呼吸道CT图像上解剖学特点,探讨成年男女患者甲状软骨宽度的分布情况,分析其与患者年龄、性别、身高和体质量等参数的关系,为临床喉罩型号选择提供解剖学

学位

上气道解剖结构CT三维重建喉罩计算机断层扫描解剖学

基于向量网的OpenStack网络扩展模型及实现

近几年,随着信息科技的发展,云计算作为一种新的虚拟化解决方案,可以将现有的计算、存储和网络等物理资源进行整合,形成统一的资源池并以弹性的、即时的方式通过互联网提供给

学位

云计算OpenStack向量网

点线特征融合的移动机器人视觉惯导里程计研究

随着移动机器人的广泛应用,其精确定位技术作为该领域的核心技术之一逐步成为了研究热点。依赖单一传感器的定位,无法满足复杂环境下精确定位的需要,因此多传感器信息融合的定位方法成为当今移动机器人位姿估计的主要方法,目前应用较多的是将视觉信息和惯导信息进行融合实现位姿精确估计。在视觉-惯导里程计研究中,图像几何信息通常采用特征点匹配得到,但在低纹理场景中提取的有效特征点较少,容易导致定位不准。在人造环境中

学位

机器人定位惯性导航点线特征视觉惯导融合

基于双目视觉的3-PRS并联机构位姿检测研究

并联机器人/机构结构复杂,具有承载能力强、累积误差小、精度高等优点,得到广泛关注,其中以三自由度为代表的少自由并联机器人的研究成为近年来的研究热点。末端位姿是反映并

学位

双目视觉并联机构图像处理位姿检测运动学分析

抗胃壁细胞抗体阳性人群临床特征分析

目的:抗胃壁细胞抗体（Parietal cell antibody,PCA）是自身抗体家族重要成员,是机体免疫系统功能异常,B淋巴细胞针对胃壁细胞表面的H+/K+-ATP酶发生免疫反应分泌的一种免疫球蛋

学位

抗胃壁细胞抗体阳性人群临床特征早期防治预测价值

集群网络的一致性研究

多智能体网络系统的一致性是复杂系统的主要动力学行为之一,也是复杂系统协调控制的根本问题。随着多智能体网络系统一致性问题在机器人协作、无人机编队控制、电力网络、传

学位

多智能体系统复杂网络一致性复位系统事件触发控制

Ac-SDKP调节Hedgehog信号抑制AngⅡ介导的皮肤肌成纤维细胞分化的机制

目的探究取自SD大鼠中,新生幼鼠背部真皮组织体外培养的皮肤成纤维细胞(skin flbroblast,SF)经血管紧张素Ⅱ(angiotensinⅡ,AngⅡ)诱导转化为皮肤肌成纤维细胞(skin myofibro

学位

血管紧张素Ⅱac-sdkphedgehog信号通路皮肤肌成纤维细胞机制

左、右归丸对AMPK/mTOR介导的PMOP大鼠糖、脂代谢及能量代谢的实验研究

目的:本研究从中医学“阴阳互济”的理论出发,选用张景岳创立滋补肾阴的代表方剂左归丸和温补肾阳的代表方剂右归丸,通过研究左、右归丸对PMOP模型大鼠糖、脂代谢和能量代谢

学位

阴阳互济PMOP糖、脂代谢能量代谢AMPK/mTOR

多标记与偏标记学习算法研究

机器学习的目的是基于训练数据进行模型学习,从而利用学习到的模型对未知样本进行预测。对于分类问题而言,传统的监督学习将现实世界中的一个样本对象视为一个“示例&标记”对,其中示例就是用来描述样本的特征,标记即该示例所对应的类别标签。传统单标记学习假设每个样本对应单一的...、明确的...类别标记,即训练样本集中的每个示例仅与一个类别标记相关联。但现实应用中的很多机器学习场景并不符合上述的两个假

学位

多标记学习偏标记学习多分类

仰卧位和侧卧位上下肢PI差值预测产妇腰硬联合麻醉后低血压的可行性分析

背景腰硬联合麻醉(combined spinal-epidural anesthesia,CSEA)因其同时具有硬膜外麻醉和蛛网膜下腔麻醉的优势,广泛应用于剖宫产手术中,其并发症以低血压最为常见。低血压可

学位

剖宫产腰硬联合麻醉低血压灌注指数受试者工作特征曲线

基于场景理解的汉语词汇学习软件的设计与实现

其他学术论文