基于BERT和NLPIR的数学应用题向量化词性标注

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:nhekccxeadk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在智能化教育需求和机器学习、多媒体技术、自然语言处理等技术的推动下,机器解答的研究热度持续上升,中小学数学题的机器解答成为研究热点。数学应用题的机器解答,一般分为两步,第一步是题目理解,第二步是问题求解,其中题目理解是问题求解的基础。词性标注作为题目理解的核心,在数学应用题机器解答研究中,起着关键的基础作用。传统的数学应用题词性标注使用标签式标记,存在无法直接进行运算、难以引入深度学习的机器解答技术的问题,这些问题制约着机器解答的发展。要解决这些问题,就需要对数学应用题进行向量化的词性标注。本论文致力于解决以上问题,开展中文数学应用题的词性标注方法研究,主要包括以下内容:1.通过分析了多种词的向量化表示方法,最终决定采用BERT模型作为数学应用题向量化的表示方法。通过对各种分词系统的对比,采用NLPIR分词系统的中文分词功能,作为数学应用题文本的分词工具。在此基础上,提出了基于BERT和NLPIR的数学应用题向量化词性标注方法。与传统的数学应用题标签式的词性标注的方法不同,这种方法对数学应用题进行向量化的词性标注,方便使用深度学习技术提升机器解答算法。2.通过实验验证了本论文的向量化词性标注的有效性。对数学应用题句法语义混合模型池中四个常用词类(名词、数词、量词、时间词)设计实验,采用欧氏距离和余弦相似度的期望、中位数、最大值、最小值和方差5个统计学指标来计算向量相似度,评价向量化的词性标注的性能。同时设计了只含一层隐藏层的线性神经网络进行分类,分类的准确率达到96.71%,验证了向量具有明显的词性区分特性。
其他文献
随着人们对环境重视程度的提高,气体传感器作为一种高效便捷的检测手段使用范围愈加广泛,有效检测易挥发有害气体对于保障人类的生存环境和健康具有重要意义。金属氧化物气体
初始对准的精度对后续导航系统性能影响很大,因此对准问题的研究一直是人们关注的焦点。导航系统的对准工作可以在多种情况下进行,比如完全静态的条件下,系泊状态下,或是在海
随着社会和经济发展,我国对桥梁建设质量、建设速度以及耐久性的要求越来越高,基于标准化、装配化的预制结构成为新时期桥梁建设的首选结构形式。BULB-T梁桥由BULB-T梁、横梁
六氟化硫(SF6)分解组分检测是监测气体绝缘组合电器(Gas Insulated Switchgear,GIS)设备内早期绝缘故障的有效方式之一。二氧化硫(SO2)和硫化氢(H2S)属于SF6分解气体的重要特征组分,
本文介绍了天文学中数据挖掘和机器学习的现状。从这个领域研究者的角度来看,数据挖掘可能有一些混合的含义。如果使用得当,它可能是一种强大的方法,有可能充分利用指数级增
深度卷积神经网络作为深度学习的核心算法模型之一,在计算机视觉领域取得了突破性的进展,在图像分析和处理等任务中受到了广泛关注。但是,深度卷积神经网络是以数据驱动的滤
本文针对质量技术监督系统在日常的培训工作中,往往较多采取集中培训的方式,这种方式在一定程度上存在着成本较高、培训者时间难以集中、占用工作时间等缺点,然而通过网络教
滚动轴承在各种机械设备中发挥重要作用,其健康状态与机械设备的安全稳定运行密切相关。针对滚动轴承进行开展的故障诊断技术的研究,不仅可有效提高机械设备运行的可靠性及安
现代工业的快速发展让机器人越来越多的应用于各种工业作业之中,同时对机器人的控制性能提出了更高的要求。由于机器人系统为一个具有强耦合性和诸多不确定因素的系统,因此在
随着科技的发展和制造工艺的提升,移动设备迎来了爆炸性的增长。为了满足人们日益增长的各种需求,越来越多的移动设备中配备了各式各样的传感器。惯性传感器是其中的一个典型