基于深度学习的汉盲自动转换技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:minlu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语-盲文转换在盲文出版、盲人教育等领域有重要应用,但当前主要基于人工完成,其过程效率低、成本高,导致盲文读物匮乏,盲人获取信息困难。已有的汉盲自动转换系统在盲文自动分词和标调方面性能不高,难以满足实用需求。当前已有研究大多基于“先将汉语分词再利用规则合并”和“匹配语料中出现的盲文词”两种策略,但盲文的分词连写涉及复杂的语法和语义规则,且词语无法穷举,导致计算机处理困难,性能受到很大限制。此外,基于机器学习的汉盲转换方法可大幅提高性能,但当前研究基于盲文语料库,在分词过程中损失了汉字的部分信息,会因为同音词混淆现象影响性能,并且已有研究采用传统神经网络,该模型在许多领域已逐步被深度学习方法取代。  针对上述问题,本文提出了基于深度学习和汉盲双语语料库的汉语-盲文转换方法,首次将深度学习技术引入该领域,并按照两种思路展开研究,提出了一种分步式的汉盲转换方法和一种端到端的直接转换方法。同时,为了支持上述两种方法中深度学习网络的训练,构建了一个汉盲对照双语语料库。  本文取得的成果如下:  (1)构建了汉语和盲文对照的双语语料库  目前尚无在规模和内容上均适合深度学习网络训练的汉盲双语语料库,并且现有语料库主要通过人工构建,效率低、成本高。针对上述问题,本文采用了基于字符匹配的对齐算法,能够高效地从不精确对照的汉语和盲文文档中自动抽取文本形成语料库,并实现了篇、段、句、词的多级对照。本文采用126本盲文书籍构建了一个汉盲双语语料库,其中无标点语料规模为27万句,234万字,含标点语料规模为6.7万句,197万字。  (2)提出了基于深度学习分词和统计学习标调的汉盲转换方法  针对已有基于机器学习的汉盲转换方法使用纯盲文语料库和传统神经网络模型,性能难以进一步提升的问题。本文基于已构建的汉盲双语对照语料库,提出了基于深度学习分词和统计学习标调的汉盲转换方法,设计了基于双向长短时记忆网络、双向长短时记忆网络与条件随机场结合的分词算法,将汉语文本按照盲文规则分词,同时利用统计学习模型判断哪些字需要标出声调。该方法首次将深度学习技术引入汉盲转换领域,并且通过采用双语语料避免了对盲文进行分词和标调时遇到的发音混淆问题。实验结果表明,相对于基于传统机器学习和纯盲文语料库的方法,本文设计的方法在准确率上提升了6个百分点。  (3)提出了基于深度学习的汉盲直接转换方法  当前研究大多采用分词和标调分步的方法,但在标调时采用的模型相对简单,没有充分利用上下文信息。针对该问题,本文提出了一种基于深度学习的汉盲直接转换方法,充分利用可用的上下文信息,使用一个深度神经网络同时实现分词、标调和多音字读音选择三种功能。该方法将每个字的分词、标调、多音字读音等信息组合后作为字的标签输入深度神经网络,使其自动学习盲文的分词和标调等信息。实验结果表明,该方法准确率可达90.47%,高于基于深度学习分词和统计学习标调的分步方法。
其他文献
随着信息技术的发展,数据仓库技术得到了前所未有的广泛应用,产生了巨大的经济效益。但是,随着市场经济步伐的加快和市场竞争的日趋激烈,传统的数据仓库技术已经不能很好地满足当
随着智能技术的迅速发展,人们试图应用知识工程、专家系统等技术,以计算机模拟人类专家对复杂系统进行故障诊断的方法,综合多个专家的最佳知识和经验,实现机械故障的快速分析
语义分析是自然语言处理领域的重要问题,也是当前研究的热点和难点问题。由于深层语义分析在目前的技术背景下还难以实现,特别是自动句法分析的瓶颈很难逾越,于是很多学者开
IPv6是在IPv4运行基础上发展起来的更为完善的Internet协议,是下一代互联网络的基础通信协议。IPv6协议栈涉及大量的协议规范,且相当一部分仍在讨论中。由于Internet应用在很大
目前,我国还没有提出完整的RFID(Radio Frequency Identification,无线射频识别)应用架构,相关的RFID支撑技术、产业发展的基础设施、测试认证、政策环境都还没有建立起来,关于编码
随着计算机网络、通信和控制技术的发展,以太网技术在工业控制领域中的应用倍受关注。但控制系统对高可用性和稳定性的要求限制了工业以太网的发展。同时面对国内工业生产的安
如今Web服务广泛分布于互联网中,它们通过彼此之间的交互实现对问题的协作求解。然而,在交互过程中,一些非预期、“不正常”的信息交互时有发生,严重影响了系统的质量及健壮
射频识别(Radio Frequency Identification,RFID)是一种利用射频信号自动识别目标对象并获取相关信息的技术。由于传统的定位技术不能满足室内定位环境和精度的要求,而RFID技术所
近年来,人们意识到保存Web的重要性,国内外有了保存历史网页的系统,其中北京大学网络实验室研发的Web InfoMall系统已经存储了从2002年至今的中国互联网上超过30亿的网页,在这个
嵌入式SoC有效地降低了系统的功耗、体积和成本,提高了产品的性能价格比和竞争力,是当今嵌入式系统设计技术发展的主流。PCI总线是计算机中普遍使用的通用局部总线,嵌入式SoC中