【摘 要】
:
近年来随着人工智能的飞速发展,语音合成技术也日趋成熟。语音合成技术应用在我们生活的方方面面,如朗读软件、语音播报等领域。现阶段,语音合成的主要实现方式为文语转换,即
论文部分内容阅读
近年来随着人工智能的飞速发展,语音合成技术也日趋成熟。语音合成技术应用在我们生活的方方面面,如朗读软件、语音播报等领域。现阶段,语音合成的主要实现方式为文语转换,即通过计算机实现从文本到语音的转换。但语音合成的研究主要集中在比较通用的语言上,而对马来语的研究相对较少。本文以开发马来语语音合成系统为目的,研究并实现了马来语前端文本分析中的语料库的构建、文本归一化和音节的自动划分。本论文的主要工作包括:(1)马来语语料库的构建。借助现有软件从马来语网站和电子书上下载马来语的文本,并去除文本中的非法字符和重复语料,作为本文研究的马来语文本语料库。基于该文本语料库,采用句型、高频词和句子长度相结合的原则选取用于录音的发音语料。最后用优劣评判的标准来验证发音语料库的合理性和代表性。(2)马来语文本中数字字符的归一化。研究了马来语文本中常出现的特殊字符及其歧义类型。设计了马来语的归一化方案和算法流程。采用正则表达和关键字相结合的方法,对句子中的数字及与数字连用的特殊字符进行文本归一化处理。实验结果表明,本次实验的马来语归一化正确率达95.13%。(3)马来语音节的自动划分。学习和研究了现有的马来语音节化方案,针对这些方案的优缺点提出本文的音节化方案,设计并实现了该方案的算法流程。采用规则和音节列表相结合的方法实现了马来语的音节自动划分。实验结果表明,此次实验的马来语音节化的集内测试正确率达100.00%,而集外测试的正确率达96.40%。综上所述,本文提出的马来语语料库构建、归一化、音节化的前端文本分析方法达到了预期的效果,能基本满足开发马来语语音合成系统的要求。
其他文献
档案是企业各种职能活动中形成并保存备查的原始记录。企业档案具有凭证、记录、文化等方面的价值,在企业的生产、运营等活动中发挥着积极作用。努力实现档案价值需要企业全
本文通过叶片尿素施用处理对研究了氮肥对菠萝蜜植株叶片中碳氮代谢产物、叶绿素以及N、P、K营养元素含量的影响,获得的主要结果如下:1、尿素处理对菠萝蜜植株叶片中硝态氮产生一定影响,施肥浓度对硝态氮影响大于施肥次数的影响。施肥后30 d,N3处理(0.5%尿素)下硝态氮含量提高;施肥10后,N2处理(0.3%)的叶片铵态氮含量高于对照组N0(不施肥)、清水组NH、N1(0.1%)、N3(0.5%),与
近年来我国城市化进程不断加快.城市功能向多元化发展.城市综合体成为各大城市的增长引擎以及城市名片。从某种意义上讲.未来我国城市开发的竞争也是综合体的开发竞争,并将由此构
目的是研究分析在外科护理学教学工作中采取微课和翻转课堂教学模式的效果。方法是随机抽选2018年1月至2018年6月期间高职护理学生100例开展对照研究,抽签法分组为观察组以及
目的了解高原环境对地震救援人员的心理健康状况的影响。方法在某地高原地震一周后或到达地震灾区1周后,采用焦虑自评量表(SAS)、抑郁自评量表(SDS)、创伤后应激症状自评量表(SPTSD
在卫星图像解释和野外实地调查的基础上,结合前人资料分析了云南省腾冲-瑞丽地区地质构造特征,系统讨论了构造对煤盆地及含煤地层、煤层、煤质的控制作用,最后总结了区内煤层
<正> 云南地质自劳策,德普拉,包朗诸人研究之後,世人始有所知。彼等对於云南构造之解释均认云南弧为主要之构造。近人李四光(1)教授亦主张是说。其巴康体系山字形构造,即包括
肺动脉平滑肌细胞(pulmonary artery smooth muscle cell,PASMC)异常增殖是肺动脉高压发病的中心环节,也是其重要的病理改变之一,研究其调控机制对于肺动脉高压的防治具有指导作
“问题解决学习”模式在生物研究性教学中以培养学生自主学习能力为主。本文根据问题解决学习的一般程序,探讨了其在生物研究性学习中的应用和生物进行教学的应用,有助于教育