基于词典、规则与统计的蒙古文词切分系统的研究

被引量 : 27次 | 上传用户:liongliong439
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文是我国重要的少数民族语言文字之一。蒙古文信息处理技术的发展对蒙古族聚居区的政治、文化、生活的发展具有重要意义。蒙古文词切分系统是蒙古文信息处理众多后续工作的基础。本文首次尝试了在传统蒙古文上进行词切分,也首次尝试了将词典、规则与统计方法结合。本研究中,我们整理和校对了很多蒙古文语料及文档。这些资料可作为蒙古文信息处理后续工作的基础性资料。我们研究的蒙古文词切分系统得到了理想的词切分效率。本文提出的蒙古文词切分测试平台,给出了统一的传统蒙古文词切分测试平台。本文深入研究了蒙古文的语法和特点,并提出了改进的层次化语言模型。该模型不仅考虑了语境关系,也强调了词内各成分的高耦合度。我们的词切分系统,首先预处理了部分蒙古文词。然后基于词典切分了大部分蒙古文词。最后对于剩余的蒙古文词,先用蒙古文的各种规则生成了多个候选集,再用改进的层次化蒙古文语言模型来选择正确的候选的词切分方案。通过三种方法的有机结合,发挥各自的优点,得到了性能优异的蒙古文词切分系统。
其他文献
本文通过对内蒙古自治区呼和浩特市北垣小学、呼和浩特市大学路小学发放问卷,发现朗读教学中存在如下问题:朗读目的不明确;朗读参与程度低,学生朗读水平和能力存在差异;朗读
针对一类具有多胞结构的不确定离散时滞系统,提出了一种基于LMI的输出反馈鲁棒预测控制算法。根据Lyapunov稳定性理论,给出了保证系统鲁棒稳定性的充要条件,并将系统的鲁棒预
本文在明确图书馆个性化信息服务及个性化信息服务模式内涵的基础上,分析了目前图书馆个性化信息服务模式的研究现状,针对目前个性化信息服务模式存在的问题,基于系统论观点,
外来物种互花米草(Spartina alterniflora)被引种到我国海岸带后,已带来一系列生态危害,严重影响了入侵地生态系统结构和功能,深入了解其入侵机制是实施有效控制的基础和理论依据
少儿节目主持“去成人化”是实现少儿节目可持续发展的基础,同时也对参与节目的少年儿童的心智成长有着极其重要的影响作用。文章通过对少儿节目主持“成人化”的具体表现和不
<正> 奥美拉唑(Omeprazole)是继H2受体拮抗剂、抗胆碱能药物、胃泌素抑制剂三者之后的又一类新型的抗溃疡药。它首先由瑞典Astra公司研制,实验结果表明:Ome-prazole具较强的抑
综述了裂纹的容忍度与玻璃脆性的关系。对不同品种玻璃的裂纹扩展力也作了阐述。此外,还讨论了应力腐蚀下各种玻璃的裂纹扩展速度和影响裂纹扩展的因素。
本实验以去卵巢后慢性应激模型,探究锁阳乙酸乙酯提取物(ECS)改善慢性应激小鼠认知功能障碍的神经保护机制。采用Morris水迷宫检测小鼠空间学习记忆能力,Western Blot检测海
艺术是人类的情感形式,艺术的发展史就是人类情感史的缩影。油画作为艺术的一种形式同样承载着艺术家的情感表达。柯林伍德认为只有表现情感的艺术才能配得上真止的艺术。随