论文部分内容阅读
音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理的研究热点,其最重要的应用之一就是中文拼音输入法,已经经历了三个阶段的发展:单字输入、词语输入和整句输入。拼音输入法发展到现在已经成为了中文输入技术的主流,占据了输入法市场的巨大份额,各种拼音输入法也百花齐放。作为中国第一个语句级拼音输入法的诞生地,我们有责任为科学评价音字转换系统和拼音输入法建立完善的体系,从而规范拼音输入法的发展,这也是本文研究的内容和目的。本文首先介绍了音字转换和汉字拼音输入技术的发展现状以及目前主流拼音输入法的代表,分析了主要的算法以及技术的难点。第二章提出了评测体系的整体框架,包括准确性评测和功能性评测两个方面,其中定义了准确性评测的几个可以量化的指标,包括对于学习能力的评测,适合于用机器自动评测。而功能性方面的指标无法量化,需要根据评价原则人工进行评测。第三章和第四章主要围绕准确性评测讨论了平台构建的几个阶段和算法。首先我们需要得到评测用的平衡语料,随后进行分词,然后把语料标注拼音从而得到平台的输入。评测的平台就可以根据输入文件来模拟键盘输入,最后得到转换后的结果文件,通过与原始语料的对比就能计算得到准确性指标。在这个过程中,需要用到分词算法、标注算法以及字符串匹配算法等。最后一章通过系统实现得到了评测结果,在结果分析的基础上,我们总结出一个好的输入法应该具备的特点,那就是在保证准确性的同时也要考虑到各项能方便用户输入的特色和功能,确保良好的用户体验。