音字转换评测体系的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ubqazw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理的研究热点,其最重要的应用之一就是中文拼音输入法,已经经历了三个阶段的发展:单字输入、词语输入和整句输入。拼音输入法发展到现在已经成为了中文输入技术的主流,占据了输入法市场的巨大份额,各种拼音输入法也百花齐放。作为中国第一个语句级拼音输入法的诞生地,我们有责任为科学评价音字转换系统和拼音输入法建立完善的体系,从而规范拼音输入法的发展,这也是本文研究的内容和目的。本文首先介绍了音字转换和汉字拼音输入技术的发展现状以及目前主流拼音输入法的代表,分析了主要的算法以及技术的难点。第二章提出了评测体系的整体框架,包括准确性评测和功能性评测两个方面,其中定义了准确性评测的几个可以量化的指标,包括对于学习能力的评测,适合于用机器自动评测。而功能性方面的指标无法量化,需要根据评价原则人工进行评测。第三章和第四章主要围绕准确性评测讨论了平台构建的几个阶段和算法。首先我们需要得到评测用的平衡语料,随后进行分词,然后把语料标注拼音从而得到平台的输入。评测的平台就可以根据输入文件来模拟键盘输入,最后得到转换后的结果文件,通过与原始语料的对比就能计算得到准确性指标。在这个过程中,需要用到分词算法、标注算法以及字符串匹配算法等。最后一章通过系统实现得到了评测结果,在结果分析的基础上,我们总结出一个好的输入法应该具备的特点,那就是在保证准确性的同时也要考虑到各项能方便用户输入的特色和功能,确保良好的用户体验。
其他文献
伴随着信息技术的飞速发展,计算机已经成为人们最重要的生产、生活工具。块存储设备作为计算机的主要数据存储设备,携带着大量的机密信息和重要数据。由于丢失、被盗或者未经
随着Internet技术和企业信息化建设的发展,电子商务以其迅猛的速度进入人们的日常生活。电子商务的发展对传统的Web技术提出了强有力的挑战。由于电子商务的内部逻辑复杂,安全
句法分析是自然语言处理的关键技术,依存关系解析是句法分析的方法之一,这种方法解析句子词语间的依存关系,依存关系可以明确地表明词语间的支配关系,并能方便地转化为语义依
解决问题的方法也叫做算法,并不是计算机科学的专有名词,早在几千年前就有该方面的研究,当时把其认为是数学的一个分支。计算机的出现使得人们能够利用计算机模拟并解决实际问题
随着Internet技术的迅速发展,网络入侵问题也越发严重,入侵检测己成为网络防护安全体系中的重要组成部分。入侵检测系统通过从计算机网络或计算机系统中的若干关键点收集信息
目前,由于我国支票使用总量的年年增加,给银行业务带来很大的工作量和压力。影像化支票自动识别作为解决此问题的一种计算机应用技术,已经越来越多的受到人们的重视和研究。而在
随着互联网的发展,网上信息迅速增加,搜索引擎作为帮助人们从网络中快速获取信息的工具,使用日益广泛。但由于存在许多网页转载的情况,搜索引擎的返回结果中存在重复信息,既
我国证券市场已走过了十几年的历程,虽然起步较晚,但在证券信息计算机处理方面起点很高、发展迅猛。随着近年来网络技术的飞速发展和用户操作水平的提高,证券公司证券交易、网络
随着计算机、通讯技术的不断发展,人们越来越迫切希望可以在任何时候、任何地点、与任何机器都可以自然交流,而语音通信则是一种最理想的人机通信方式,语音识别技术由此诞生