基于语料库的维吾尔语词干提取和词性标注

被引量 : 0次 | 上传用户:lizdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
建设高质量的标注语料库是维吾尔语信息处理领域的基础性工程。目前,在机器翻译、信息检索、Web文本挖掘等许多领域对语料库的使用越来越多,要求也越来越高。而自动词干提取和词性标注是建立标注语料库的基础性工作。本文采用了双向匹配和全切分相结合的方法来实现维吾尔语词干提取。与最大匹配法相比,该方法提高了词干提取的正确率。本文在维吾尔语词干提取应用中,采用了改进的逐字母二分词典查询机制。该词典查询机制提高了词干提取的效率。除此之外,本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。首次采用概率统计的方法研究了维吾尔语词性标注问题。本文采用了一阶隐马尔可夫模型,并且通过RFT相对概率训练获得了模型参数。同时采用了回退式参数平滑算法来解决了一阶隐马尔可夫模型的数据稀疏问题。最后,运用Viterbi算法以句子为单位进行词性标注。实验证明,基于概率统计的一阶隐马尔可夫模型以及Viterbi算法能有效的解决维吾尔语词性标注的问题。
其他文献
保理是保付代理的简称,又称代理融通,应收账款承购等。保理业务,特别是国内保理业务成为中国金融业的热点领域是近两年才发生的,从1987年中国银行开始办理保理业务,到2001年
对于现代民主政治而言,相对应的政治文化便是参与型政治文化。大学生参与型政治文化的发展显现出两重性,即大学生政治敏感度提高,但政治效能感弱;注重自己在政治输入端的影响
在乙醚介质中,通过丁二酸酐与γ-氨丙基三甲氧基硅烷改性后的纳米SiO2(即可分散的纳米SiO2,简称DNS)反应,合成了羧基化的DNS,经过壳聚糖与羧基化的DNS脱水生成酰胺的过程,制
<正>2012年6~8月,为配合阿尔塔什水利枢纽工程的建设,新疆文物考古研究所对位于克孜勒苏柯尔克孜自治州阿克陶县境内水库淹没区的克孜勒加依墓地进行了抢救性考古发掘,共发掘
简要介绍了运算放大器电路包含的噪声类型。运用标准的电路理论和噪声模型,计算运算放大器电路的噪声。结合反相、同相和差分输入的运算放大器电路分析举例,讨论了推算运算放
我们这里所说的统计,即社会经济统计,从理论意义上讲,统计是研究数量方面的,因此,统计理论在应用上就具有广泛性和普通性;从实践意义上看,国家在社会管理过程中,企业在经营管
随着教育的不断改革,在初中英语教学过程中,教师不仅要传授知识,更要帮助学生树立正确的学习态度,对学习目标有明确的定位,并让学生在学习过程中思想受到良好的熏陶和教育,逐
本文阐述《金匱要略心典》的学术特点是重视整体观念、重视辨证抓纲、重视脉象研究和调治脾肾,并指出该书的注释和方解都突出了临床实用特色。
本文从句法学及语用学的观点出发,并运用益冈(1992)的研究,试图就日语(山田语法概念中的)陈述副词和汉语语气副词(只表示语气副词意义的双音节副词)的异同,进行了比较全面的对比
私立幼儿园幼儿教师是否具有良好的师德、师风直接关系到幼儿能否接受安全良好的教育。本文主要分析了不良的师德师风产生的原因及应对的方法与策略。