基于N-gram的哈萨克语文本校对系统的设计与实现

来源 :计算机应用与软件 | 被引量 : 12次 | 上传用户:luoning5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词。在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议。实验结果表明,系统的查错与纠错效率较好,实验方案是可行的。
其他文献
上海公兴搬场物流有限公司党委通过“四对接”“四强化”丰富非公企业党建工作内容,创新非公企业党建工作方法,取得了良好成效。 Shanghai Gongxing Logistics Co., Ltd. Pa
如何提高做好新形势下群众工作的能力是当前基层党组织面临的难题。上海市嘉定区面对新形势下群众工作的新挑战,积极探索服务群众工作的方式方法,形成了独具特色的做法,也为经济
复旦大学附属肿瘤医院党委自2012年起,在党员组织生活中推行参与式小讲课,每次讲课都由不同的党员主持,内容涉及各科室业务实际等各方面,辅以网上讨论、会议辩论及外院专家讲
西亚北非地区长期动荡是由多种因素相互作用的结果.从效率与公平的角度看,主要是由于该地区国家执政者长期没有处理好经济发展与社会公平的关系.经济与社会发展问题又外在的
目的 用失匹配负波(MMN)和P300去评定分裂症听信息加工中听感觉加工障碍与较高程度功能障碍的相关性.方法 52例分裂症患者和44例正常对照组采用事件相关脑电位检查,测量MMN和
目的研究β受体拮抗剂在并发心血管疾病的COPD患者中运用。方法将COPD并发心血管疾病患者分为5组,分别是ICS、ICS+LABA+TIO、ICS+LABA+TIO+BB,BB,Placebo组,回顾性分析β受体
《金光明经》中的“舍身饲虎”故事是著名的佛经故事之一,在中原汉土和西域广为流传。回鹘文《金光明经》译自汉文本。文章将回鹘文本《金光明经·舍身饲虎》与汉文本进行校
优势特色学科形成的动力机制包括自组织动力和他组织动力.行业特色明显的高校,应以国家发展战略需求为导向,以学科平台建设为载体,以服务社会、科技成果转化强化在行业的领先
目的探讨血管内皮生长因子C(vascular endothelial growth factor-C,VEGF-C)表达、细胞角蛋白19(cytokeratin 19,CK19)检测在Ⅰ期非小细胞肺癌(non-small cell lung cancer,N
医学英语对于医学生来讲是必不可少的工具学科.但有限的课时限制了在课堂上开展大量的语言活动以训练专业英语应用能力,因此,可以开展第二课堂活动对医学英语课堂教学进行补