基于自然语言处理的文本自动校对系统

被引量 : 0次 | 上传用户:xumeg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和因特网的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高,可以认为一个国家的语言文字的信息处理水平和处理量基本上代表了这个国家进入信息社会的程度,其语言文字信息的处理能力直接关系到它在网络社会和网络经济中的国际竞争能力。目前,网络社会和网络经济正以极快的速度在全世界发展,阻碍其发展的首要瓶颈问题就是自然语言的处理问题。一旦基于网络的自然语言处理问题得到突破,网络社会和网络经济将会突飞猛进。因此,许多国家的科研院校和机构对该领域投入了大量的人力物力,我国也将其作为一个高新技术的重点,列入国务院批准的“国家中长期科学技术发展纲领”。而中文文本自动校对,属于自然语言处理的应用基础研究范畴,以出版业的电子化迅猛发展为契机,也越来越受到足够的重视,并成为一项亟待解决的紧迫课题。本文是在对目前中文文本校对技术的深入研究和分析的基础上,在中文文本自动校对领域进行了初步的探讨,提出了对文本的字词、语法、语义错误进行校对的综合校对方法。该方法在文本校对理论研究和技术实现上进行了有益的尝试,能够对中文文本的错误进行较为全面的检查。对于文本字词错误的检查,本文主要利用了字词二元接续关系,根据同现概率检查文本字词错误;对于文本语法错误的检查,本文利用教研室已有的一个大规模语料库,通过对语料库进行统计分析,获得语法查错所需要的语言规律和知识,利用谓语中心词识别和其他句子成分识别的方法,检查文本语法结构上的错误;对于文本语义错误的检查,本文主要利用知网知识得到语义依存树,通过对句子的有效搭配对的相似度计算检查语义错误。这样有针对性地查错,避免了大量计算,降低了算法的复杂度,并提高了召回率。对于汉语文本纠错部分,本文充分利用中文文本错误的特点,通过构造易混淆词典对易混淆词和一些字词错误产生纠错建议。实验结果证明,该算法是一个行之有效的方法。最后对全文进行了总结,指出了系统中一些不足之处以及下一步的工作方向。
其他文献
"修养"这个词是"修身"与"养性"两个词义的结合,即人们通过学习实践磨砺、陶冶而提高本身素质的功夫和过程,又指人们通过修养功夫达到以某种程度的境界的品性与能力。会计职业
<正>事故回顾2015年1月16日,荣乌高速公路山东菜州段发生一起四车连环相撞并起火燃烧,造成12人死亡的重大交通事故。责任追究情况事故发生后,在山东省、烟台市公安机关指导下
嵌入式系统调试器是进行嵌入式开发的关键工具,常用于对嵌入式软件的调试和测试。嵌入式系统调试器由交叉调试器和调试代理组成,其特点在于交叉调试器和调试目标的运行环境相
迷迭香(Rosemarinus officinalis L.)是唇型科迷迭香属植物,原产于地中海地区,性喜夏季温暖,冬无严寒,昼夜温差大的生境。迷迭香全身都是宝,已广泛应用于药品、化妆品和食品
目的:探讨白内障超声乳化吸出人工晶体植入术加抗青光眼手术治疗青光眼白内障的临床效果。方法:对收治的28例青光眼白内障联合手术患者的临床资料做回顾性分析,对手术后患者
目的探讨妊高症合并宫缩乏力性产后出血的护理措施。方法选取在2012年6月~2013年6月期间收治的98例妊高症合并宫缩乏力性产后出血患者,并随机分为两组,观察组的50例患者进行
<正>近几年我国道路客运安全形势平稳趋好,下一步还将通过加强动态监管、加强驾驶员安全意识培养、进一步落实主体责任、继续加强客车结构优化等方面促进道路旅客运输安全,为
<正>为做好春运道路交通安全工作、将安全隐患消除在春运启动之前,公安部先后派出6个检查组,分赴江苏、江西、广西、云南、陕西、甘肃等地,针对近年来影响春运安全的道路交通
氧化锌作为一种多功能的Ⅱ~Ⅵ族宽禁带化合物n型半导体材料,具有六方纤锌矿结构。ZnO具有多种突出的物理特性,并以其良好的压电特性而成功应用于声表面波器件和压电传感器。
本文于2004-2006年以北京昌平国家褐潮土土壤肥力与肥料效益长期监测基地的长期肥料试验为平台,研究了长期定位不同施肥制度的土壤生物肥力特征。主要结果如下: (1)长期(1