中文文本编辑错误记忆校对方法研究

被引量 : 0次 | 上传用户:yangying_han
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化社会的一个主要特点就是高速、海量、多种信息的传递,在这些海量的信息里充斥着大量的错误,严重影响了信息传输的质量和效率。借鉴已有研究成果的基础,本文对于深入研究了中文文本编辑错误的检测和校对方法,详细阐述了文本编辑错误检测和校对的关键问题、解决方案、算法设计原理等方面。中文文本编辑错误检测和校对模型分为检测错误与改正错误两部分,理论分析与实验表明,二者分开有助于解决错误检测和校对目标中的两个关键问题,一是混淆集大小与统计语言模型的时空复杂性之间的矛盾,二是训练预料规模造成的数据稀疏现象与文本错误造成的数据稀疏假象。在文本编辑错误的检测方面,结合前人已有的一些研究成果,在详尽分析中文文本校对任务所面临的数据稀疏问题的特殊性进行的基础上,提出了解决数据稀疏的三种数据平滑策略,即文本窗口缩小、平滑延后和聚类词。提出了一种前后N文字法文本窗口的自动检测方案,在对待检测字符特性分析的基础上,立足于它的局部本文语境意义,考虑前项概率和后项概率,结合三种数据平滑策略的优势,较好地解决了模型执行的时间复杂度和空间复杂度问题。实验数据验证,前后N文字法的检测机制在错误报告率,漏报率等指标上表现更优。在文本编辑错误的改正方面,介绍了最小编辑距离的概念,解释了易混淆集的作用,采用为易混淆集中的不同字符赋予不同的权重的策略,由改正错误模型从中筛选出权重较大的,作为使改正建议的正确字符。最后进行了实验验证比较,与黑马文本校对系统和基于EricMays平均分配权重思想的校对模型相比,字符权重动态分配的改正错误方案的性能更优。为验证本文提出的检测错误和改正错误模型的可行性和执行效率,本文进行了实验比较。实验数据表明,本文基本完成了预期目标,实现的模型的性能在已有的成果基础上有显著的提高。
其他文献
近年来,我国正处在突发事件高峰阶段,突发事件的频发多发给我国政府造成了严峻考验。有效地应对突发事件,满足人民群众对美好、有序、安全生活的需要,是各级政府的重要职责。
<正>卵巢早衰(premature ovarian failure,POF)是指40岁以前,由于卵巢内卵泡耗竭或破坏而发生卵巢功能衰竭的一种综合征。常有促性腺激素水平的上升和雌激素的下降,临床表现
在深入分析了我军集装化军事运输装卸装备现状和存在问题的基础上,从我军集装化军事运输装卸装备发展指导思想和发展原则等角度,提出我军集装化军事运输装卸装备发展构想,并
《寡人之于国也》、《孟子见梁惠王》、《逍遥游》是先秦散文中的名篇,曾选入多种中学语文教材.《寡人之于国也》与《孟子见梁惠王》主要阐述儒家的王道思想,《逍遥游》是《
华夏古籍风靡世界 近几年来,华夏古典书籍越来越引起世界上各国各阶层人们的兴趣,有的已经成为他们的必读书或经典读物.如:《三字经》被联合国教科文组织选作世界儿童道德丛
为使智能机器人远程控制更加方便、快捷、人性化,设计并实现了一种智能机器人的语音远程控制系统方案。该方案利用微软语音开发包Microsoft SpeechS DK,构建基于听写模式的大
介绍了我国环氧丙烷生产与污水处理技术以及无污染技术生产环氧丙烷的发展动态
在信息化数据化时代背景下,企业财务管理必须满足规模化发展要求,开展规范化和标准化管理,实现业财融合,为企业创造更高的价值效益。在企业财务管理转型发展中,必须建立财务
液态金属在常温下呈液态,具有良好的导电性、导热性和流动性,已经逐步渗透到了多个技术领域。随着MEMS技术不断发展和先进制造技术的不断完善,液态金属在MEMS领域开始用作电
当前事业单位面临市场全面开放,所涉及的众多项目将启动全面推行招投标制。随着事业单位市场化的深入进行,事业单位运营管理机制日趋完善,但当前市场竞争日趋激烈,利润的空间