中文词法错误自动检测关键技术研究

被引量 : 0次 | 上传用户:wkellyai_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指挥自动化系统的应用极大地提高了部队指挥过程的质量和效率,但传统的在模板基础上手工录入方法不可避免地会产生错误,人工的多次审查核对是制约系统效率的瓶颈。这与指挥系统的“快、准”的要求并不相适应,急需一种有效的自动查错方法。在网络内容的监管方面,各种文本内容干扰技术试图避开自动监管技术,发动包含危险信息的文本内容攻击。文本内容干扰主要采取字符替换来影响文本自动处理的精度,也需要自动查错纠错技术来对抗加杂干扰。近年来虽有不少这方面的研究,但现有系统的性能指标离实际需求还有很大差距。检测错误的召回率低、误报率高、纠错建议准确性低等不足还有待改进。在对国内外相关的研究进行调研分析后,结合汉语实际情况和字词错误类型特点,本文对中文文本错误自动检测技术进行了研究,设计了有助于改进自动查错性能指标的一些关键算法。本文主要作了如下工作:拓展了概率模型检错的分析方法。利用2阶隐马模型融合词性的3元接续分析、散串分析和低概率词分析,用于查找文本中的错误。通过此方法,对原有的独立依靠散串分析、一阶词性、字、词概率分析的方法进行了扩展。讨论了构造带有接续词信息的词典的构造方法。提出一种快速组块分析的方法。在宾州中文树库的基础上利用支持向量机进行有监督的学习建立分析模型。通过优化编码、构建多个分析模型、运用组块内部规则提升分析速度和准确率,构建并改进了快速中文组块分析器,实验比较该方法提升了中文组块分析的准确度(3%-6%)。并将组块分析器用于对大量真实文本的分析,提取其中高频词汇搭配知识,扩充系统知识库,节约手工维护知识库的开销。提出基于笔形相似的汉字形似字词筛选方法。在分析编校特点和混淆集生成方法基础上,从音近和形似两个角度模拟人认字过程,从词库中自动筛选符合人的编校习惯的纠错候选词,扩展了对检出的错误自动纠正的研究。结合现有的混淆词集、长词匹配等方法,能有效地给出局部字词错误的纠错建议。最后本文对这些工作做了总结,指出了当前实验系统中的一些不足,讨论了下一步的研究思路和工作重点。
其他文献
夏威夷州,是美国拥有最大的亚裔人口比例的一个州,其中日本人是最大的少数民族。至2000年,冲绳人约占夏威夷州日本人数的13%,且冲绳移民建立的文化中心是夏威夷地区最早的日
随着地膜覆盖技术广泛应用于农业生产,地膜使用量急剧增加,农膜残留的危害也日趋严重,既破坏了土壤结构,造成了作物减产,又对农业生态环境带来一系列负面影响。通过介绍呼和
<正>优秀的公司绝对不能等着员工来主动要求加薪,这严重影响了公司的价值导向。在华为,公司要求管理者主动去给员工涨工资。你的公司呢?德鲁克说,学会提问,问题就解决了一半
随着经济的发展,中国人民生活水平也在不断提高,但是,由于中国人口基数大以及历史的积累,农村地区贫困群体的生活问题一直是中国社会发展过程中的一个重大问题,它严重影响着社会的
以地基激光辐照飞行靶为研究背景,建立激光迎面辐照和横向辐照靶目标两种交汇场景,考虑激光辐照面域和功率密度分布随靶目标飞行的变化,求解激光辐照参数,建立热传导模型;利
目的:采用柱前衍生化HPLC法测定铁皮石斛茎和叶多糖中甘露糖的含量。方法:乙醇脱脂,沸水提取得到的多糖,用盐酸水解为单糖,水解产物加入1-苯基-3-甲基-5-吡唑啉酮(PMP)进行衍
研究了炔丙基醚化酚醛树脂(PN)与聚芳基乙炔树脂(PAA)的反应性共混物(以下简称PN-PAA共混树脂)的相容性,并对共混树脂的固化过程和固化物的耐热性进行了表征.相态、DSC、SEM
竹笛作为我国传统乐器中不可或缺的重要组成部分,在满足我国人民群众精神需求方面有着重要的现实意义,其浓厚的艺术感染力,得到我国广大劳动人民的喜爱。在竹笛演奏,尤其是传统曲
文中分析介绍了当前海事管理面临的难题,提出了通过VTMIS系统开展海事管理的举措思路,并对VTMIS系统存在的问题展开了分析,提出了完善改进系统、培养专业人才的相关建议。