论文部分内容阅读
指挥自动化系统的应用极大地提高了部队指挥过程的质量和效率,但传统的在模板基础上手工录入方法不可避免地会产生错误,人工的多次审查核对是制约系统效率的瓶颈。这与指挥系统的“快、准”的要求并不相适应,急需一种有效的自动查错方法。在网络内容的监管方面,各种文本内容干扰技术试图避开自动监管技术,发动包含危险信息的文本内容攻击。文本内容干扰主要采取字符替换来影响文本自动处理的精度,也需要自动查错纠错技术来对抗加杂干扰。近年来虽有不少这方面的研究,但现有系统的性能指标离实际需求还有很大差距。检测错误的召回率低、误报率高、纠错建议准确性低等不足还有待改进。在对国内外相关的研究进行调研分析后,结合汉语实际情况和字词错误类型特点,本文对中文文本错误自动检测技术进行了研究,设计了有助于改进自动查错性能指标的一些关键算法。本文主要作了如下工作:拓展了概率模型检错的分析方法。利用2阶隐马模型融合词性的3元接续分析、散串分析和低概率词分析,用于查找文本中的错误。通过此方法,对原有的独立依靠散串分析、一阶词性、字、词概率分析的方法进行了扩展。讨论了构造带有接续词信息的词典的构造方法。提出一种快速组块分析的方法。在宾州中文树库的基础上利用支持向量机进行有监督的学习建立分析模型。通过优化编码、构建多个分析模型、运用组块内部规则提升分析速度和准确率,构建并改进了快速中文组块分析器,实验比较该方法提升了中文组块分析的准确度(3%-6%)。并将组块分析器用于对大量真实文本的分析,提取其中高频词汇搭配知识,扩充系统知识库,节约手工维护知识库的开销。提出基于笔形相似的汉字形似字词筛选方法。在分析编校特点和混淆集生成方法基础上,从音近和形似两个角度模拟人认字过程,从词库中自动筛选符合人的编校习惯的纠错候选词,扩展了对检出的错误自动纠正的研究。结合现有的混淆词集、长词匹配等方法,能有效地给出局部字词错误的纠错建议。最后本文对这些工作做了总结,指出了当前实验系统中的一些不足,讨论了下一步的研究思路和工作重点。