论文部分内容阅读
经济全球化的发展推进了国际信函的广泛使用,从国外寄达中国国内的信函业务量迅猛增长。这类信函的收信人地址一般是用英文书写的,为了保证投递的效率和质量,邮局专业人员需要将英文表述的收信人地址翻译成中文并批注到信封上。省会级城市的邮局每天的国际信函处理量达5万件且逐年递增。如何实现英文地址自动翻译成为邮政自动化的一个重要课题。成熟的字符识别技术以及蓬勃发展的机器翻译技术为此提供了可行的技术平台。本文提出的英文地址自动翻译系统是以信封图像为处理对象,采用文本图像分割方法和字符识别技术获取信封图像上用英文书写的地址内容,并自动将其翻译成中文地址的邮政自动化系统。英文地址图像识别和翻译涉及文本图像处理、自然语言处理、机器翻译、数据挖掘、人工智能等多个学科领域,是字符识别技术和机器翻译技术的有效结合。本文有以下研究成果:根据信封图像的特点,提出基于灰度梯度连续变化特征的窗口定位法,以及复杂背景下基于连通元特征的地址文字定位法。这两种方法的组合有效地将收信人地址区域从信封图像区分离出来。本文还提出一种基于游程的快速连通元标记方法,大大加快连通元的处理速度,仅需扫描图像一次即可获得连通元的相关信息。提出一种基于最大匹配算法的地址理解方法,以及一种基于柔性字符串匹配和有限自动机的地址理解(FPMDFA)方法,对识别得到的地址文本进行分析和理解,从中将路名、楼宇、居民区、门牌号、公司或者收件人等地址信息提取出来。实验结果表明基于最大匹配算法的地址理解方法获得的结果正确率高,而FPMDFA方法则在有OCR识别错误的情况下能提取更多的地址信息。运用变精度粗糙集理论,提出一种基于属性核的βDP区间约简的消歧规则挖掘方法,即采用基于属性核的βDP区间约简算法对决策表的条件属性进行约简,然后再生成相关的消歧规则。该方法在一定程度上避免了基于经典粗糙集理论的挖掘方法对分类数据正确性要求高、不利于规则泛化的缺点,既有利于从决策表中提取共性规则,也便于得到单独情况的个性规则,同时让规则的正确性可控。提出一种基于块距离的柔性字符串匹配方法。即在计算一个字符串通过删除、插入和替换编辑成另一个字符串的步骤时,将子串的移动也作为编辑操作的一种。这解决了如何度量两个含义一致但词序不同的地址之间的相似性问题。实验表明运用柔性字符串匹配方法度量地址和地址之间的相似性有效地降低了字符识别错误对系统造成的影响,提高了系统的容错性。集成上述成果开发的英文地址自动翻译系统已经在上海邮政速递局的外信批译环节得到成功应用和推广,产生了良好的经济和社会效应。