论文部分内容阅读
传统发票识别通常拿纸质发票扫描再采用OCR识别,识别准确率为80%至90%。而由于本案使用Word或者Excel格式转化成的pdf格式发票,文件保留了完整的字符信息和一些相对固定的格式信息。以编译原理的思维,把发票转化成的文本看作为一种编程语言,再用有限状态机去识别。实验结果表明,准确率可达99%以上,获得了满意的效果。