论文部分内容阅读
随着互联网的迅速发展,网站对安全提出了越来越高的要求,验证码作为网络服务的一种标准安全保障已被广泛使用。与此同时,人们也在不断研究验证码的破解技术。目前,最广泛使用的是基于数字与英文字母的验证码,很多这种验证码通过分割与字符识别,已经以很高的成功率破解。而汉字验证码由于其破解难度大和安全性高的特点,在中文网站中也常被使用。本文以百度贴吧、人人网、模具网和酷达论坛四类中文验证码为例,探讨中文验证码的识别技术。通过图像处理领域的多种算法,主要研究如何对四类中文验证码进行预处理、字符提取以及归一化等分析处理,以从中提取出较为清晰的汉字,最后使用三种不同的OCR软件进行识别并将识别结果进行了对比。利用我们的破解方法,四类验证码的破解成功率均在5%以上,这说明我们的方法是有效的。文中这些处理过程对于解决其它中文验证码识别问题具有参考意义。