印刷体汉字快速识别技术的研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:redkind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字是世界上使用人数最多的文字,在信息急速膨胀的时代,大量文档的人工录入劳动强度大,还有劳动力经济效益的问题,如何快速高效地将汉字输入计算机是信息处理的一个关键问题。因为汉字是非字母化、非拼音化的文字,在自动输入过程中与西文字符的区别很大,因此汉字识别的研究的具有实际的意义和广阔的应用前景。   文中的识别系统主要对汉字图像的预处理、版面分析和汉字识别进行了研究。其中对汉字的识别是整个系统的重点,阐明了识别过程中的特征提取和选取的分类器。汉字的识别是大字符集的识别问题,并且汉字的结构复杂,相似字也多,采取单一的特征和判别理论不能达到满意的识别结果。故文中采用了多分类器集成的方法,使得提取的特征优化组合,设计了多个特征互补并且匹配原则不同的分类器。应用距离判别法进行识别运算量小,可以比较快速的完成识别。测试结果说明,采用多分类器比采用单一的分类器有效地提高了识别率,充分阐明了这种方法是有效的。   文中的印刷体汉字识别系统经过各个部分的处理后,最终输出的为纯文本形式。完成对宋体和楷体的不同大小的汉字进行识别,平均的识别率达到96.45[%],平均每百字的识别速度达到6.5s。
其他文献
瑶药是中国民族医药重要的一支,瑶药材在抗肿瘤等方面独具优势,所以本文选择瑶药材为研究对象。经典的植物性状和显微检测的客观性和稳定性有一定的不足;色谱法是中药材检测不
研究背景及目的:   裸鼹鼠(NMR)是一种特别的啮齿类动物,其皮肤缺乏P物质,无痛觉,是研究神经系统方面的良好材料;可在低氧条件下长期生存,具备较强的耐低氧能力;血管抗氧化压
本文通过对荣华二采区10
期刊
砷化镓(GaAs)纳米线阵列负电子亲和势光阴极因其较高的量子效率,较低的暗电流,良好的长波响应,禁带宽度较窄等特点,成为最有前景的光电发射材料之一,广泛应用在微光夜视,高能
目的:通过观察桦褐孔菌水提物对高脂高糖配合小剂量链脲佐菌素(STZ)诱导的2型糖尿病大鼠的AMPK通路的影响,探讨其抗2型糖尿病的机制及作用,为进一步升入开展桦褐孔菌降血糖机
P73蛋白作为P53家族的新成员有着与P53相似的结构及功能,它的表达水平与肿瘤细胞的发生发展有着紧密联系,其作用影响的恶性肿瘤疾病有甲状腺癌、卵巢癌、子宫内膜癌等.P73蛋
表面增强拉曼散射即SERS,其原理主要是吸附在粗糙化金属表面的化合物由于表面局域等离子激元被激发所引起的电磁增强(即物理增强),以及粗糙表面上的原子簇及吸附其上的分子构成拉
江门中微子实验是建造一个直径为35.4米的液体闪烁体探测器,该探测器可以探测中微子。当中微子穿过探测器时,有可能与探测器相互作用,产生闪烁光信号,再通过光电倍增管转化为电信
胶质瘤是最为多见的颅内肿瘤,其发病率逐年上升.目前抗癌新药肿瘤坏死因子相关凋亡诱导配体(TRAIL)存在耐药.研究发现,五味子乙素在细胞凋亡途径中通过影响部分胱天蛋白酶家
随着通信技术的发展,光同步数字传送网(SDH)以其速率统一、光接口与帧结构统一等特点而逐渐成为主要的传送网体制。在传输过程中,多种原因会造成数字信号在特定时刻相对于其