聚类+连体段判别的维吾尔文档图像单词切分

来源 :计算机工程与应用 | 被引量 : 2次 | 上传用户:hermes262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-means)对文本行中所有连体段之间的间隙进行聚类分析得出最佳的间隙判别阈值,然后对所有连体段进行筛选和粗略识别,并结合对间隙的阈值判别结果来确定单词的精确切分点和获取被拆分书写单词的位置信息。在选取的100张文档图像中测试时,结果表明该方法能有效去除标点符号对切分结果的影响,
其他文献
着重强调如何认识和合理选用原材料钽粉,以提高钽电解电容的可靠性。钽粉中的杂质造成Ta2O5晶化,从而导致电容器可靠性下降。文中指出,必须对钽粉的物化特性有充分的认识,才能配
在杂交水稻两段育秧的不同时期用不同浓度烯效唑喷施叶片 ,通过考查秧苗素质和测定生理指标及产量 ,表明在第一段秧田的 1叶 1心期和寄秧 1 5d后两次用 1 0 0 mg/ L烯效唑处
文中概括介绍了电解电容器阻抗测量的原理和方法;以及用新研制的阻抗仪测量的几种国产电解电容器的阻抗频率特性、阻抗温度特性,对照电解电容器的等效电路作了分析、对比。提出