基于聚类分析的手写维吾尔文档图像中单词切分技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:yl19850320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写文本行中的单词切分是研究笔迹文本图像研究中的重要内容。它在关键词语搜索,单词为整体的识别,字符切分等研究中必不可少的重要步骤。切分结果的好坏对后续的识别结果有直接的影响。手写维吾尔文本具有笔迹的唯一性、随意性、不规律性等特点。这些特点引起书写维吾尔单词之间的距离没有规律性,频繁地出现重叠、粘连等情况。因此从手写维吾尔文单词的这些书写特点出发,使用聚类算法,把连通域之间的空白间距分成两类,再以这些空白间距的分类结果为依据,对文字区域进行合并得到最后的切分点是本文主要的研究思路。本文所使用的方法中首先对文本行图像进行预处理。预处理阶段解决了噪声离散点和单词之间的粘连或重叠问题。对预处理得到的文本行图像进行垂直投影,得到最初可能的切分点和记录连通域之间的空白间距和文字长度。对空白间距使用聚类算法,分类成单词内距离和单词间距离两类,再对文字区域也使用聚类算法,分成三类。空白间距的聚类结果作为依据,对文字区域第一次合并。为了更加完善切分结果,第二次合并中使用,空白间距和文字长度结合考虑的基于阈值的合并算法。通过两次合并得到最终的切分点,最后对切分点内的文字区域进行着色处理。整个论文分别使用了k-均值,FCM和k-均值融合FCM的三种聚类算法,并通过对比实验对这三种算法在单词切分中的性能进行详细的分析。通过实验证实了三种聚类算法中k-均值算法聚类所耗时间最短,FCM算法和融合算法的切分正确率一样,但是融合算法聚类所耗时间比FCM算法聚类所耗时间短。使用融合聚类算法得到的平均正确率为75.66%。
其他文献
目前,越来越多的研究关注不确定数据集,譬如市场分析、互联网以及大型传感器网络等。同时,不确定数据集上的排序查询也受到了广泛地研究。其中,概率Top-k查询可以找到用户最
随着新一代编码技术H.265/HEVC的发展,越来越多的视频文件采用HEVC作为编码标准,并使用互联网进行传输。新一代编码技术的优良特性使得视频信息隐藏技术也越来越多的将HEVC视
物联网技术及其相关行业从诞生至今发展迅速,但在传统物联网架构中出现了一些不可忽视的问题:一是物联网应用环境日益复杂,感知层面临多类型节点接入情况;二是海量设备产生的数据量庞大,如果不加以管理,会给云端带来巨大压力。本文针对上述两个问题,设计具有数据管理能力的物联网多源感知智能接入系统。该系统聚焦于物联网架构中的前端感知层和智能网关层两部分,设计出感知节点和智能网关,这两部分相互配合实现物联网领域常
在高维数据的聚类分析中,因为维数的增加,使得传统的聚类方法难以在高维数据中得到有效的应用,为解决这一问题,传统的做法是直接删除一些不太重要的变量,或者将变量做线性组
随着社会科技的进步,无线电技术已逐步应用于社会的各行各业。因无线通信的迅速发展,一些新业务不断涌现,使得无线频谱资源需求量迅猛增加,并造成频谱资源紧张的问题越来越突
随着制造业规模的持续扩大,智能制造技术与系统得到了广泛而迅速的应用,特别是工业机器人作为“机器代人”的典型自动化设备被应用到各个领域。铸件清砂作业劳动强度大,粉尘污染严重,采用人工作业来操作完成无法保证工人的身体健康和清砂的生产效率。因此,研究基于视觉的铸件清砂机器人系统技术具有重要意义。本文重点围绕铸件清砂机器人系统中的铸件清理视觉处理技术与铸件清砂的机器人轨迹规划技术展开研究。首先,以铁路货车
研究目的传统观念认为非特异性颈腰痛是软组织损伤导致的躯体性疾病,不够重视其心理及社会影响因素,因而缺乏评估及干预患者的心理和社会因素。本研究以非特异性颈腰痛患者为调查对象,分析其心理压力及社会支持度与患者疼痛强度及病程之间的相关性,为制定颈腰痛的生理-心理-社会综合防治模式提供依据。研究方法1、对象选取某三级甲等综合医院的康复医学科和骨科门诊患者,从中筛选出符合纳入和排除标准的非特异性颈腰痛患者2
根据目前现代化城市的要求,加快卫星城市的开发建设,是推进新型城镇化,破解发展中心镇瓶颈,提振内需的有效手段;卫星城同时也是宁波构筑网络化大城市的重要一环,是建设城乡一
近年来第三代红外探测器以高探测率、低成本、大面阵、多光谱为特点的而得到了广泛的研究,最具代表性的是碲镉汞、量子阱和锑化物II类超晶格探测器。其中,量子阱红外探测器发展至今在研究中已取得很大的进展。对于Ga As/Al Ga As量子阱红外探测器,由于材料制备技术成熟,器件制造工艺完善,使它在制造双色或多色红外焦平面阵列器件方面具有很大的应用潜力。但是该探测器属于非本征光电导机制,依赖电子(空穴)在
21世纪初,家校之间出现了全新的家校沟通方式,如移动校讯通、联通家校通和电信翼校通等。随着互联网的迅猛发展,家校沟通平台层出不穷,平台数据之间存在系统与语义层面的异构