乌金体梵音藏文古籍字丁样本库的设计及构建

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:shifter_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能高速发展的今天,各类研究都是以数据为基础,数据的获取已经成为了各项研究的关键,无数据无以谈研究。识别研究工作也离不开样本数据库的支撑。同样的道理,乌金体梵音藏文木刻版古籍文档分析与识别的研究也离不开乌金体梵音藏文古籍字丁样本库。根据已有的统计,梵音藏文字符集由7240个字丁组成(包括基本集、扩充集A和扩充集B),如果按照字符总数依次采集,每一套字符样本库共有7240个字丁样本,加上乌金体梵音藏文古籍识别研究所需要的5000套(总共36200000个字丁),需要耗费大量的人力物力,成本高且短时间难以完成。因此,本文根据藏文字丁的字形结构的组成,通过各种乌金体古籍文档图像采集170个部件样本,采集目标为300套;根据7240个字丁的部件位置信息数据库,叠加生成字丁样本;依据不同的需要构建不同存储方式和存储格式的乌金体古籍字丁样本库。具体内容包括以下几个方面:(1)部件样本的采集和预处理。在PC上开发工具软件“乌金体藏文古籍部件样本采集系统”,利用采集系统参照部件表采集能够叠加生成7240个字丁样本的170个部件样本;并对部件做预处理,如:部件样本灰度和二值化、部件样本图平滑去噪等。(2)字丁样本的叠加生成算法设计与实现。在PC平台上开发了“乌金体藏文字丁叠加生成软件系统”,根据藏文字丁的结构,读取“部件位置信息数据库”中的部件位置信息,并利用对应的位置信息,将构成字丁的每个部件映射到相应的位置,合成字丁样本。(3)构建乌金体藏文古籍字丁样本库的构建。GNT是字丁样本库存储的标准数据库,存储了字丁的Unicode编码、样本bitmap图以及样本bitmap图长与宽等。根据已经生成的BMP字丁样本图,成功构建了乌金体梵音藏文古籍BMP图像样本库与GNT样本库。BMP图像样本库的存储分为相同字丁与字符集两种存储方式,GNT样本库的存储分为单个字丁、相同字丁以及字符集三种存储方式。利用采集系统采集了300套部件样本,通过一套部件样本合成一套字丁样本与随机选择部件样本合成字丁样本两种方法,合成5000套字丁样本,并构建出字丁样本库,分为BMP与GNT两种格式。由于低频字丁部件样本少,甚至截至目前有些部件在实际文献中一个都未采集到,即现在每套样本少于7240个字丁,但这并不影响所提出方法的实际应用。
其他文献
智能车辆目标检测系统能够通过传感器对周围的行人、车辆等物体进行感知和识别,是实现智能车辆无人驾驶的基础。传统的目标检测方法多采用雷达、视觉等单一的传感器,不能为智
土地为人类的生存和繁衍提供了基础条件,土地利用景观格局的演变反映了人类对土地利用改变的方式。本文以北京市密云区蔡家洼小流域为例,以研究区2007年和2017年土地利用现状矢量数据及DEM数据为基础,运用ArcGIS 10.2、Fragstats4.2、SPSS19.0等软件,对研究区土地利用时空变化、景观格局演变特征及景观稳定性进行定量描述与分析,并根据研究区景观格局的演变特征及景观稳定性变化特征
目的:评估有晶状体眼中央孔型后房型人工晶状体((ICL V4c或TICL V4c)植入术矫正中高度近视眼的有效性、安全性、稳定性及可预测性。方法:前瞻性研究,选取2017年5月至2017年12
目的通过体内体外实验探索3-溴丙酮酸(3-Bromopyruvate,3-Br PA)联合索拉菲尼(Sorafenib,SOR)对人肝癌细胞SMMC7721、Hep G2的抑制作用及其相关分子机制。方法1.首先采用MTT
斑马鱼是一种优良的模式动物,其胚胎发育过程受到很多基因和信号通路的参与和调控,非常适合用来做发育生物学方面的研究以及疾病遗传模型构建等。突变体作为一种基因功能缺失
<正> 自从Horsleg氏于1888年第一次施行脊髓肿瘤摘出手术获得成功以来,脊髓及其周围之肿瘤逸被重視。学者們认为此种神經系統肿瘤,症状一般虽属严重,但疗效亦較明显。上海第
为掌握广州市家禽批发市场交易家禽和环境中禽流感病毒污染情况及其流行规律,以便为制定针对性防控措施提供技术支持,汇总分析2013—2018年广州市动物卫生监督所对某家禽批发
内燃机车在我国铁路运输中占据重要地位,尤其在许多二级干线、专用线以及调车小运转作业中内燃机车仍无可替代。内燃机车运行时需要将燃料的化学能转换成电能,并将电能传递给牵引电机驱动内燃机车沿轨道运动。然而,内燃机车中的柴油机以及与之相连的主发电机在运转过程中由于缸内燃烧爆炸冲击、活塞部件往复运动、以及旋转部件高速旋转等影响,将产生剧烈的内部动态激励力。这些动态激励激发的柴油机以及主发电机振动通过车体底架
艺术有着较高的思想境界,在现代化的社会发展中,艺术的表现形式有很多,舞蹈就是艺术的一种特殊表现形式,人类在舞蹈表演中主要就是通过肢体形式展现出来。而音乐与舞蹈也有着
研究了基于腔量子电动力学(腔QED)系统的几何量子失谐及其传送.该系统包括两个独立的子系统,每个子系统由两个二能级原子与单模腔共振相互作用.结果表明,所有初始存储在原子A1A