敦煌古藏文字符及音节统计研究

来源 :三智多杰(Sanzhi Daoji) | 被引量 : 0次 | 上传用户:FJHGL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
敦煌文献是对20世纪初发现于甘肃敦煌莫高窟17号洞窟中的一批书籍的总称,指敦煌所出2至14世纪的古写本及印本,总数约6万卷,其中佛经约占90%,目前分散在全世界。中国国家图书馆藏有16000余件,包括古汉文、藏文以及其他民族的语言,其中敦煌藏文文献是研究藏族文化和历史的珍贵史料,该文献属于古藏文,主要记载了吐蕃时期的宗教、政治和文化等内容,在藏族文化研究中有举足轻重的地位。截止到90年代末之前,藏文字频统计研究方面,没有任何明确的记录和报道,世界上第一部频度词典是德国学者F.W.Kaeding 1898年编制的《德语频度词典》。70年代,北京新华印刷厂等19家单位用两年的时间对2100多万字的资料进行了汉字查频工作,编成了《汉字频度表》1。90年代末开始,中国藏学、西藏大学、西北民族大学、青海师范大学等高校和科研机构,先后进行了建设藏文语料库以及开发藏文字词频统计软件,为藏文大规模统计开辟了新的征程。本文基于敦煌古藏文文献语料库,从自然语言处理角度对敦煌古藏文文献进行分词、字符统计和音节统计等处理,并结合传统藏文文法对藏文字词的属性进行研究和分析,为古藏文分词系统的构建和古藏文信息化处理提供理论基础。具体内容包括:1.语料整理和软件设计文中所应用的古藏文文献语料,是以法国国家图书馆和西北民族大学等合作编纂的《法国国家图书馆藏敦煌藏文文献》中的416篇人工录入为基础,收录了221个OTDO(Old Tibetan Documents Online)1古藏文在线文献,以及32个分布于藏区各地的摩崖、石碑和铭文。到目前为止,语料库共收录了680个文本,总字数达739873,实现了较为完整的古藏文语料样本。在收集文献的过程中,为保障统计结果的可信性,对收集语料中的拉丁转写文,利用祁坤钰先生指导及编写的Python W2T(拉丁文转藏文软件)进行转换,转换效果约达99%以上准确率。2.古藏文字符统计藏文语法理论中,藏文公认为是参照梵文创制的。公元7世纪初智者吞米桑布扎从梵文16个元音中选取4个与藏语发音相近的字母;从34个辅音中选取了24个与藏语发音相似的字母,在此基础上新创6个符合藏语发音的特殊字母,最后创制了30个藏文辅音字母和4个元音符号。但本人对古藏文语料库中的字符统计后发现,古藏文中藏文辅音字母不仅比现代藏文多出了7个,元音符也多出了3个。因此文中本人以对比的方式解释了这些现象,并对藏文数字符合藏文符号也进行了统计和分析。3.古藏文音节统计藏语语音的特点是单音节性,每一组元音和辅音字符串代表藏语里的一音节,每个音节可能代表藏语里的一个词,也可能代表一个词素。本人对680个古藏文文献语料进行统计后发现,语料库共有739873个字,经处理后共出现16848个藏文音节。经过与现代藏文音节对比发现,古藏文音节基本上与现代藏文遵循着同样的特点,没有太大差异,但在单个字丁组成方面,古藏文显得更加自由。通过古今藏文统计数据的对比,总结出古今藏文音节的变化特征。4.古藏音节中的文异体字分析现代藏文中,一个藏文音节一般由一到七个构件构成,这七种构件每个位置上都有严格的字符限制。单个字符组成音节时,必须是辅音字母构成的基字,元音符只能在基字的基础上充当上下构件,不能单独使用。然而在古藏文中却不尽相同,古藏文在组成音节时显得比较自由,而这些与现代藏文文法不符的藏文音节就叫做异体字。文中作者按照其书写规律,在陈践老师的研究基础上对古藏文中的异体字进行分类研究。5.古藏文中的缩写体研究缩写体又称紧缩字,在古今藏文文献中都占有一定数量。本文在古藏文音节统计的基础上,对古藏文文献中的缩写体进行分类,探究其书写规律。藏文缩写体,对构件藏文自动分词系统等藏文信息处理工作带来一定影响,本文在现有的现代藏文缩写体识别技术基础上,依照古藏文缩写体特征提出古藏文缩写体识别方法。
其他文献
报纸
汉语副词再演化大致有五个方面:情态加强导致的主观化涉及认知、视角与态度,情态、强调与评注,附标、独用与述谓;语篇凸显导致的关联化涉及推理、凸显与转类,吸收、类推与兼表,融合、衔接与关联;结构固化导致的构式化涉及隐含、类推与定位,高频、竞争与吸收,固化、定型与成形;元语趋向导致的标记化涉及互动、和谐与标记,照应、配合与连贯,表态、评价与兼顾;性质转变导致的多样化涉及跨层、转移与融合,虚化、羡余与脱落
期刊
报纸
研究背景:原发性脑干出血(primary brainstem hemorrhage,PBH)是脑内出血中致死致残率最高的一种亚型,且预后差,对患者家庭及社会产生了沉重负担。近些年来PBH发病率呈增长趋势,了解PBH患者发病的特征及影响其预后的相关因素,可为其预防和治疗提供临床依据,进而减轻疾病产生的负担。目的:探讨原发性脑干出血的流行病学特征及影响其预后的相关因素。方法:对在2016年12月至20
学位
重大突发事件档案的收集工作作为第一环节应更加重视,各项方针政策的出台也为重大突发事件档案工作指明了方向。文章从收集源头、收集过程、收集结果角度分析了重大突发事件档案收集工作所面临的问题,并从加强联系、打破时空障碍、创新收集方式方面提出了相应的策略。
期刊
目的:提升专业药房(DTP药房)执业药师专业能力水平,助力DTP药房健康有序发展。方法:梳理国内外DTP药房产生的背景和发展状况,分析我国DTP药房特点和作用,提出DTP药房对执业药师专业能力的要求。结果:我国DTP药房以提供全周期专业化药学服务为特色,在处方外流、药品带量采购、“双通道”管理机制等政策的激励下,DTP药房面临重要发展机遇。结论:执业药师应不断提升专业的药学服务能力、书写药历和开展
期刊
<正>结合企业能源消耗巨大和清洁能源的发展现状,吉林油田开展油气与新能源融合发展的研究与探索,实施清洁替代部署,通过自消纳绿电比例提升及油气商品率提升工程,对新建产能、已建产能绿电增容以及新增清洁热力绿电配套,实现绿电自消纳占比达到1/3。在油田站场通过余热利用、地热利用、光热、井筒取热、空气源热以及综合能源利用等措施,实现商品油、气、煤消耗清零,初步建成原油、天然气、新能源三分天下的“新格局”。
期刊
铁路资产能源化、用能绿色化是助力实现交通领域“碳达峰、碳中和”目标的重要途径。本文在分析铁路与新能源融合发展需求的基础上,梳理了铁路沿线太阳能、风能、地热能、声能、制动能、振动能等各类新能源的自然禀赋条件,总结了当前铁路与新能源融合形式、技术特征、设备水平的发展现状;分类汇总了铁路服务设施、运载体、基础设施与新能源融合的具体场景,讨论了车站站顶光伏、新能源机车、基础设施自供电监测设备等主力场景的发
期刊
报纸
档案用户满意度是衡量档案馆档案利用服务质量和水平的标尺,同时也是进一步提出发展策略和科学进路的重要依据。本文运用问卷调查法获取数据,利用方差分析、交叉分析、相关性分析等数理统计方法对档案馆档案利用服务用户满意度的影响因素进行分析,认为用户个体特征与其档案利用需求和行为息息相关,并直接影响着其对档案馆档案利用服务的满意度;用户对档案的利用受档案馆所处地理位置和基础设施影响;用户对档案的利用方式取决于
期刊