论文部分内容阅读
摘要:本文针对藏文本体字符与梵源字符的结构特征,提出一种支持藏、汉、英多语言字数统计模型的新设想。
关键词:多文种;字数统计;内码识别
1 引言
随着信息化步伐的加快,我国在信息处理工作方面取得了很大的成果,有着悠久历史的藏文字与语言也在信息与网络的舞台上展现着她独特的魅力。用藏文字记载的经典文献、古籍著述和译作浩如烟海,在我国的文种中藏书量仅次于汉文居第二位,对如此庞大的典籍按学科、不同作者的著作进行字数统计是很有必要的,有利于对藏语文的定量研究提供科学的参考数据并对其作者毕生的创作做出一个客观、翔实的评价。大量的梵文词语的融入,使藏文字更加丰富多彩,到目前为止所使用的41个辅音字符和15个元音字符都是在长期的历史发展中所创制和采纳的。藏文本体字符与梵源字符在字形、发音、构字上虽然有所区别,但大相径庭,无本质区别。
计算机网络的迅猛发展使得人们的交流显得更为密切,多语言混合的藏文文档在日常生活中日趋频繁,纯藏语言的文字处理已经无法满足人们的需求,需要建立一种支持多语言的文字处理模型。因此本人试图针对单文本、多语言的藏文文档,建立一种支持藏、汉、英的多语言字数统计模型。
2 藏文字的结构
藏文字由30个辅音字母和4个元音字母组成。属拼音文字,但与一般的拼音文字有所差别,一般的拼音文字是一维的线性书写文字,而藏文是由前加字、上加字、基字、下加字、元音、后加字、后后加字组成的二维书写文字。一个藏文音节字里有且仅有一个前加字或后加字、后后加字、上加字、下加字或元音,不能重复搭配。以上所述的上加字或下加字等等都是以基字为核心而言的,除基字不能为空外,其他均可以以音节字的不同而变化。音节分隔符和分句符或单垂符在藏文里有着举足轻重的作用,音节分隔符的作用是清晰地界定俩俩相邻的音节字,不至于相互混淆。单垂符的作用是句与句之间进行分隔,表示一句话的结束或类似于汉语里的顿号、逗号或句号。但也有特殊情况,藏语里ka ga sha称为“外腿字”,一句话末端音节的最后一个字符若是以上“外腿字”之一,则省略单垂符。如一句话末端音节字的最后一个字符为nga则先加音节符,再加单垂符。除单垂符外还有双垂符、四垂符、聚宝垂符、蛇形垂符等常用垂符,都有各自的用法和所表达的意义,但在统计上,与单垂符处理方法相等,不一一赘述。
3 藏汉英内码的识别
1997年WG2第33届会议及SC2两会在决议中分别宣布藏文正式形成ISO/IEC 10646《通用多八位编码字符集》藏文编码国际标准。下面以ISO/IEC 10646为平台,对藏、英、汉文字的内码进行识别。假设所需识别的字符串为S,对S进行扫描,以句子为单位分解成若干字符串。每个字符串用pi表示,得:S=P0,P1…Pi…Pn(n≥0),一般藏文里一句话的结束有两种表达形式即分句符和以上所述的3个外腿字后为空格。然后以Pi字符串里的音节符为分隔点进行逐字扫描,每个音节字用Wi来表示,得:Pi=W0,W1…Wi…Wn(n≥0)。如扫描到Wi,并内码范围为0F00—0FFF,则Wi为喜马拉雅藏文。如Wi的内码范围为0-127,则Wi为英文。内码范围不在以上两种范围的则为中文。
4 字数统计算法
本字数统计算法是基于内码范围来识别文种的,并将识别到的文字按各文种的特性来统计字数。藏、英同属拼音文字,但略微不同,英文字母、元音都以单一的横向排列,藏文则构字上较为复杂,其一个组成音节字的字符纵横都可以排列。属象形文的汉字则统计较为简单,按字符计数就可以。具体统计算法如下:
(1)初始化:设Ct、Ce、Cc分别用来统计藏文、英文、汉子的字数。Cuont用来统计Ct、Ce、Cc的总数。
(2)对所需统计的文章S扫描,以句子为单位分隔成若干字符串,S=P0,P1…Pi…Pn(n≥0)。
(3)对字符串Pi扫描,以藏文音节点为单位进行分解,Pi=W0,W1…Wi…Wn(n≥0)。
(4)以上所述的藏、汉、英内码范围来对Wi逐字扫描,如Wi是藏字内码,转到(5),如Wi是汉字内码,转到(7),如Wi是英文内码,则转到(6)。
(5)扫描到藏文音节符、3个外腿字后为空格、单垂、双垂符,则Ct累加。
(6)逐字扫描字符,遇到空格,则Ce加1,如果扫描过程中遇到“’”(如缩写I’m等)字符,则Ce加2。
(7)扫描到一个字符,则Cc累加。
(8)当Pi=0时,Cuont=Ct+Ce+Cc。
本统计算法适合于藏汉英混合文档的字数统计,对互联网上搜集的10万字的藏汉英混合文档进行测试,目标文档的藏汉英文字所占比例为8:1:1时,准确率达94%以上。
5 结束语
藏汉英混合文档的字数统计要基于多文种的内码识别,并要准确掌握藏汉英文字特性;为用户提供正确的信息,满足用户的文字处理需求;可用于藏文office办公软件等,为藏文文本的大小控制及撰写专用文提供可靠数据。
参考文献
[1]于洪志.计算机藏文编码概述[J].西北民族大学学报,1992,20(3).
[2]代红,等.中文信息技术的基础标准与中文编码[J].信息技术与信息化,2008(7):36-40.
[3]扎西次仁.《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J].中国藏学,1997(2):122-132.
[4]江荻,等.藏文字符研究.社會科学文献出版社,2010.
[5]毛尔盖.桑木旦.藏文文法概论.青海民族出版社,2005.
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
关键词:多文种;字数统计;内码识别
1 引言
随着信息化步伐的加快,我国在信息处理工作方面取得了很大的成果,有着悠久历史的藏文字与语言也在信息与网络的舞台上展现着她独特的魅力。用藏文字记载的经典文献、古籍著述和译作浩如烟海,在我国的文种中藏书量仅次于汉文居第二位,对如此庞大的典籍按学科、不同作者的著作进行字数统计是很有必要的,有利于对藏语文的定量研究提供科学的参考数据并对其作者毕生的创作做出一个客观、翔实的评价。大量的梵文词语的融入,使藏文字更加丰富多彩,到目前为止所使用的41个辅音字符和15个元音字符都是在长期的历史发展中所创制和采纳的。藏文本体字符与梵源字符在字形、发音、构字上虽然有所区别,但大相径庭,无本质区别。
计算机网络的迅猛发展使得人们的交流显得更为密切,多语言混合的藏文文档在日常生活中日趋频繁,纯藏语言的文字处理已经无法满足人们的需求,需要建立一种支持多语言的文字处理模型。因此本人试图针对单文本、多语言的藏文文档,建立一种支持藏、汉、英的多语言字数统计模型。
2 藏文字的结构
藏文字由30个辅音字母和4个元音字母组成。属拼音文字,但与一般的拼音文字有所差别,一般的拼音文字是一维的线性书写文字,而藏文是由前加字、上加字、基字、下加字、元音、后加字、后后加字组成的二维书写文字。一个藏文音节字里有且仅有一个前加字或后加字、后后加字、上加字、下加字或元音,不能重复搭配。以上所述的上加字或下加字等等都是以基字为核心而言的,除基字不能为空外,其他均可以以音节字的不同而变化。音节分隔符和分句符或单垂符在藏文里有着举足轻重的作用,音节分隔符的作用是清晰地界定俩俩相邻的音节字,不至于相互混淆。单垂符的作用是句与句之间进行分隔,表示一句话的结束或类似于汉语里的顿号、逗号或句号。但也有特殊情况,藏语里ka ga sha称为“外腿字”,一句话末端音节的最后一个字符若是以上“外腿字”之一,则省略单垂符。如一句话末端音节字的最后一个字符为nga则先加音节符,再加单垂符。除单垂符外还有双垂符、四垂符、聚宝垂符、蛇形垂符等常用垂符,都有各自的用法和所表达的意义,但在统计上,与单垂符处理方法相等,不一一赘述。
3 藏汉英内码的识别
1997年WG2第33届会议及SC2两会在决议中分别宣布藏文正式形成ISO/IEC 10646《通用多八位编码字符集》藏文编码国际标准。下面以ISO/IEC 10646为平台,对藏、英、汉文字的内码进行识别。假设所需识别的字符串为S,对S进行扫描,以句子为单位分解成若干字符串。每个字符串用pi表示,得:S=P0,P1…Pi…Pn(n≥0),一般藏文里一句话的结束有两种表达形式即分句符和以上所述的3个外腿字后为空格。然后以Pi字符串里的音节符为分隔点进行逐字扫描,每个音节字用Wi来表示,得:Pi=W0,W1…Wi…Wn(n≥0)。如扫描到Wi,并内码范围为0F00—0FFF,则Wi为喜马拉雅藏文。如Wi的内码范围为0-127,则Wi为英文。内码范围不在以上两种范围的则为中文。
4 字数统计算法
本字数统计算法是基于内码范围来识别文种的,并将识别到的文字按各文种的特性来统计字数。藏、英同属拼音文字,但略微不同,英文字母、元音都以单一的横向排列,藏文则构字上较为复杂,其一个组成音节字的字符纵横都可以排列。属象形文的汉字则统计较为简单,按字符计数就可以。具体统计算法如下:
(1)初始化:设Ct、Ce、Cc分别用来统计藏文、英文、汉子的字数。Cuont用来统计Ct、Ce、Cc的总数。
(2)对所需统计的文章S扫描,以句子为单位分隔成若干字符串,S=P0,P1…Pi…Pn(n≥0)。
(3)对字符串Pi扫描,以藏文音节点为单位进行分解,Pi=W0,W1…Wi…Wn(n≥0)。
(4)以上所述的藏、汉、英内码范围来对Wi逐字扫描,如Wi是藏字内码,转到(5),如Wi是汉字内码,转到(7),如Wi是英文内码,则转到(6)。
(5)扫描到藏文音节符、3个外腿字后为空格、单垂、双垂符,则Ct累加。
(6)逐字扫描字符,遇到空格,则Ce加1,如果扫描过程中遇到“’”(如缩写I’m等)字符,则Ce加2。
(7)扫描到一个字符,则Cc累加。
(8)当Pi=0时,Cuont=Ct+Ce+Cc。
本统计算法适合于藏汉英混合文档的字数统计,对互联网上搜集的10万字的藏汉英混合文档进行测试,目标文档的藏汉英文字所占比例为8:1:1时,准确率达94%以上。
5 结束语
藏汉英混合文档的字数统计要基于多文种的内码识别,并要准确掌握藏汉英文字特性;为用户提供正确的信息,满足用户的文字处理需求;可用于藏文office办公软件等,为藏文文本的大小控制及撰写专用文提供可靠数据。
参考文献
[1]于洪志.计算机藏文编码概述[J].西北民族大学学报,1992,20(3).
[2]代红,等.中文信息技术的基础标准与中文编码[J].信息技术与信息化,2008(7):36-40.
[3]扎西次仁.《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J].中国藏学,1997(2):122-132.
[4]江荻,等.藏文字符研究.社會科学文献出版社,2010.
[5]毛尔盖.桑木旦.藏文文法概论.青海民族出版社,2005.
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文