论文部分内容阅读
随着互联网的普及和藏文信息技术的发展,藏文网站的数量越来越多,藏文信息资源从匮乏的时代过渡到极为丰富的藏文数字化时代。但面对海量的藏文信息资源,人们又很难得到实际需要的信息。因此,人们常对藏文网页按照其内容进行分类。目前,用传统的分类方法来处理是不切实际的,必须借助计算机对藏文网页进行自动分类,一来减少了人力的耗费和财力的投资,二来提高了网页分类的效率和准确率。因此,用计算机进行藏文网页文本的自动分类,可以满足人们所期望对各类藏文文本分类应用需求,这也成为迫在眉睫的研究课题。笔者认为对藏文网页文本自动分类的研究在藏文搜索引擎、藏文数字图书馆和藏文出版等领域,以及对推动藏文信息技术的发展与应用有着重要的现实意义和使用价值。本文主要对藏文网页的净化、藏文分词、特征选取、权值计算、分类算法等相关技术进行了较深入的分析和研究,其中重点研究了藏文分词和藏文网页分类算法,并借鉴现有的中英文分类算法,提出了符合藏文文法及藏文字结构特征的分类算法,即词频统计+词匹配法、基于标题的藏文网页分类算法和基于导航栏的藏文网页分类算法的一种新的混合分类算法,该方法大大提高了基于web的藏文文本自动分类系统的查全率和查准率。最后实现了基于web的藏文文本自动分类系统,同时对实验结果进行了分析并具有良好的分类结果。