论文部分内容阅读
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的文本表示方法并没有考虑特征项之间的关联度,或者只是简单的计算相互问的共现,造成了语义的损失,很难准确的表示文档。本文首先提取文本中的高TFIDF值的部分词项作为对比词项,然后对藏文文本进行断句处理,以每个句子作为一个语境主题,以卡方统计量来计算文本中词项于对比词项的关联程度,结合信息检索领域的经典模型一向量空间模型,提出了一种新颖的文本表示方法Chi—T—VSM以解决藏文文本表示问题。实验结果表明,这种方法能够比传统的VSM方法更准确的表示藏文文本。