一种基于改进卡方统计量的藏文文本表示方法

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户：liwanli14

【摘要】

：

藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式，是藏文文本分类、文本聚类等领域特征抽取的前提。传统的文本表示方法并没有考虑特征项之间的关联度，或者

【作者】

：

徐涛[1]于洪志[2]加羊吉[1]

【机构】

：

西北民族大学国家民委一教育部中国民族语言文字信息技术重点实验室

【出处】

：

第六届全国青年计算语言学会议

【发表日期】

：

2012年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式，是藏文文本分类、文本聚类等领域特征抽取的前提。传统的文本表示方法并没有考虑特征项之间的关联度，或者只是简单的计算相互问的共现，造成了语义的损失，很难准确的表示文档。本文首先提取文本中的高TFIDF值的部分词项作为对比词项，然后对藏文文本进行断句处理，以每个句子作为一个语境主题，以卡方统计量来计算文本中词项于对比词项的关联程度，结合信息检索领域的经典模型一向量空间模型，提出了一种新颖的文本表示方法Chi—T—VSM以解决藏文文本表示问题。实验结果表明，这种方法能够比传统的VSM方法更准确的表示藏文文本。

其他文献

草坪的施肥方法

草坪地上部分的品质表现取决于地上、地下部分的双重护理。施肥就是草坪地下护理的一个重要方面。施肥可以避免草坪肥力衰退，补充由于修剪而消耗的养分，这对于观赏草坪和运动

期刊