一种基于改进卡方统计量的藏文文本表示方法

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户:liwanli14
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的文本表示方法并没有考虑特征项之间的关联度,或者只是简单的计算相互问的共现,造成了语义的损失,很难准确的表示文档。本文首先提取文本中的高TFIDF值的部分词项作为对比词项,然后对藏文文本进行断句处理,以每个句子作为一个语境主题,以卡方统计量来计算文本中词项于对比词项的关联程度,结合信息检索领域的经典模型一向量空间模型,提出了一种新颖的文本表示方法Chi—T—VSM以解决藏文文本表示问题。实验结果表明,这种方法能够比传统的VSM方法更准确的表示藏文文本。
其他文献
草坪地上部分的品质表现取决于地上、地下部分的双重护理。施肥就是草坪地下护理的一个重要方面。 施肥可以避免草坪肥力衰退,补充由于修剪而消耗的养分,这对于观赏草坪和运动
本文提出了基于规则的个人便签短文本分类的方法,将个人便签分为日程、备忘、活动、目标、财务、联系人、收藏、健康等类型。首先将个人便签信息进行中文分词,通过已经建立的个
乘务员公寓内的蟑螂一般都是随箱包物品被夹带来的,在适合的环境(温、湿度)下便迅速生长繁殖。为此,选用大蛙烟雾杀虫剂进行现场灭蟑效果观察。l对象和方法1.正西安铁路地区某乘务
同义词和多义词现象是文档表示任务面临的重要挑战。因此本文提出了词义类簇模型fSense ClusterMocIel,SCM),在词义类簇空问上表示文档。SCM首先构造词义类簇空问,然后将文档表
会议