基于改进卡方统计量的藏文文本表示方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:ansunyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF—IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。
其他文献
开展研发活动是企业在竞争市场中形成核心竞争力的重要保证,近些年来,我国无论是国家还是企业对于研发投入的重视程度都有很大的提高。尤其对于准备公开上市发行的企业,公众
目的探讨尿红细胞平均体积及红细胞形态检查在判定血尿来源中的价值。方法对69例肉眼血尿标本红细胞平均体积及形态学检查结果进行回顾性分析。结果肾小球性血尿组MGV值(65.91&
2008年的金融危机,暴露了《巴塞尔协议Ⅱ》的诸多缺陷,特别是其隐含的顺周期性特征,更是遭到人们的质疑。而众多学者通过研究发现,资本监管的顺周期性特征,加剧了金融体系的
早上七点,晨光微曦,马普托城依然被睡意笼罩。唯独马普托大桥下这个中国营地是例外。负责北引桥施工的技术员们,正在带领工人攻坚大桥最难的硬骨头。马普托大桥北引桥需要穿
对0/1背包问题进行研究,提出一种自适应元胞粒子群算法。在算法设计过程中,重新定义粒子位置和速度的更新方程,引入自适应因子,为有效粒子的主动进化和无效粒子的主动退化提供依
净利差(NIM)是商业银行利润中最为重要的组成部分,已被视为衡量银行效率的重要指标:但如果利差水平偏高,往往也意味着社会承担的高成本和金融中介运营的低效率。净利差作为衡
随着第五代移动通信(5th Generation,5G)时代的到来,车辆变得越来越智能化、信息化,同时车辆数目的飞速增长使得大量的数据需要通信传输和计算处理。伴随车联网智能化进程的不断推进,道路的安全问题越来越引起全社会的关注与重视。在5G典型的应用场景中,车载自组织网络(Vehicular Ad-hoc Network,VANET)中安全业务的通信传输具有重要的研究意义。其中车辆安全业务包括传统
党的十八大以来,重庆在加快实施创新驱动发展战略上着墨良多、平添政策效应,努力走出一条适应、把握、引领经济发展新常态的嬗变之路。总体来看,重庆实施创新驱动发展战略有
廉租房制度的实施切实解决了部分困难群体的住房需求。但在全国经济迅速发展,移民城市加快推进的情况下,强大的保障房需求与有限供给之间的矛盾暴露了廉租房制度运行的一系列