一种面向藏文聚类的文本建模方法

来源 :西北民族大学学报:自然科学版 | 被引量 : 0次 | 上传用户:h135zy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用 word2vec 工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于 VSM和基于 LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.
其他文献
叙述了国内外多晶硅生产状况,分析了当前多晶硅市场需求状况,预测了未来市场形势,并介绍了多晶硅生产技术现状及特点。
一、加大财政投入力度各级财政的农业开发资金、基地建设资金等支农资金要优化投资结构,调整投资方向和建设内容,重点投入农业产业化经营,实行捆绑使用,避免分散投入.扶贫资
聚乙烯是目前最为广泛地应用的高分子之一,但是聚乙烯是非极性高分子材料,它的低表面能和差的润湿性大大地限制了其应用范围。文章主要介绍了聚烯烃表面改性的主要方法特点及
为提升晋中市辖区内各产、寿险公司的业务统计数据质量,为全行业提供更加准确、及时、完整的行业数据,10月30日,晋中市保险行业协会分别组织产、寿险公司召开了业务数据统计
从国有粮食企业在整个粮食流通制度中的重要地位出发,从现实与委托--代理关系这两个方面说明必须对现有国有粮食企业进行制度变革,从而明确其自身的作用.然后对粮食企业如何
新型城镇化是我国促进经济社会持续发展和深化改革的强大动力与战略抉择。政府、市场和农民(社会)是新型城镇化的主要动力源。新型城镇化动力机制的有效运转,需要克服其自身
我院1995年1月—2003年1月期间采用曲安奈德局部封闭治疗非特异性肋软骨炎病人258例,取得了较好疗效,现回顾总结如下。
据农业部调查,2004年国内夏收油菜籽面积比上年扩大300多万亩,产量预计1190万吨,比去年增长9%,预计2004年国内油料压榨植物油产量1000万吨左右,为历史最高水平。同时食用植物油进口
四川省川粮米业股份有限公司是由四川省粮油批发中心控股、股权结构多元化的股份有限公司.公司按现代企业制度要求,在劳动用工上,从总经理到员工,实行全员聘用制;在分配制度
微型植物工厂集装箱模式具有稳产高效、环境可控、清洁安全、移动方便、应用范围广等先进农业的特点,成为农业发展的新思路。文章介绍了集装箱植物工厂的系统构成,详细阐述了