藏文文本相似度计算方法研究

来源 :高原科学研究 | 被引量 : 0次 | 上传用户：gdgyhp

【摘要】

：

随着藏文文献数量的增加,原创性的藏文文献保护需求也越来越迫切,一个准确有效的藏文文本相似度计算方法就显得十分重要。文章针对藏文文字特殊结构导致藏文相似度计算不能照搬中英文文本相似度计算方法的问题,尝试按照《藏文编码字符集》的标准对藏文字符以一定顺序编码后与词库中的近义词关联;然后将待测文本和对照文本向量化,再对向量化的文本进行关键词提取,并用各自获取的关键词修正向量;最后使用余弦相似度原理计算待测文本向量和对照文本向量的余弦值,以此表示两句话的相似度。针对关键词提取的有效性,文章分别研究了TF-IDF和T

【作者】

：

严李强田博梁炜恒杨欢欢

【机构】

：

西藏大学信息科学技术学院

【出处】

：

高原科学研究

【发表日期】

：

2021年3期

【关键词】

：

藏文文本相似度 TF-IDF TF-IWF 余弦相似度原理

【基金项目】

：

国家自然科学基金项目(61561045),西藏自治区大学生创新训练项目(S202110694080).

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

西藏河谷型绵羊体重与体尺相关性分析

为评估西藏河谷型绵羊的体重,于2018年10月下旬在西藏河谷型绵羊中心产区浪卡子县随机选取154只成年母羊进行体重称量、体尺指标测量,并通过R统计软件对相关变量进行分析、拟合以及预测。结果表明:(1)体高、体长、胸围与体重呈极显著正相关(P<0.01);(2)以体尺指标为因变量,随体重增长最明显指标是胸围;(3)西藏河谷型绵羊体尺对体重的最优回归方程为:y=0.31893 x+6.57365,(R2=0.637,P<0.001)。

期刊

西藏河谷型绵羊体重体尺回归方程

藏文文本相似度计算方法研究

其他学术论文