一种基于特征加权的文本相似度计算算法

来源 :贵州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zjbme2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有
其他文献
目的探讨佳木斯快乐舞步健身操联合护理干预在脑卒中后疲劳(PoSF)患者中的应用效果。方法将60例PoSF患者按随机数字表法分为对照组和观察组,每组30例。对照组采用常规护理,观
作为当代教育的追求与目标,德育教育的作用非常突出,其涉及学生的方方面面,对学生今后的成长具有积极影响。为更好地发挥小学德育育人作用,迎合时代要求,小学德育教育有必要
区域文化产业的发展能带动区域经济发展的转型升级。文章从集群视角出发,分析浙江省区域文化产业集群的现状及存在的问题,以问题为导向,构建区域文化产业集群发展的立体式路
随着我国煤矿深部开采时代的来临,深部软岩层状巷道的稳定性问题越来越受到人们的关注。国内许多煤矿企业没有对深部巷道所处的复杂环境进行针对性的支护设计,从而产生了大大
用稀土金属离子通过形成配位结合来固着丝胶,制备了不同增重率的丝纤维,研究了增重丝纤维结构变化.与未增重丝纤维相比,增重丝纤维的纵向形态和截面形态发生了变化,增重丝纤
为了探究氯化钙溶液注射对鹅肉骨骼肌组织嫩化机制和保水性的影响,本文以浙东白鹅为研究对象,分析了鹅肉宰后储存过程中,钙蛋白酶和凋亡酶3的活性,肌原纤维蛋白的降解程度和
减毒单增李斯特菌具有成为疫苗活载体的潜力,可同时引起MHCⅠ和MHCⅡ类抗原递呈系统,具有强烈激发CD8+和CD4+细胞免疫的能力。构建毒力基因缺失菌株进而评估其生物活性对于其
起源于20世纪90年代的女性主义经济学,是在后现代哲学思潮和新古典经济学内在缺陷的理论背景下产生的一个异端经济学流派.女性主义经济学对新古典经济学进行了拓展与修正,甚
目的探讨调任通督针法配合康复训练治疗脑梗死后疲劳患者的临床效果。方法将100例脑梗死后疲劳患者按随机数字表分组的方法分为治疗组50例和对照组50例。对照组运用康复训练