基于序列比对算法的中文文本相似度计算研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:q157194179
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的 /意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题.[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度.[结果/结论]实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题.
其他文献
油菜素内酯具有促进植物生长、增加产量和提高植物抗逆性等作用.本研究以中草药金龙胆草(Conyza blinii)为研究对象,克隆分析其油菜素内酯合成途径C-23羟化酶(CYP90C1/ROT3)
记述大眼长蝽科1新种:西沙大眼长蝽Geocoris xishaensis sp.nov.,分布于中国海南.该种的主要鉴别特征是:头部赭黄色,触角深色,前胸背板前缘、后缘和侧缘淡黄色,中间具1深色大
[目的 /意义]知识元作为知识的基本组分,是知识在微观领域的存在形态.对知识构成组分问题的研究体现了人类对知识认识的深化,是人类对知识认识的必然趋势.因此,对知识元及其
2021年是《图书情报工作》创刊的65周年,也是十四五开局之年。这种巧合,让《图书情报工作》除了纪念的意义外,更增添一份学术责任的反省与思考。我很高兴能以副主编的身份和大家一起分享感想,也特别要向《图书情报工作》道贺。
时光荏苒,《图书情报工作》已经走过了65年的历史,作为期刊的副主编,也作为她的忠实作者和读者,我谨表示由衷的祝贺。在我的印象中,《图书情报工作》一直扮演着拓新者和变革引领者的角色。她是新中国创立的第一份图书情报学刊物,是第一本被正式批准并由邮局公开发行的图书情报学期刊,也是第一本获得“国家期刊奖提名奖”的图书情报学期刊。
[目的 /意义]近年来,由于互联网上针对各类健康话题的信息体量激增、信息质量参差不齐等,用户在健康信息搜寻过程中遭遇冲突性健康信息已成为一种常见的体验,然而冲突性健康
茉莉酸羧甲基转移酶基因(jasmonic acid carboxyl methyltransferase,JMT)是植物茉莉酸甲酯(methyl jasmonate,MeJA)生物合成过程中的关键酶基因,在植物体内可依赖S-腺苷-蛋
“实践”是马克思哲学的基石性概念,它具有四重维度,并且富含政治哲学的意蕴。作为历史科学概念的实践,它奠定了马克思政治哲学的理论之砖;物质生产实践构成了历史唯物主义与马克思政治哲学内在统一的根基;雇佣劳动实践是资本主义非正义的现实根源,马克思通过诠释资本与雇佣劳动的关系,完成了科学的彻底的正义批判。在此基础上他认为,只有通过无产阶级革命,确立具有历史必然性的生产方式——公有制劳动实践,才能超越私有制条件下的形式正义,实现联合生产基础上的实质正义。从政治哲学的维度解析马克思的实践概念,可以为建构马克思主义
为探索利用CRISPR/Cas9系统在拟南芥中进行大片段基因敲除并产生回复突变的可行性及其工作效率,进一步精准验证靶基因在植物的生长发育中以及响应逆境胁迫中所起的作用.本研
本研究对比分析了珍惜中药材蒙古黄芪与碱蓬基因组的DNA甲基化之间的关系.挑选内蒙古等地区的非生物胁迫因素——高盐,以蒙古黄芪和碱蓬培养7d苗龄幼苗为前期材料,利用NaCl模