基于WMF_LDA主题模型的文本相似度计算

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:fuzhuyuansu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度的判断和计算是自然语言处理领域中具有重要意义和研究价值的一部分内容。利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,本文提出的方法在准确度上也有一定程度的提升。
其他文献
精子发生是一个十分复杂的细胞生物学过程,精子发生的顺利进行依赖于睾丸中多种基因的表达和调控,但在睾丸超过2300个高表达的基因中,多数基因对精子发生或雄性生殖的作用尚不明确。Dpep3是GPI锚定蛋白家族的重要成员之一,我们分析发现DPEP3蛋白在人类和小鼠以及其他真哺乳亚纲的动物中高度保守,并且其mRNA仅在睾丸组织中表达。通过对出生后不同时间点睾丸分析发现,Dpep3从出生后7天起持续高表达。
通过对人工控制条件下,不同浓度盐水(0,4,12,20,28 g/L)处理55 d后,多枝柽柳(Tamarix ramosissima Ledeb.)的气体交换参数、光合色素、脯氨酸和可溶性糖含量变化情况的分析。结果
本文以所在部门近两年来审查批准逮捕的156件赌博犯罪案件为基础研究材料,对农村赌博犯罪的若干问题及如何预防控制该类犯罪进行探讨研究,以期对司法实务及解决花都区农村地
人形机器人具有与人类相对应的“视觉”、“听觉”、“触觉”与“情感”,能与人类进行交互,和人类协同作业,研究如何让人形机器人高效地与人类进行交互并为人类服务显得意义
<正>商务印书馆2018年1月第1版,定价:48元。本书依据波斯古经《阿维斯塔》和帕拉维语文献,对琐罗亚斯德教神话做了全面深入的研究。在此基础上,提出自己的学术见解,围绕宇宙
中国现代史是高校历史专业的必修课程之一,是与中共党史、中国革命史有密切联系又有区别的课程。随着高校政治理论课程改革的深入,中国近、现代史分期不当,教学内容和教学手
在石油化工、石油加工、煤化工等流程工业中,有大量含有较高压力能的液体,这些含有较高压力能的液体大部分具有一定黏度。目前,这些高压液体一般通过减压阀降压,以达到后续工艺要求的压力,高压液体所具有的压力能以热能等形式被消耗掉。近几年来,由于以水为介质液力透平基础理论研究得到了较大进展,利用泵反转作液力透平(PAT)和设计专用液力透平已比较成功地在一些黏性较小(当黏度小于5mm2/s时,黏度对液力透平的
土壤微生物是农田生态系统重要组成部分,微生物的多样性是农业生产赖以生存的基础。本文主要就农药污染对土壤微生物多样性影响研究作一综述。
普通扬声器或线阵列在厅堂中的应用已司空见惯。作为反传统线阵列可以在未被调试的厅堂中使用,而且语言清晰,效果满意,充分展示了反传统线阵列扬声器系统的特性。“对外经贸
目的建立抗羊轮状病毒LLR(G10P〔12])VP4特异的单克隆抗体。方法用纯化羊轮状病毒LLR免疫Balb/c小鼠,取其脾细胞与SP2/0骨髓瘤细胞进行融合,利用间接ELISA筛选阳性杂交瘤细胞,