基于语义融合的文本相似度算法研究与实现

来源 :南昌大学 | 被引量 : 0次 | 上传用户:zy197855
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算是文本挖掘过程中的一项关键技术,被广泛应用于文本分类、机器翻译、搜索引擎、抄袭检测、自动问答等领域。目前应用最广泛的文本相似度算法是基于向量空间模型的相似度算法,但该算法存在词语权重不合理的问题,并且忽略了词语的语义。本文将在传统向量空间模型算法的基础上对文本相似度算法进行改进,并将其应用在了文本分类中。本文的主要工作如下:(1)针对传统文本相似度算法存在词频权重过于单一而无法有效提供文本特征的问题,设计了基于多特征融合的向量空间模型算法(Multi-feature Fusion Weights-Vector Space Model,MFW-VSM)。该算法通过引入信息增益和类内离散度,对TF-IDF算法未考虑特征词在类间内分布的问题进行改进,并将其运用于向量空间模型的余弦法中。(2)针对传统文本相似度算法忽略词语语义的问题,提出了基于语义融合的文本相似度算法(MFW-VSM-How Net),该算法首先对刘群和李素建提出的基于知网的词语相似度计算方法进行了优化,将其从词语层次方面扩展到段落层次方面,然后将上述改进的特征权重计算方法运用到该算法中,最后将该算法与MFW-VSM算法进行加权求值。(3)确定MFW-VSM算法与优化后的知网算法的最佳比例。(4)通过实验,将本文提出的算法与经典文本相似度算法和语义相似度算法进行比较,最终通过文本分类将其效果进行呈现。实验表明本文改进的算法在文本分类中的效果最佳。
其他文献
碳量子点(Carbon Quantum Dots,CQDs)作为一种碳纳米材料,具有水溶性好、荧光性强、尺寸小、生物毒性低等优点,在传感器、离子检测器、电容器及光催化剂等方面受到了广泛关注。但是常规方法制备的CQDs荧光颜色单一、量子产率低、表现出单一亲水性,难以在不相溶溶液体系中进行研究,极大地限制了其应用范围。针对以上这些问题,本文提出通过氮原子掺杂来增强碳量子点的荧光性,在CQDs表面进行官
有机电致发光器件(Organic Light Emitting Diodes,OLEDs)因其低功耗、自发光、响应速度快、视角宽、分辨率高、柔性等优点,在照明和显示领域拥有巨大的应用前景。传统有机荧光材料由于自旋禁阻效应,其最大外量子效率(External Quantum Efficiency,EQE)仅为5%,激子利用率(Exciton Utilization Efficiency,EUE)的理
京民养老发[2021]154号 各区民政局、发展改革委、财政局、卫生健康委、市场监管局、医保局:为促进社区养老服务驿站可持续发展,进一步健全就近精准养老服务体系,现将修订后的《北京市社区养老服务驿站运营扶持办法》印发给你们,请认真抓好贯彻落实。
期刊
近几十年来,亚波长尺寸的贵金属纳米颗粒的制备技术得到了飞速发展,贵金属纳米颗粒所产生的表面等离激元共振能将入射电磁波限制在颗粒表面,形成巨大的局域场增强,突破光学衍射极限,并且具有很高的调控性。因此贵金属纳米颗粒在生物传感器、超材料、非线性效应等高集成度光电子器件领域具有很大的应用价值。而基于贵金属纳米颗粒的二维密排阵列结构具有更高的局域场增强、可调控、集成化、微型化等特征,可以提高传统传感器与光
轻质高强材料对于节能减排和降低运营成本具有重要意义,已成为航空航天、国防军事和轨道交通等诸多先进领域的关键材料。仿生结构材料作为一种新型的复合材料,其内部拥有精细层级结构,在不同尺度上协调优化强度、韧性等力学性能。近年来,科学家们通过模仿自然界生物材料内部的层级结构,构建出一系列轻质高强高韧的新型轻质仿生复合材料,为材料的轻量化设计和性能优化提供了新的途径。例如,在过去的几十年里,研究人员将贝壳珍
本课题项目针对煤矿粉尘灾害,特别是目前大型千万吨矿井建设中综采工作面降尘系统急需在原有喷雾洒水和煤层注水装置中,向水中添加更为有效的降尘剂,以达到充分润湿煤体、煤尘,降低开采、掘进等工作面的煤尘浓度,切实促进安全生产。同时,新型降尘剂还要兼顾低成本、安全、环保、高效等方面的问题。在综合各类降尘剂研究的理论观点基础上,结合本企业实验室和同煤集团矿井工业试验的各类数据,本课题拟开发研制一种集低成本、高
在能源危机和环境恶化的双重背景下,热电材料作为一种能源转换材料受到广大研究者的关注。在众多热电材料体系中,Zintl相Mg3Sb2化合物具有较高的Seebeck系数,较低的热导率,且其成本低廉,组成元素无毒无污染,是一种具有巨大应用潜力的热电材料。本论文从理论计算和实验方面,系统探索了Bi固溶和Pb掺杂对Mg3Sb2化合物的电、热传输性能的影响规律和调控机制,获得的主要结果如下:(1)基于密度泛函
非晶合金独特的原子排列结构(长程无序、短程有序),使其具有许多传统晶体合金无法比拟的机械性能,譬如,高强度、高硬度和大的弹性极限。正是由于这种独特的原子排列结构,非晶合金室温以非均匀塑性变形的模式发生塑性变形,塑性变形局限于十几纳米宽的剪切带中,非晶合金室温具有极低的塑性,通常以脆性断裂的方式失效。为有效抑制剪切带的扩展,同时促进多重剪切带的相互作用,近年来,人们成功开发了原位内生树枝晶增韧的非晶
刺激响应型荧光材料是一类能够感知外界环境细微变化的材料。机械力、光、热、酸碱以及电压等外界环境的刺激,都会引起这类材料一系列动态可逆的荧光强度以及颜色变化,因此,各类刺激响应型荧光材料被应用于生物检测、化学分析、信息储存以及光电照明领域。传统的有机发光材料因分子间的π-π强相互作用引起聚集诱导效应,使有机材料在固态时发光强度降低,因而很大一部分荧光材料无法被应用于实际领域。因此,设计一类在固态下具
马路上的路灯坏了,路政工作人员需要使用高空作业车给路灯更换灯泡。工作时,工人会站在高空作业车的平台上,被抬升到较高的位置进行高空作业,不仅危险系数高,而且需要多人配合才能完成。更换路灯灯泡时,车辆被高空作业车阻挡,易造成交通拥堵。怎样才能让这项工作便捷又安全呢?我和科技小组的同学上网查阅了相关资料,并走访了更换路灯的师傅,经过反复探究,我设计了一款折叠旋转便捷更换的路灯。
期刊