基于语义耦合的短文本相似度计算研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:lx305954308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术飞速发展和网络信息爆炸式增长,社交工具智能化和便携化,导致大量信息以短文本形式出现。例如微博评论、手机短信、聊天软件和自动问答系统。短文本相似度的计算对于挖掘和处理超大规模短文本数据有着不可或缺的作用,被大量用于文本分类、文本聚类、信息检索和微博用户推荐等多个领域,而算法的优劣决定着这些应用的性能。短文本相似度计算是一个复杂,多技术交叉的问题,会受诸多条件影响,例如文本表示,词项加权策略,语义关系建模和相似度算法等。通过分析传统的短文本相似度算法的缺陷,本文设计了基于距离的词项关联权重计算方法,并改进了词项间内联和外联关系,结合内外联关系得到耦合关系来建模词项间更加复杂的语义关系。此外考虑到词项强类别特征对于文章的区分性和指示性,设计了相对应的强类别特征相似度计算方法。最后综合词项耦合语义信息和强类别特征,构建了一种更加全面和合理的相似度计算方法。论文的主要工作总结如下:(1)设计了基于耦合关系的短文本相似度算法。首先考虑词项共现信息和词项间距离得到共现相关度,并以此计算词项的关联权重,然后利用词项的关联权重计算词项内联关系和外联关系。其中内联关系由词项的关联权重和广义Jaccard方法结合得到;而外联关系被定义为在外联路径图上两个词项之间的形成的路径的共享熵,共享熵越大则外联关系越强,词项间的相关性也越强。接着综合内联和外联关系来定义两个词项的耦合关系。最后提出得到改进的文本间耦合关系相似度;(2)设计了基于强类别特征的文本相似度算法。利用加类标数据来计算词项在每个类中改进的期望交叉熵并降序排列,选取每类中期望交叉熵最大的top-K个词项得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似的想法,得到强类别特征相似度。(3)设计了基于耦合关系和强类别特征的相似度算法。在前两个算法的基础上,综合考虑了词项的耦合关系和强类别特征设计了更加高效和先进的相似度算法。为了验证算法的有效性,在DBLP数据集,20Newsgroups和搜狗语料库数据集上通过聚类任务来衡量短文本相似度计算的性能,实验结果表明本文提出的方法对比于基准方法具有更好的聚类效果。
其他文献
误读是阅读过程中难以避免的普遍现象,旧有的阅读理论对此持否定态度,认为是错读,曲解了文本的本义;现代的阅读理论对之则肯定有加,认为它是一种创造性的解读,具有个性化、新
在分类领域中,SVM因能在样本有限的情况下达到较高的准确率,并能通过将不可分样本映射到高维空间解决非线性可分问题而备受研究人员青睐。在SVM分类中,核函数和参数的选择对分类效果影响极大,但目前并没有一个统一的参数选择方法,SVM分类的参数选择仍处于经验性选择阶段。针对SVM以上不足,本文主要研究了差分进化算法,设计了一种基于自适应组合优化差分进化的SVM参数寻优算法,并将该算法应用于新闻文本的分类
移动互联网的发展丰富人们的生产生活,社交网络、共享经济、移动支付、电子商务等互联网服务的出现给人们的生活带来便利,同时使得信息过载问题越来越严重。推荐系统是解决这
图像分割是指基于一定的相似性准则从复杂的图像背景中提取出用户感兴趣的前景目标,它是图像处理、计算机视觉等领域中的关键步骤。近年来基于图割的方法以简单的交互方式、
随着物联网技术的快速发展和智能终端的大量应用,目前的物联网传输协议已不能满足当下的物联网需求。国际移动通信标准组织3GPP针对物联网需求中的强覆盖、低功耗、低成本和多连接等特性制定了窄带物联网协议标准。同时,就物联网应用方面来看,其主要用在组织生产、管理移动办公、智能公交、汽车、环保、物流等对数据传输准确度、稳定性和时延要求较高的场合。因此,为保证窄带物联网协议栈在物联网应用中数据传输上平稳、快速
城市经济效率也就是在一定的经济成本基础上该城市所能获得的经济收益。在我国经济高速发展、城镇化率进一步提升的背景下,城市发展对于需要投入的资本、劳动力、以及技术等
随着日益增大的市场竞争压力,以及日新月异的新产品新技术,企业在推出新产品的时间和周期也越来越短。一个企业是否可以在与同业企业之间的竞争中取得优势并抢先占领市场,适
随着无线通信技术的发展,射频电路和集成电路变得越来越复杂,多功能电路模块被封装在集成的空间中,电路之间信号的相互耦合以及自由空间信号的干扰和串扰对射频电路的设计提
现今图像库日益庞大,相应的图像检索需求逐渐增加,对该课题的探索和研究迫在眉睫。如何从庞大的图像数据库中,在极短的时间内,快速高效地对需求的图像进行检索和定位,成为了
中华按蚊(Anophelessinensis)属于双翅目(Diptera)蚊科(Culicidae)按蚊属(Anopheles genus)按蚊亚属(Anopheles subgenus)的赫坎按蚊种团的(Anopheles hyrcanus group)是我国