改进编辑距离算法与汉语句子相似度计算

来源 :中国科协第2届优秀博士生学术年会 | 被引量 : 0次 | 上传用户:cg84989679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语句子相似度计算在中文信息处理的各个领域中都占有重要地位.通过对编辑距离进行有效扩展,提出了一种衡量句子相似度的定量计算方法和对应的多项式时间算法.该方法以词取代字符作为基本的编辑单元,基于词汇语义计算替换代价,引入块交换操作计算语义编辑距离,并对距离进行归一化以计算句子的相似度.实验结果表明,该方法的准确率优于已有方法。
其他文献
为了解决虹膜识别技术中有效、快速地定位虹膜图像,针对传统虹膜定位算法的局限性,提出了一种快速多尺度虹膜定位算法.该算法根据瞳孔、虹膜和巩膜的区域特征,应用多尺度策略
会议
InternetQoS(服务质量)评估是多学科领域的研究问题,本文从博弈理论的视角,基于MNL模型(多项罗吉特模型)提出了综合考虑服务质量指标和价格因素的InternetQoS评估机制.采用MN
本文提出了一种用于分割彩色图像的多尺度形态学算法.首先基于张量梯度用彩色分水岭算法得到初始分割结果,即局部水平集连通区域.然后构造初始连通区域间的RAG和NNG用于后续
会议
身份鉴别所需要的高度准确性和鲁棒性往往很难通过使用单模态的生物证人方法来达到.本文提出了一种基于动态贝叶斯网络的融合框架,将声纹信息与人脸信息在特征层进行融合,从
本文将量子计算与遗传算法进行融合,其核心是在常规遗传算法中将量子的态矢量引入遗传编码,并自适应地进行量子旋转门的调整以实现染色体的演化,使算法具有更好的种群多样性
随着面向对象程序的广泛应用,寻求对此高效测试的方法和技术已成为一个亟待解决的课题.本文将测试过程式程序效果显著的统计测试方法应用于类程序的测试.方法级统计结构化测
会议
回归测试是软件测试生命周期中的重要阶段,研究测试用例优化就是为了剔除冗余的测试用例,提高回归测试的效率.本文提出了回归测试用例选择问题的数学模型,以及该模型的整数规
在分析了以前的多传感器空间数据配准算法的特点和不足之后,提出了一种新的算法--基于聚类的数据配准:在多目标的情况下,先采用模糊c-均值法对传感器同一单帧量测数据进行聚
会议
本文深入分析了DD算法、FDM算法以及其不足之处,在此基础上设计了DDA算法,在DDA中使用频繁模式树生成局部大项集,减少数据库扫描的次数,采用投票法的方式传送站点之间的数据,
遗传规划是一种通过进化程序来得到问题近似或精确解的方法.尽管遗传规划在实际应用中取得了很大的成功,但是其理论基础仍然十分薄弱,其中重要原因之一就是其收敛性理论缺乏