论文部分内容阅读
复述(Paraphrase),国内的研究者有时也称之为“改写”,顾名思义就是对相同意思的不同表达。复述在自然语言中是一种非常普遍的现象,同时也在自然语言处理(NLP)的应用领域中扮演着很重要的角色,是自然语言处理(NLP)中一个研究的难点和热点,因此现在越来越受到广大研究者的关注。本文的主要研究对象是基于混联电路的复述识别技术。复述识别技术可以实时处理机器翻译中遇到的未登录短语,复述识别技术也能识别自动问答系统中多重问句形式从而提高系统性能,复述识别技术还能在多文档自动摘要系统中用于生成、压缩、相似句子识别等等。本文首先提出了一种新的句子之间距离计算的方法,此方法类似于相似度的计算方法,不同之处在于,电阻距离是计算的值越小,两个句子越相似,而相似度是计算的值越大,两个句子越相似。我们首先把两个句子分别用图G (V,E,co)的方法把它们表示出来,然后我们把这两幅图合并,相同的单词节点V合并在一起,不同的单词节点V不合并在一起,与此同时相应的边E和权重ω也合并在一起,权重ω的倒数即是对应的电阻,其中我们引入了英文同义词词典WordNet,来提高两个句子之间的正确率、召回率和F1值。这两个句子之间的电阻距离就是混联电路总电阻除以合并之后图中的节点总个数,最后我们通过公式优化两个句子之间的电阻距离从而判别这两个句子是否是复述句对。对于此种方法,判断两个句子之间是否为复述句的正确率,召回率和F1值还不够高,所以针对这种方法,我们提出了此种方法的改进方法。我们引入了拉普拉斯矩阵L来改进电阻的计算方法,我们首先还是把两个句子分别用图G (V,E,ω)的方法表示出来,然后把这两幅图合并,然后写出合并之后图的邻接矩阵A和度量矩阵D,则可以得到拉普拉斯矩阵L=D-A,我们再求出L的广义逆矩阵L+,再利用公式计算出每两个节点之间的电阻,其中我们也同样引入了英文同义词词典WordNet。这两个句子之间的电阻距离就是混联电路总电阻除以合并之后图中节点的总个数,最后通过公式优化两个句子之间的电阻距离来判别这两个句子是否是复述句对。最后的实验结果证明了该方法的有效性。