论文部分内容阅读
基于上下文位置的文本匹配,是一种将位置信息融合进文本相似度计算中,进而实现文本匹配的方法。相比于传统文本匹配算法,它能更好的对文本的序列特征和层次结构建模。自被提出以来,就受到了学术界和工业界的广泛关注。构建基于上下文位置的文本匹配模型需要关注两个问题:(1)位置信息的度量方法;(2)位置信息与相似度计算的融合方法。目前对于位置信息的度量,主要利用核密度函数来计算基于词距的位置交互信息。通常是为整篇文档中的所有词预定义一个核密度函数来进行位置交互信息的计算。但是,这种预定义的函数一般而言都比较粗糙,在进行文本匹配前,需要根据经验手动进行调节,不能满足多种上下文情景的需求。如何根据文本统计特征来自适应的为不同的词选择合适的核密度函数仍有待研究。此外,近年来兴起的深度学习算法由于其优秀的文本表示能力,在文本匹配任务上获得了远超传统模型的表现。然而,由于神经网络结构的复杂性和难解释性,位置信息目前只能作为深度学习模型的输入层参与到文本相似度计算中。如何将多维上下文位置信息应用到神经网络各层结构的搭建中,以及相似度计算函数的构造中仍然有待研究。针对以上问题,本文首先对上下文位置信息的度量方法和度量函数进行了深入研究,借助于数学概率理论来实现核密度函数在不同上下文情境中的自动转换,进一步满足人工智能的需求。同时,为了更好的将上下文位置信息融入到深度神经网络的构建中,本文首次尝试将上下文位置信息解析为时间位置信息和空间位置信息两种类别,并分别探索了利用门限机制、分层结构和分数阶微积分将其融合到文本匹配中的方法。具体来讲,本文的主要贡献如下:1.改进了传统基于上下文位置信息的文本匹配模型中位置信息的度量方法和度量函数。提出了优选核函数的概念,并根据概率论知识,提出了一种计算优选核函数的智能方法。通过这个方法得到的优选核函数能够根据上下文语境自适应的识别文本中的主题词和专业名词,并且加强这些词在文本相似度计算中的权重。它突破了无监督算法对传统文本匹配模型的限制,显著提高了其在信息检索任务上的效果。此外,优选核函数的计算方法不需要借助外部数据和预训练过程,不但大大减少了模型的复杂度,并且能够灵活的融入到各种基于位置的文本匹配模型中,具有较强的兼容性和稳定性。2.提出了带有位置门限机制的神经网络模型,研究了将上下文时间位置信息融入到循环神经网络中的有效性。我们把两段文本中共现词的位置影响力序列特征定义为上下文时间位置信息,并利用其生成了门限机制,在文本匹配建模过程中控制两段文本间交互信息的流动,一定程度上减少了由注意力机制所引入的噪音对文本相似度计算的影响。此外,基于位置的文本交互信息也被用于文本表示的生成,进一步强化了词序特征在文本表示中的作用,显著提升了循环神经网络进行文本表示的能力。3.提出了基于位置卷积的多维文本匹配模型,研究了将上下文空间位置信息融合到深度学习中的有效性。上下文空间位置信息度量了文本的层次结构特征,本文中我们首次尝试将空间位置特征解析为三个层级:单词级、词组级、句子级,并建立了多维文本匹配模型,实现了文本间的深度交互,显著提高了文本匹配在网页搜索上的效果。特别地,我们定义了位置卷积核,用于识别和提取不同层级的位置信息。位置卷积核基于核密度函数来构建,打破了传统卷积神经网络中随机生成卷积核的限制,为卷积神经网络今后的发展提供了一个可行的方向。4.提出了基于分数阶隐语义主题的神经网络模型,同时融合了时间位置信息和空间位置信息来进行文本匹配。通过考虑文本中单词在时间位置上的序列特征和主题在空间位置上的分布特征,实现了时间位置信息和空间位置信息的大融合,显著提高了文本相似度计算的准确率。特别地,我们将具有优良记忆和遗传特性的分数阶微积分算子引入到隐语义主题的生成中,从时空层面上生成带有位置特征的文本主题向量表示,缓解了传统主题模型所生成主题的歧义性和多义性问题。据我们所知,这是首次将分数阶微积分原理应用到文本处理领域的研究,从理论上和实践上为分数阶微积分原理在文本处理领域中的应用打开了大门。