文本向量表示方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zxw364963027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示指通过某种方式将自然语言文本编码为计算机可以处理的形式,这是实现自然语言理解最基础也是最重要的步骤。高质量的文本表示可以使计算机有效地完成各种自然语言相关的任务,如机器翻译、自动问答、人机对话等,因此开展这项研究具有重要的理论意义和应用价值。  对文本表示模型来说,将不同类型信息进行有效地融合对获取高质量文本表示至关重要。本文围绕如何设计有效的信息融合方法来学习高质量的文本表示展开,重点关注三种类型信息的融合方法:词汇表示中多种模态信息的融合、短语或句子表示中底层词汇信息的融合、以及句子表示中字符与词汇信息的融合。另外,本文借鉴人脑语义表征研究的最新成果对分布式向量表示的语义可解释性进行了研究。  论文的主要工作和创新点归纳如下:  1.提出了一种基于动态融合机制的多模态词汇表示方法  词汇可由字符串、语音和图像等不同模态形式呈现,如何综合利用各模态信息学习更好的词汇表示是一个挑战。已有的多模态词汇表示模型平等地对待不同模态的信息,但是相关研究表明,不同模态的信息对于不同类型词汇含义的贡献程度是不同的。因此,提出了一种动态融合机制,通过自动针对不同类型的词汇学习不同模态的权重来对不同模态的信息进行有效地融合。实验表明,提出的方法有效地为不同类型词汇的文本和视觉模态信息赋予了不同的权重,显著提高了词汇表示的质量。在抽象词和具象词集合中,模型得到的权重符合认知科学的研究结论,即抽象词更依赖文本模态,而具象词的词义学习同时依赖文本和感知觉模态。  2.系统对比分析了不同因素对汉语和英语短语表示学习方法的影响  短语表示通常由词汇表示组合得到,已有的短语表示学习方法主要关注如何选择合适的组合函数,而忽略了组合模型的其他重要环节,如词汇表示的质量、模型的训练目标等。因此,对于不同环节对模型性能的影响以及在何种条件下模型可以学到最优的短语表示,目前没有明确的结论。为此,通过大量的实验系统地比较了来自不同模型的词汇表示、组合函数、训练语料和目标函数对短语表示质量的影响。对比分析发现,词汇表示的质量和词汇信息的融合方法对短语向量表示质量的影响最大,在进行短语组合表示学习时应使用语义增强的词汇向量和形式简单的组合函数,在缺乏高质量的复述短语数据集的情况下,从文本中直接学到的短语向量可以作为一种有效的学习目标。另外,公开了用于汉语短语相似度计算研究的数据集,为汉语短语表示方法研究提供了重要的数据资源。  3.提出了一种受人类注意力机制启发的和基于字词融合机制的句子表示方法  已有的句子表示模型对不同词汇的重要性并不做区分,而认知心理学研究表明,人在阅读句子时会选择性地注视或跳读某些词汇,这种注意力机制使人类对句子的阅读和理解变的更加高效。受此启发,提出了一种基于注意力机制的句子表示学习方法,该方法可自动对句子中重要的词汇赋予较高的权重,从而实现词汇级别信息的有效融合。实验表明,该方法显著提升了句子表示的质量,而且模型预测的词汇重要性分布在一定程度上与人的阅读时间分布相吻合,进一步证明了该方法的正确性。  另外,汉语与英语不同,汉语的字包含了丰富的语义信息,而已有的句子表示学习方法并没有充分利用字的信息。为此,研究了汉字在学习通用句子表示中的作用,并提出了一种混合字词的网络结构,用于对汉字和词汇级别的信息进行有效地融合。在多种任务上的实验结果表明,提出的方法与已有的汉语句子表示方法相比具有明显的优势。并且,公开了用于汉语句子相似度计算研究的数据集。  4.提出了一种分布式语义向量表示可解释性分析的方法  已有的词汇向量表示方法研究表明,多模态模型与单模态模型相比可以学到更好的词汇语义表示。但是,词汇的多模态表示中到底编码了什么信息,它们在哪些方面的效果优于单模态的模型,词汇在不同模态的语义组合过程中有什么区别和联系,以及不同类型的组合模型是如何组合词汇向量表示的,若干问题并没有得到清晰的解释。为此,对来自不同模型的词汇表示向量及其语义组合过程进行了深入研究,提出了一种分布式语义向量表示可解释性分析的方法,该方法利用大脑成分语义表征理论研究中对词汇语义维度的划分和数据,并利用表征相似性分析和空间映射方法对分布式向量表示的编码信息进行了解释,得出了多模态表示模型与文本表示模型相比更多地编码了感觉和运动属性,词汇在不同模态中具有相似的语义组合过程等结论。这些解释和结论对于进一步探索和建立更加有效的文本表示方法具有重要的指导意义。
其他文献
网络控制系统(Networked Control System, NCS)以通信网络作为控制器、执行器、传感器之间的通讯媒介,是控制科学、计算机及网络技术的综合应用。由于在网络控制系统中要进行
磨矿是选矿过程中破碎工序的继续,磨矿的目的是使矿石中的有用成分全部或大部分达到单体分离,同时又尽量避免过磨现象,达到选别工序的粒度要求。而磨矿产品的质量与产量对选
鱼类在游动中表现出高效率、低噪声和高机动性特点是传统螺旋桨推进器无法比拟的,因此越来越多的工程人员希望能够研发出完善的仿鱼形机器人,以便更好地服务于人类。传统的仿
随着国民经济的发展,管道由于其在流体运输中独特的优势,在运送被称为国民经济血液的石油等方面正发挥着不可替代的重要作用。但是随着管道运输的发展,老化、腐蚀和受经济利益驱
近年来,随着钢铁工业全球化进程的不断加快,客户需求越来越多样化,呈现出多品种、小批量、复杂化的特点。另一方面,钢铁企业由于生产工艺和设备的限制,使其必须采用大规模的
浮选技术的进步对我国选矿工艺的发展特别是提质降杂起到很重要的作用。在浮选生产过程对有效计量和浮选剂的添加量进行控制是十分必要的,如何精确测量和控制药剂量是整个浮
论文针对普通模糊神经网络无法处理暂态问题,对具有递归环节的动态模糊神经网络(DFNN)进行了研究。通过在网络第二层中加入内部反馈连接,使其具有动态映射能力,不仅对动态系统有
随着光纤传感技术的发展,近红外光谱吸收型光纤气体传感器的研究在国内外得到了迅猛发展。然而现有的检测灵敏度受到吸收路径长度的限制,研究新型的光纤气体传感器具有十分重
近年来,电力电子技术、微电子技术以及现代控制理论的快速发展,对异步电机控制系统的全数字化控制、无速度传感器以及先进的控制策略等技术的发展产生了巨大的推动作用。本文
康复训练机器人技术是近年来迅速发展的一门新兴技术,是机器人技术在医学领域的新应用,经过几十年的发展已经取得了很大的成果。国外的康复机器人研究比较发达,而我国在康复