论文部分内容阅读
语言理解是当前学术界和工业界关注的热点问题,也是当前人工智能研究领域面临的最大难题之一。实现语言理解的关键是自然语言的语义表示,它是进行自然语言理解和推理的基础。自然语言有词、句子、段落及篇章等四个层级,词语是最基本的语言单元,而句子则是由词语有机组成的、合符语法的、线性连接的、具有相对完整语义的语言单元,是组成段落和篇章的重要语言单位。与词语有限的语义空间不同,句子的语义并不是词语语义的简单相加,它是在词语语义基础上结合句法作用进行耦合得到,句子语义比词语语义复杂得多、灵活得多。随着当前分布式词嵌入表示在很多任务上的成功应用,人们很自然地想到能否将向量表示法扩展到句子或长文本,即将句子的语义表示映射至低维的连续空间。由于句子语义表达与句法结构密切相关,现有句子嵌入表示学习方法虽能够一定程度上保留句子中词序信息,但不能避免句法结构信息的丢失,难以准确地学习到句子的嵌入表示。针对当前句子嵌入表示学习中由于句法信息缺失导致句子嵌入表示学习精度不足的问题,本文提出融合句法结构信息进行句子嵌入表示学习。论文主要工作包括:(1)提出融合句法信息的句子嵌入表示学习方法,即:对句子进行句法结构分析,将句法信息与词向量融合,学习得到句子嵌入表示。通过与现有方法在中英文不同维度词向量进行句子嵌入学习的文本相似度检测对比实验表明,本文提出的方法在低维词向量上就能获得更好的结果,提高了精度和运算速度,在中文数据集上,精度提升高达5.17%;(2)研究基于句子嵌入表示的科技奖励项目申报文本重复性检测问题,即:使用本文的句子嵌入表示学习方法学习句子嵌入表示,将其应用于科技奖励项目申报文本重复性检测。实验表明,应用本文提出的方法学习到句子嵌入表示能够更好地进行文本重复性检测,该项工作可为科技奖励项目申报文本进行形式审查提供科学的参考依据,也为其它类似的项目申报文本形式审查提供方法借鉴,具有较好的应用价值。