论文部分内容阅读
信息抽取关注于从半结构化或非结构化数据中获取结构化信息,是文本理解、信息检索、自然问答和知识图谱构建等很多领域的重要技术支撑。本论文主要关注于开放信息抽取中的一个重要子问题,即文本记录分割与命名属性值识别任务。此任务旨在对一段无分隔符的文本型记录中的属性值进行分割,从而进一步识别和标注该文本型记录中的各个属性值。对于这个任务,目前主流的解决方案是采用机器学习的方法,包括使用人工标注的训练集的监督式方案,或者利用事先存在的知识库辅助实现非监督式方案。监督式方法中,常使用基于图的机器学习算法,比如隐马尔可夫模型和随即向量场,来从数据集中学习到分割模型。在非监督式方法中,常使用事先存在的数据库来代替人工标注的训练集,使用给定的属性值训练一个模型来从输入文本中识别这些属性值。但是,当采用监督式方法时,获取标注好的训练集要花费非常昂贵的代价,并且往往只限制在某个领域内。而在非监督式方法中,则会出现两个主要问题,(1)某一领域文本记录的属性值限制为固定的顺序,(2)匹配准确率低下。为了解决这些问题,本文提出了结合深度卷积神经网络和知识库的非监督式方法。充分利用卷积神经网络强大的特征抽取和组合能力,并有效的结合概率模型,构建了完整的、高效的解决方案。具体研究内容如下:(1)本文着重研究了文本记录分割与命名属性值识别问题,介绍了已有的解决方法,描述了具有代表性的各类算法的优势,并分析了其中存在的问题。介绍了深度学习在相关领域的应用。(2)本文提出了一种新颖的文本记录分割与命名属性值识别算法。本算法基于卷积神经网络,设计出了一种贪婪式的概率标注算法来做全局的标注和分割,在抽取过程中学习出一个双向的序列与位置模型来修正一些错误的结果。这一算法有效的解决了传统方法中的各种问题,抽取质量提高了超过10%,并在抽取效率上也有非常好的表现。(3)构建了一个自动化模型训练和执行抽取任务的系统,可以将本算法更方便的应用到其他数数据集,更直观地查看算法各步骤的结果。我们在三个真实的数据集上验证了本文提出方法的效果。实验结果表明,文本提出的基于CNN的记录分割与命名属性值识别算法在准确率和效率上都要优于以往的各类主流算法。