论文部分内容阅读
伴随着大数据(Big Data)时代的到来,数据增长的速度越来越快。由于这些数据中充斥着大量无用、冗余的信息,并且自然语言存在着固有的表述多样性,这使得计算机“理解”文本的语义,并从大数据中收集、获取有价值的信息变成一项非常艰巨而又非常有价值的课题。文本蕴含识别就是一项让计算机“理解”文本语义的研究任务。文本蕴含识别是自然语言处理的一项基础而又重要的研究,被广泛应用到自然语言处理和人工智能等领域的多个方向,例如机器翻译、信息抽取、机器阅读、文本摘要、信息检索等。提出了一种基于词语、句法、语义等多特征的文本蕴含识别方法。首先对文本进行预处理操作,包括对字符、数字、时间、单位等进行规格化操作;其次对文本进行词性标注、命名实体识别、消解共指、依存分析等文本处理,另外对中文还需要进行中文分词,对英文还需进行词形还原和词干提取等处理;为了便于提取语义特征,本文抽取了特定词语的等价词、反义词、否定词、上下位词等知识;然后提取了词语、句法、语义等特征,利用贝叶斯逻辑回归等模型进行建模分类,得到初步识别结果;最后利用规则集合过滤,得到最终的识别结果。为了验证本文方法的有效性,对英文和中文评测都做了实验。对于英文,在TAC会议于2010年举办的RTE6评测和201l举办的RTE7评测上进行了实验,F-Score最好结果分别是0.495和0.483均高于评测的最高结果(0.486, BKUTM;0.480, IKOMA)。对于中文,在2014年RITE-VAL评测任务的CS数据上进行了实验,MacroF1为0.625,超过目前最好的研究现状(MacroF1:0.615, BUPTTeam-CS-SVBC-05)。本文的主要贡献如下:1.本文提出了一种基于机器学习和规则相结合的文本蕴含识别算法。对文本进行相关的自然语言处理,提取表示文本间蕴含关系的有效特征,基于该特征利用机器学习和规则相结合的方法对文本间的蕴含关系进行识别,实验证明这种方法是有效的。2.提出了一种基于词语IDF的衡量文本间蕴含程度的算法。该算法充分利用了词语的权重、文本长度等信息,能够客观的反映两段文本间的蕴含程度。3.提出了知识抽取的方法。为了弥补中文知识库的匮乏,提出了借助互联网和现有资源抽取等价词、反义词、上下位词等知识的方法。4.提出了一种首字母缩写词扩充的方法。由于缩写词的数目繁多,很难单一地借助外部词典就能对缩写词进行正确地扩充。利用首字母缩写词所处的文本的上下文进行扩充,用扩充后的词语替换首字母缩写词可以统一命名实体的表述。该方法不借助外部的知识,又能够准确的进行首字母缩写词的替换,有效地提高了文本的相似度。