文本蕴含识别研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:duidui1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着大数据(Big Data)时代的到来,数据增长的速度越来越快。由于这些数据中充斥着大量无用、冗余的信息,并且自然语言存在着固有的表述多样性,这使得计算机“理解”文本的语义,并从大数据中收集、获取有价值的信息变成一项非常艰巨而又非常有价值的课题。文本蕴含识别就是一项让计算机“理解”文本语义的研究任务。文本蕴含识别是自然语言处理的一项基础而又重要的研究,被广泛应用到自然语言处理和人工智能等领域的多个方向,例如机器翻译、信息抽取、机器阅读、文本摘要、信息检索等。提出了一种基于词语、句法、语义等多特征的文本蕴含识别方法。首先对文本进行预处理操作,包括对字符、数字、时间、单位等进行规格化操作;其次对文本进行词性标注、命名实体识别、消解共指、依存分析等文本处理,另外对中文还需要进行中文分词,对英文还需进行词形还原和词干提取等处理;为了便于提取语义特征,本文抽取了特定词语的等价词、反义词、否定词、上下位词等知识;然后提取了词语、句法、语义等特征,利用贝叶斯逻辑回归等模型进行建模分类,得到初步识别结果;最后利用规则集合过滤,得到最终的识别结果。为了验证本文方法的有效性,对英文和中文评测都做了实验。对于英文,在TAC会议于2010年举办的RTE6评测和201l举办的RTE7评测上进行了实验,F-Score最好结果分别是0.495和0.483均高于评测的最高结果(0.486, BKUTM;0.480, IKOMA)。对于中文,在2014年RITE-VAL评测任务的CS数据上进行了实验,MacroF1为0.625,超过目前最好的研究现状(MacroF1:0.615, BUPTTeam-CS-SVBC-05)。本文的主要贡献如下:1.本文提出了一种基于机器学习和规则相结合的文本蕴含识别算法。对文本进行相关的自然语言处理,提取表示文本间蕴含关系的有效特征,基于该特征利用机器学习和规则相结合的方法对文本间的蕴含关系进行识别,实验证明这种方法是有效的。2.提出了一种基于词语IDF的衡量文本间蕴含程度的算法。该算法充分利用了词语的权重、文本长度等信息,能够客观的反映两段文本间的蕴含程度。3.提出了知识抽取的方法。为了弥补中文知识库的匮乏,提出了借助互联网和现有资源抽取等价词、反义词、上下位词等知识的方法。4.提出了一种首字母缩写词扩充的方法。由于缩写词的数目繁多,很难单一地借助外部词典就能对缩写词进行正确地扩充。利用首字母缩写词所处的文本的上下文进行扩充,用扩充后的词语替换首字母缩写词可以统一命名实体的表述。该方法不借助外部的知识,又能够准确的进行首字母缩写词的替换,有效地提高了文本的相似度。
其他文献
自网络时间协议NTP发明以来,如今已发展到运行在了数亿台网络设备中,成为网络中十分重要的一项基础协议。NTP协议拥有许多优点,如同步精度高、带有层级的服务器划分以及避免
近年来,随着消费电子、计算机和通信逐渐呈现出一体化趋势,嵌入式浏览器作为嵌入式系统与外界网络互联的工具,面临着两方面的挑战:一方面,随着多媒体网络数据处理的要求的逐渐
Rijndael算法因其优越的性能、效率、安全性,以及执行的简易性和灵活性于2000年成为美国高级加密标准AES。由于AES是数据加密标准DES的继承者,自其被接纳为标准之日起就被政
随着无线通信技术和电子技术的不断发展,人们将能够把无线收发装置,数模转换器,数字基带处理系统和其他应用接口集成在一个很小的低功耗传感器节点上。由这些节点通过无线互
无线传感器网络中(WSN)的多媒体流服务应用(MSAs)有着非常大的应用前景和潜力。本文中,引入这样的一个应用的实例,即移动增强可视化服务应用(MAVS),它通过多跳方式将传感器节
随着网络技术的迅猛发展以及三网融合的不断推进,多媒体会议系统逐渐成为高品质高带宽的热门应用。然而,传统的基于H.323协议栈的多媒体会议系统已经无法满足用户日益丰富的
随着信息技术的发展,高校各部门之间信息交互日趋频繁,然而由于各部门应用系统之间的体系结构、操作系统平台和数据库平台之间差异,造成系统间难于、甚至无法进行信息交互,从而形