命名实体间语义关系抽取研究

来源 :苏州大学 | 被引量 : 27次 | 上传用户:lcc2451
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体间语义关系抽取是信息抽取中的重要环节,也是自然语言处理领域的热点问题之一。随着Internet的快速发展和网上信息量的迅猛增长,从自由文本中抽取出有用的结构化信息具有极其重要的意义。同时,伴随着自然语言处理技术和机器学习技术的不断发展和成熟,从大量的自由文本中抽取出有用信息甚至知识也成为可能。近年来,虽然信息抽取研究已经取得了一定的进展,但是在语义关系抽取方面,其性能一直徘徊在70%左右,并且要求具备大规模的标注语料库,因而距离实用化还有一段距离。这是由于语义关系抽取任务本身比较复杂,且对文本的具体领域依赖性强。本文以减少语义关系抽取系统对大规模语料库的依赖性为研究主线,探索新的方法和策略,推进信息抽取的实用化进程。本文对语义关系抽取中的关键技术展开研究,研究内容主要包括:1.研究基于特征向量的语义关系抽取方法,重点探索了如何从自由文本及其语法结构中抽取出各种表面特征和结构化特征,并分析了这些不同的特征对语义关系抽取的贡献,从而为后续研究工作指明了正确的方向。2.研究基于树核函数的语义关系抽取方法,重点探索了关系实例的结构化信息的各种表达形式,提出了基于成分依存理论的动态关系树。根据依存规则从句法树中得到的动态关系树,既能涵盖关系实例的关键信息,又能删除不必要的噪音。实验表明,动态关系树能显著提高语义关系抽取的性能,尤其是召回率。3.研究实体语义信息在语义关系抽取中的作用,提出了实体语义信息的结构化表示方法——实体语义树,并将它和句法结构化信息——动态关系树有机结合起来,构成了合一句法和实体语义树。实验表明,合一句法和实体语义树能有效捕获关系实例的结构化信息和实体的语义信息,显著提高基于树核函数的关系抽取系统的性能。4.研究基于弱指导的语义关系抽取方法,将统计学中的分层抽样理论应用到弱指导学习中来,提出了基于分层抽样策略的初始种子集选取方法。由于采用分层策略选取出来的初始种子比随机选取的种子更具有代表性和典型性,因而它能取得更好的自举性能。同时,将分层抽样理论应用于自举学习的训练集扩展,也能在一定程度上提高了关系抽取的性能。5.研究基于标注传播算法的语义关系抽取方法,探索了采用自举加权支撑矢量的标注实例产生方法,以缓解标注传播算法所需要的计算资源问题。首先采用协同学习的方法通过SVM自举产生加权支撑矢量,这些关键实例能有效捕获语料库中已标注实例和未标注实例的自然簇结构,并作为源标记实例输入到标记传播算法中。实验结果表明,采用自举加权支撑矢量的标注传播算法其性能和效率都有明显的提高。本文的主要贡献在于对语义关系抽取中的关键技术进入了深入的研究和探索,并应用统计机器学习的方法解决关系抽取中的热点难题;提出了利用成分依存理论生成有效捕获结构化信息的动态关系树;研究了将实体语义树和动态关系树有机结合起来的方法;将统计学中的分层采样理论应用到弱指导关系抽取的初始种子集的方法研究;探索了基于自举加权支撑矢量的标注传播算法。这些方法的研究和所取得的成果有助于提高语义关系抽取的性能,减少对大规模语料库的依赖性,对今后信息抽取领域的研究具有重要的参考价值。
其他文献
通过现代科学技术的不断发展,我国对于通信信号的处理也得到了一定的发展。其中,通信信号中过采样技术的应用最为广泛。经过过采样后,通信信号会得到更强的稳定性及循环型,通
目的研制利用专用风扇驱蚊器的风力,使药物持续稳定释放,使灭蚊剂均匀、高效挥发的杀蚊产品。方法选用适宜的有效成分,并配合挥发调节剂制成驱蚊药剂,将药剂均匀地喷洒在专用
2004年2月28日,欧洲银行家马丁·哥顿来到中国湖北省武汉市,将2003年度艾滋病预防的国际最高奖"贝利一马丁"奖颁给了武汉市的医生桂希恩,奖励他在艾滋病防治领域的开创性
在习近平新时代中国特色社会主义思想指导下,推动新时代思想政治教育内涵式发展已成为当前高校思想政治工作的重要内容之一,而以中华优秀传统文化的重要理论资源为动能,已成
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
马克思主义认为全球化的历史进程始于哥伦布发现美洲新大陆,与之相呼应,'英国小说之父'丹尼尔·笛福的荒岛文学经典之作《鲁滨逊漂流记》,可视为欧洲殖民主义向
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着Internet的快速发展,XML已成为Web数据表示和交换的新标准,越来越多的信息处理系统采用XML文档作为信息存储、交换和发布的载体。与此同时,XML文档结构和用户查询需求也