面向自由文本的细粒度关系抽取的关键技术研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:skoda0412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取(IE,Information Extraction)是继信息检索和机器翻译之后,信息处理领域倍受关注的一个重要的研究方向。IE的目的是抽取出指定的事件、事实等信息并填入一个数据库中供用户查询使用,只有得到各个实体之间的正确关系,才能进行正确的数据库填充。实体关系抽取成为影响IE系统质量的一个关键技术,有着广泛的应用背景。随着Internet的快速发展和网上信息量的迅猛增长,及自然语言处理技术和机器学习技术的不断发展和成熟,从自由文本中抽取出有用的结构化信息已经成为可能。   目前实体关系抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像google的Powerset语义搜索引擎、apache软件基金会的Lucene全文检索引擎架构等等。但是,对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意,实体抽取技术仍然面临着很多困难。   本文以Triples<实体,属性,值>(Entity-Artribute-Value,EAV)为研究对象(本文称为细粒度关系,或EAV关系),以HNC(Hierarchical Network of Concepts,概念层次网络)理论、描述逻辑和半监督学习理论为基础,研究语义层面的细粒度关系(实体-属性、实体-属性值、属性-属性、属性-属性值之间的关系)抽取的关键技术,本文的主要贡献:   1、构建了描述细粒度关系本体的逻辑系统ALCIQ(EAV)(3.5)。在传统的知识管理方式下,由于信息资源缺少统一的语义描述,用户难以实现相关资源的语义融合,本体技术是解决这一困难的重要手段。本体的建立对于需要交换信息,共享信息的人或异构系统来说,将有助于清除在概念和术语上的分歧,对领域内的概念理解达成共识,成为人机之间,机器和机器之间互相理解的语义基础。本文基于本体技术给出了EAV建模的描述逻辑ALCIQ(EAV)基于ALCIQ(EAV)推理算法实现了EAV本体依赖、EAV角色依赖、EAV外部依赖和EAV的形式化,有效地解决了细粒度关系范围的界定。   2、提出了基于HNC的词语语义关联度计算方法(4.3.4)。在细粒度关系抽取中,关联度计算可以发现词语之间的固有联系和隐含关系,可以联想孤立词语的关联词语(相似词语、相反词语、搭配词语、共现词语等),是词语语义相似度和词语语义相关度扩充。本文通过HNC把整个世界作为一个普遍联系的有机整体,假设词语之间也是相互联系的,词语之间构成一张无向带权图(网),用一条边来连接相关联的两个词语,边上的权重为两个词语的关联度,通过在概念网络寻找两个词语的路径来计算词语之间的固有联系和隐含关系。利用HNC联想机制,计算HNC符号的中层表达式,实现词语联想。解决了语义层面上的词语关联度计算,扩展了词语语义相似度和词语语义相关度概念,是抽取实体、属性、属性值的基础。实验结果表明通过词语语义关联度抽取的属性和属性值更能客观地反映真实的细粒度语义关系。   3、提出了基于半监督学习的未定义关系类别的细粒度关系抽取算法(5.3)。未定义关系类别的关系抽取是细粒度关系抽取的核心问题,针对预定义关系类别应用的局限性,本文基于半监督学习给出了未定义关系类别的聚类算法,该算法包括:基于正例和未标注数据学习算法、关系模式泛化算法和关系模式置信度计算算法,并在维基百科上展示了一个细粒度关系抽取的实验,在训练数据较少的情况下,其效果仍然是可接受的。   4、给出一个细粒度关系抽取应用案例--中文科技术语分析(6.2)。中文科技术语分析有利于确定中文科技术语的内涵与分类,界定与判断新术语,把握中文科技术语所属领域的发展重点与发展方向。为了验证细粒度关系抽取的效果,将本文的细粒度关系抽取方法应用于中文科技术语分析。首先,利用ALCIQ(EAV)对科技术语建模,界定中文科技术语文本范围;然后,计算“术语-属性-属性值”关联度,抽取中文科技术语的属性及其相应的值;最后,基于半监督学习的未定义关系类别算法对中文科技术语聚类。
其他文献
随着数字信息技术和网络技术的高速发展,计算机的发展进入了后“PC”时代,嵌入式数据库和嵌入式操作系统作为嵌入式系统最重要的两部分,成为国内外学者的研究热点。然而由于嵌入
基于IEEE 802.11的长距离无线mesh网络具有带宽高、成本低、覆盖广、易于部署和安装等优点,适合于发展中国家或地区偏远乡村的Internet接入,提供远程医疗、远程教育、电子政
随着信息技术的飞速发展,互联网技术在人们的生活中发挥着越来越重要的作用,利用互联网技术整合企业的相关资源,既方便管理,又节省了人力物力资源,而将这些不同的平台之间的资源整
由于广泛应用于图像处理、模式识别、人工智能、机器人等领域,耦合神经网络已成为理论研究和工程领域中重要的研究课题。在现有的关于耦合神经网络的文献中,很少考虑反应扩散
随着移动信息服务业的快速发展,二维码技术在工业自动化、商品流通、移动电子商务等众多领域内得到广泛应用。但在复杂的情况下,受相机抖动、光线剧烈变化、成像系统紊乱等因素
随着经济社会的发展,公司、企业的分工越来越细化,部门之间的联系也越来越多,进行人事管理时,传统的手工管理方式就会出现许多弊端,增加了企业管理的复杂度,大大降低了管理效
无线传感器网络(Wireless Sensor Networks,WSNs)是指由一些具有感知能力、计算能力和通信能力的传感器节点通过自组织形式构成的网络。由于WSNs具有部署快速、成本低,并且节
膜生物反应器(Membrane Bioreactor,简称MBR),是将膜分离技术与生物技术相结合的一项技术,并被广泛应用到污水处理领域中。作为当今污水处理的新工艺,它具有结构紧凑、管理方便、
目前无线传感器网络、网络流量监控、金融应用、通信数据管理等应用中处理的数据不再是存储在存储介质中的静态数据,而是实时、连续到达的数据流。与传统的静态数据相比,数据流
随着移动电子商务的快速发展和普及,人们如何快速的从海量商品图像中找到符合自己需求的商品已成为大数据环境下移动电子商务所面临的新挑战。传统商品图像检索通常采用以下