领域实体关系及语义标签抽取研究

被引量 : 3次 | 上传用户:jkenclly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取不仅是信息抽取中的必要环节,更是许多后续工作例如事件发现、本体知识库构建等的基础环节。研究如何提高命名实体关系抽取技术的高效准确性是一项具有重大意义的工作。实体关系抽取核心问题在于研究两对实体之间的相似性,并能够正确分类实体关系。同时还需要解决人工干预多、标注语料难的问题。本文首先结合旅游领域句子较短的特点,探索了一种新的复合核函数进行有指导实体关系抽取。该文采用卷积树核的方法计算实体对之间的相似性。为降低句法解析器性能对树核函数的影响,将其与词序列核复合,采用一种能同时融合关系实例的句法信息、语义信息、词性信息和词序列信息的复合核函数的实体关系抽取方法。在旅游领域的语料上测试,相对于传统的基于特征向量和卷积树核方法,关系抽取性能都有了一定的提高。本文结合旅游领域特点采用了一种基于最小熵值的弱指导实体关系抽取方法。该方法首先在小规模的分层标注实例上通过标量聚类的思想进行特征词汇的抽取,并用最大熵机器学习算法构造初始分类器,然后利用有一定准确度的初始分类器对未标注实例进行分类,将最小信息熵值的实例加入训练语料集中来不断扩展训练语料集的规模,最后,重复以上迭代过程,直至分类器性能趋于稳定,此时便构造出了最终的特定领域实体关系抽取分类器。在旅游领域语料上的实验证明,该方法不仅可以减少实体关系抽取对人工干预的依赖性,而且可以比较有效地提高实体关系抽取性能,其F值可达到63.69。本文采用一种基于条件随机场模型和规则相结合的旅游领域实体关系语义标签抽取方法。该方法首先采用命名实体识别的分类思想,在上下文语境中将能够体现实体关系的语义词汇作为语义标签来标注,利用CRF识别语义标签,然后分别根据两个实体及语义标签的位置信息和规则,将语义标签赋给相关联的实体对。在旅游领域语料上进行的实验表明,采用该方法的F值最高可达到73.68,说明了该方法对于实体关系语义标签抽取可行有效。实验结果表明,上述方法提高了关系抽取和语义标签抽取的性能,为下一步的研究工作奠定了良好的基础。
其他文献
本实验以出生后1周龄~16周龄的雄性昆白系小鼠为实验动物,运用石蜡切片-HE染色方法对不同周龄小鼠睾丸的组织结构及生精上皮周期组成进行观察,进一步运用免疫组织化学技术对各周
人类社会发展到今天,健康问题一直是各国经济社会发展中不可忽视的难题。和谐社会要求经济社会协调可持续发展,对健康问题的要求也是如此。从宪法的角度来看,健康问题不仅仅
在分析客户对业务的客户感知(QoE)方面,着重依赖于通信业务的指标信息,例如业务端到端的客户感知指标和业务的系统拨测指标。对指标的权重分析是所有研究中重要的一环,只有知道
从2007年开始,国家邮政局委托零点公司对快递服务满意度展开测评。时间过去7年,我们前后共开展了13次调查,调查范同从原来的10个城市扩展到现在的50个城市,范同越来越广,调查的样
随着NB-Io T、e MTC等蜂窝物联网技术的制定和成熟,物联网应用蓬勃发展,终端安全问题也日益突显。针对物联网环境下的安全需要,分析了当前物联网终端面临的各种安全问题,研究
今年5月29日是乔志高先生的百岁冥诞。乔公在95周岁逝世,人虽非"九五至尊",高寿已逾越令人尊崇的耄耋之龄。他是杰出的翻译家、有益复有趣的"美语新诠"随笔作者、高明的编辑
期刊
<正>为确保建筑业农民工按时足额拿到工资、春节前按时返乡,12月6日起至明年1月底,天津市开展全市建筑业农民工工资支付情况专项检查,严肃查处拖欠农民工工资问题。(12月7日
地方铁路是指由地方人民政府管理的铁路,代表本地区的经济利益。其运行的稳定和安全性对于本地区的发展和经济尤为重要。路基做为地方铁路不可分割的一部分,其平顺性与稳定性是
刘文新,1972年6月5日出生于河南省信阳市西部山区一个普通农民家庭.10年前,他还是一个沾满土气的放牛娃,如今已成为名震茶界的青年农民企业家.他创建了信阳毛尖生产、加工、
本文基于某国产轿车,采用理论推导、仿真模拟技术和试验相结合的方法,对其保险杠系统低速碰撞的动力响应特性进行研究。同时,提出了保险杠系统的结构改进方法。本文的主要内容为