面向中文网络百科的属性关系抽取研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:smilepk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能技术在人类社会生活中已得到了广泛的应用,而它的应用往往需要大规模知识库来支撑。属性关系是知识库的重要组成部分,它作为实体关系的一种,反映的是实体间的关系类别,主要包括概念实例、属性关系触发词和属性值。中文网络百科包含了大量条目名、属性、触发词和属性值,为属性关系抽取提供了丰富的数据源。目前,从中文网络百科抽取属性关系主要存在两个问题:(1)现有方法获取的属性不利于属性关系映射到百科知识库,且每个属性几乎都缺少有效的属性关系触发词表;(2)基于中文网络百科的训练语料匮乏,且属性关系抽取严重依赖于命名实体识别。针对上述难题,本文着眼于构建有效的大规模属性关系知识库,提出了相应的解决方案。主要内容如下:第一,研究了一种属性名称抽取方法。充分利用信息模板结构化或半结构化的特征提取候选属性名称,并筛选出目标属性名称。第二,基于属性描述模式研究了一种属性关系触发词表建立方法。从属性描述模式中选取种子词,根据外部词典扩充种子词,进而研究了一种可信度评价方法。依据扩充种子词从属性描述模式中多次提取候选触发词,并人工筛选建立触发词表。第三,研究了基于弱监督的训练语料自动获取方法。根据条目名和信息模板生成的属性关系三元组回标百科文本子句初步构建训练语料,进而研究了一种朴素贝叶斯分类器和触发词过滤的算法来优化训练语料,并在回标和分类过程中对属性值进行预定义符号标记,一定程度上打破了命名实体的限制。第四,使用条件随机场工具包建立条件随机场抽取模型。首先对训练语料中的条目名和触发词进行标记,然后研究了一种训练语料格式自动转换方法,最后选取语料特征,制定特征模板来完成模型训练。本文以互动百科条目文本为数据集,分别对“高校”类别和“公司”类别训练生成不同属性下的抽取模型,并针对相同类别的互动百科条目文本进行属性关系抽取测试。实验结果表明本文的方法不仅能取得良好的抽取性能,而且具有较高的可移植性。
其他文献
多输入多输出,即MIMO通信系统以其特有的大容量和高可靠性在高速无线通信中占据着重要地位。预编码技术是一种应用于发射端,以达到抑制多用户间干扰的预均衡方法。因为MIMO系
正交频分多址接入技术是以OFDM (Orthogonal Frequency Division Multiplexing)技术为基础,结合了FDMA (Frequency Division Multiplexing Access)技术而形成的一种多用户接
摘要:LTE (long term evolution)是3GPP长期演进项目,LTE兼容第三代(3G)移动通信系统,传输质量高,适应高速移动,并拥有高达100Mbps的下行数据传输率。高级长期演进(LTE-A)是真
光纤布拉格光栅传感器(Fiber Bragg Grating,FBG)是一种新型的光无源器件,在抗电磁干扰、轻巧、灵敏度等方面具有独特的优势,可以用来测量应变、温度、压力以及一切可以转换为应
向量网是一种面向连接的通信网络,它对通信路径上节点的出端口进行编号,并将途径的一系列端口号序列作为向量地址,从而实现地址资源的扩展。向量网通过呼叫寻由过程建立向量
现如今视频采集设备已非常普遍,早已进入了每家每户。随着社会的发展与进步,人们对信息量的要求越来越高,也就是说对视频的广泛性及连续性的要求越来越高,然而仅仅靠单个采集
随着移动通信和智能终端的发展,移动数据量急剧增加,移动业务的种类也日益多样化,运营商面临着严重频谱资源不足的挑战。为了应对各种通信场景和业务的需求,第五代(Fifth-Generat
近年来,宽色域显示设备不断推陈出新,在LED显示器出现后,激光显示器已经成了显示设备新的代表。与传统显示设备相比,宽色域显示设备优势显著,在色域覆盖率上有了很大提升。与
新世纪以来,综合了嵌入式计算、传感器、射频芯片、无线通信和分布式信息处理等技术的无线传感器网络(Wireless Sensor Network, WSN)产业悄然兴起。WSN被广泛地运用于生态环
近些年,可见光通信(Visible Light Communication,VLC)受到全世界范围广泛关注,可见光通信是基于发光二极管(Light Emitting Diode,LED)照明设施的发展起来的通信技术,只需在