基于规则的百科人物属性抽取算法的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:blnxy325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网已经融入了人们的生活,互联网的规模更是迅猛的扩张,网络上的数据也以几何级数的速度增长,从这些海量文本中获取有用的信息并将其转化为计算机能够识别和处理的结构化数据的研究是目前的一个重要研究课题。文本信息抽取是指从一篇或一段文本中抽取出指定的信息(比如实体、实体关系等),并将其以结构化的形式填充到数据库中供用户查询或计算机进一步分析、处理的过程。本文研究的是人物领域中实体关系抽取任务之一,即人物属性抽取。本文以百度百科人物网页为研究源数据,对百科人物属性信息抽取进行了研究。根据实际需要本文重点研究了以下几个问题。首先,本文实现了多线程网络爬虫,下载百科网页数据;然后通过分析百科网页的特征,利用正则表达式的方法实现网页内容的解析。其次,根据百科网页的开放分类特性,每个百科网页上都有开放分类,开放分类又称为社会性标注和大众分类法。通过分析发现人物类别的开放分类共有112个,本文利用此112个开放分类对人物类别的网页进行筛选,共提取出218,171个人物类别的网页。第三,本文对基于触发词的人物属性抽取方法进行了研究,通过网上搜集和语言分析制定触发词表,完成人物属性的抽取。实验表明该方法从百科文本中抽取人物属性信息是可行的。第四,本文提出了自动获取规则的方法,该方法利用各属性值的词性信息来定位到百科自由文本中,通过统计其前后词的方法发现候选规则,再对候选规则进行数学计算得到抽取规则,最后根据规则匹配从百科文本中获取人物属性信息。实验结果表明该方法的可行性和有效性。最后,本文实现了人物属性抽取原型系统,该系统具有数据采集和预处理、人物属性抽取等功能。
其他文献
文化景观(CulturalLandscape)一词最早由苏尔(Sauer)在《景观的形态》(TheMorphologyofLandscape)一文中提出:“文化景观是任何特定时期内形成的构成某一地域特征的自然与人文因素的
现如今,我国是经济发展的大时代,一场以“绿色”为主的浪潮在全球范围内开始掀起,与此同时,一个以可持续发展为目标的绿色物流概念慢慢走进了人们的视野。通过实施绿色物流管理,一
澳门金融产业发展的先天不足以及世界旅游休闲中心的发展定位表明其无法同香港一样,成为国际金融中心。澳门特色金融产业的发展应紧紧围绕澳门旅游这一城市定位,为旅游休闲提
自20世纪下半叶以来,世界癌症发病率与死亡率均呈上升趋势。目前我国已成为恶性肿瘤新发病例最多的国家,20年间恶性肿瘤的发病率升高约50%,而同期恶性肿瘤的5年总体生存率提高了8
目的探讨尿毒症患者止血功能的调节及其临床意义。方法采用酶联免疫分析(ELISA)法测定59例尿毒症患者血浆血管性血友病因子(vWF)、同型半胱氨酸(Hcy)、P-选择素(P—selectin)、血栓前
111例双胎妊娠分娩的临床分析广东省花都市胡忠医院马晓慧双胎妊娠母婴并发症多,胎先露异常、手术产、产后出血、新生儿窒息及围产儿死亡率等均明显高于单胎妊娠,故临床已作为高危
建筑工程施工管理工作的水平直接关系着工程的质量和安全,对于工程项目能否顺利开展起着决定性的作用。因此必须深入分析现阶段施工管理中存在的问题,采取相应的改进措施提高施
飞机发动机叶片由于工作条件恶劣,容易出现疲劳和微缺陷,但采用传统的检测方法难以对其进行准确检测。该文提出一种基于柔性电磁传感器和数字锁定检测算法的微缺陷检测技术,在分析柔性阵列式电磁传感器特性的基础上,重点对传感器转移阻抗的数字锁定检测方法和数据处理方法进行研究,提出整周期数字锁定检测算法,可提高阻抗测量精度;搭建基于FPGA和ARM的检测平台,并通过实验验证检测效果。实验结果表明:阻抗幅度测量的
体外反搏治疗高原地区椎动脉型颈椎病29例疗效观察青海省人民医院体外反搏室吕雪梅,张秀芳我院自1988年6月起开始应用体外反搏装置治疗多种缺血性疾病,其中典型的推动脉型颈椎病29例,总有
多标记分类问题广泛存在于现实的各种应用中,例如图像注释、文本标注、生物信息基因学、医疗诊断和金融分析等。其中,生物学、医疗诊断和金融分析等应用要求分类模型可以从训