【摘 要】
:
互联网作为一个信息交流平台,其中蕴含了大量人物信息。如何有效地从海量异构网页中抽取人物相关信息是自然语言处理领域的一个重要研究内容。针对异构Web中人物信息杂乱、重
论文部分内容阅读
互联网作为一个信息交流平台,其中蕴含了大量人物信息。如何有效地从海量异构网页中抽取人物相关信息是自然语言处理领域的一个重要研究内容。针对异构Web中人物信息杂乱、重名现象和人物属性难以抽取的问题,本文提出了三种异构Web信息中人物分析的方法。首先,提出了一种基于网页视觉块划分技术的人物相关文本抽取算法。该算法采用视觉块划分技术对网页进行视觉分块,并结合视觉块的主题、文本和结构特征,使用GBDT算法实现了视觉块的分类,从而抽取人物相关视觉块中的文本信息。实验结果表明,使用视觉块划分技术并结合GBDT的人物相关文本抽取算法的F1值达到了86%。其次,提出了一种基于DPMM的人名消歧算法。该算法使用网页的词频统计向量作为输入,避免数据稀疏对算法聚类效果的影响,并能够根据网页文本的词频统计特征自动确定类别个数,同时也提出了一种基于命名实体权重增加策略来提高算法的准确度。在百度搜索引擎检索人名返回的网页集上实验,平均F1值达到了84%。再次,提出了一种基于注意力机制和Bi-LSTM的人物属性抽取算法,并将人物属性抽取转化为实体关系抽取问题。该算法使用Bi-LSTM学习句子语义特征。为了区分不同类型实体对的不同关系,提取了实体对的位置和类型特征,并结合注意力机制实现人物属性抽取。实验结果表明,该算法的召回率和F1值都达到了97%。最后,基于本文的研究成果,设计并实现了一个面向互联网的人物分析原型系统。该系统能够采集从不同搜索引擎查询人名返回的网页数据,并实现人名消歧以及人物属性抽取功能。系统测试结果表明,该系统在异构网页人物信息抽取中具有较高的准确度和稳定性。
其他文献
对地铁列车引起与地铁合建建筑结构环境振动响应进行现场测试,从时域和频域角度分析地铁列车引起合建建筑结构环境振动特性。分析地铁列车引起地铁合建建筑结构环境振动传播
隧道开挖会影响周围土体自由位移场,造成邻近建筑结构的变形与应力重分布,随着扰动软土固结,建筑结构变形持续产生。目前,既有理论方法较少考虑上部建筑结构刚度对基础变形的
本文在查阅大量资料和实地调查研究基础上,论述了新疆草地退化现状,用数据说明近年来新疆草地退化面积增大、牧草产量和草场载畜能力下降及草地生态环境恶化,指出引起草地退
河北隆尧地裂缝的发育,造成跨地裂缝建筑物的严重破坏,并已危及到当地居民日常生产与生活。因此,探究地裂缝活动下其上覆建筑物的变形破坏特征,对建筑物灾害治理及工程建设中的灾害设防具有重要意义。本文在前人研究成果的基础上,结合野外进一步调查,分析了隆尧地裂缝对建筑物的破坏形式、破坏特征与破坏机理,概化了区内跨地裂缝建筑物破坏模式,总结了地裂缝活动对建筑物的主要影响因素,并结合数值模拟计算,探究地裂缝斜角
为了反映网络型企业合作进化的研究进展,整理了关于网络型企业合作进化方面的相关文献,分析了网络型企业合作进化的动态特征,总结出激励机制、信誉与信任是促进网络型企业合作进
<正>为深入推进"改革创新、奋发有为"大讨论活动,根据关于"对标一流谋工作"的要求,3月4日至5日,晋城市财政局班子成员赴河南省新郑市、荥阳市和中牟县,就县域经济发展、产业
介绍了铝塑复合板的生产工艺、设备及原料情况,并对国内的生产现状进行了分析,为市场和生产企业提供一些参考意见.
文章针对我国农产品原产地溯源规定,以苹果为例,研究了苹果果实表面生长自然二维码的技术,设计出基于二维码和云端技术的水果身份识别技术。购买者扫描苹果表面二维码便可进
从现在到2020年,是全面建成小康社会的决胜期,要想如期实现全面建成小康社会的奋斗目标,重要突破口在于加快新型城镇化建设步伐。这就要求我们以新发展理念推进新型城镇化建
随着经济全球化进程的加快,自主创新日益成为企业提升竞争力的重要手段。目前,我国中小企业已发展成为自主创新的主体力量,但其创新能力仍然比较弱。本文针对中小企业自主创新的