基于语义角色标注的微博人物关系抽取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ttgxa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络上的人物社会关系是分析人物网络行为的一类重要信息,如何高效准确地从社交网络上抽取人物关系信息,是本文研究的重点本文首先提出一种基于特征提取的人物关系分类的改进方法,然后再将这种方法应用到微博语料中,通过对新浪微博中两个用户之间的微博评论等含有二人关系的语料内容进行采集分析和过滤处理,然后进行语义角色标注和句法结构分析,提取人物关系特征,训练人物关系模版,进而实现人物关系分类本文的研究内容主要包括以下几个方面:首先,本文使用基于语义角色标注的方法来提取人物关系特征通过对中文语句语义角色标注,将两个人名实体在语句中的位置和成分以及语句结构类型作为人物关系特征,并通过上述分析进行选取核心特征词,丰富了人物关系特征的种类其次,本文实现对微博中的语料进行人物关系抽取本文使用新浪微博的API接口获取部分新浪微博语料,针对微博语料不规则不完整的特点,本文采用对微博语料进行规则填充的方法,使其符合标准的中文语句结构,再使用本文提出的改进方法对微博中的语料进行分析,抽取语料中的人物关系,对新浪微博中的人物的虚拟关系圈进行关系抽取最后,本文使用Flex技术实现微博用户人物关系网的可视化分析本文使用Flex的开源可视化框架Birdeye来实现可视化模块,构建人物关系网络拓扑图,并对于微博用户的好友活跃度分析好友性别区域分布等信息使用直方图和饼状图的方式来实现为了证实基于语义角色标注的特征提取方法的关系抽取效果,本文分别对新闻类语料和微博类语料进行实验,在新闻类语料的实验中选用ǎ人民日报ǐ语料中3000个含有两个人名实体的语句,微博类语料选用了3000个含有两个人名实体的微博语句,人工对这些人物关系进行标注,分别使用基于语义角色标注的特征提取方法和只选用上下文词集为特征提取方法进行对比实验在新闻类语料中本文提出的方法取得了的准确率和召回率分别81.17%和81.00%,选用上下文词集特征方法的准确率和召回率分别为72.32%和72.35%;微博类语料中本文提出的方法取得的准确率和召回率分别为71.65%和71.70%,后者的准确率和召回率分别为62.67%和62.60%通过实验表明无论是对于新闻类语料还是微博类语料,本文提出的基于语义角色标注的特征提取方法在人物关系抽取的问题上与选用上下文词集作为特征的方法相比都能够取得更优的结果
其他文献
信息检索作为互联网应用的重要组成部分,与人们的日常生活密不可分;而作为文本形式的web应用仍然是互联网的主流应用。如何从大量的Web文本中更加有效的检索信息,依然是许多科研
随着互联网的发展,网络安全备受人们的关注。现在的病毒木马不再单纯的以炫耀技术,破坏用户系统为目的,更多的是潜行在系统中收集数据、窃取用户私密信息以牟取钱财。为了能够长
随着互联网的发展,基于Web的eMTM (electronic Made to Measure)系统应时而生。它克服了传统eMTM系统在时间和地域上的限制,使用户可以随时随地的使用量身定制服装的服务,更
随着社交网络的规模逐渐扩大,用户量和信息量呈爆炸式增长,微博的发展则是一个很好的例证。然而,随着数据量的增大,用户要在海量信息中找到感兴趣的目标则变得越来越困难。因此,微
随着信息技术的不断发展,高校信息系统不断完善,高校教学管理越来越离不开互联网,使得教育领域的数据不断增多,大数据技术也逐渐被应用到教育领域,但传统教学管理模式多采用调查问
视频目标跟踪是计算机视觉领域的一个重要分支,它广泛地应用在军事制导、交通监控、医学诊断等多个领域,是当今热门的研究课题之一。本文以粒子滤波方法为跟踪框架,从框架本身和
随着信息化社会网络应用需求日益增长,如何实现网络的安全、有效及稳定运行是网络管理面临的重大问题。监测网络运行的实时状态作为网络管理的必要前提基础,对网络的正常运行
Web2.0技术的快速发展,使得网络成为一个公共的信息编辑和发布的平台,让每个人可以分享自己的观点、心情,其中也包含了大量的个人意见、情绪和情绪反馈。识别和度量基于时间序列
随着数字产品的应用愈发广泛,数字信息的安全问题逐渐成为人们关心的问题,其中以数字产品的版权保护最为重要和紧迫。数字水印作为保证数字信息安全的一项有效手段,已成为产业界
自古以来,中国人对建筑、城市规划、艺术品形态等都讲究成双成对,并推崇对称美,自然对文玩核桃的配对要求也非常严格。一般来讲,配对核桃的三围尺寸在不超过一毫米的情况下,越相似