基于词分布表征的汉语框架语义角色识别研究

来源 :山西大学 | 被引量 : 5次 | 上传用户:danan1414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为浅层语义分析的一种实现形式,近年来语义角色标注逐渐发展成为自然语言处理领域的一个研究热点,并被广泛应用到问答系统、信息抽取以及机器翻译等多个领域。语义角色识别是对给定句子中的目标词,自动识别出句子中的某个成分是否是该目标词的语义角色。语义角色识别是语义角色标注两个子任务(角色识别和角色分类)中首要子任务。本文只研究汉语框架语义角色的识别问题。本文基于词分布表征采用了神经网络模型,实现了可以融合多种特征的神经网络训练、测试算法。关于词分布表征(distributed representations),本文使用了目前比较流行的三种表示,其分别是C&W, RNNLM和Word2Vec。本文是将语义角色识别任务转化为序列标注问题,以字和词为标注单位分别做了研究。以字为标注单位时,本文抽取出了字特征、相邻字的组合特征、基本块特征等多种字层面特征;以字为标注单位的最好结果为50.10%;以词为标注单位时,本文抽取出了词特征、词性特征、位置特征、目标词特征、相邻词的组合特征、相邻词性的组合特征、基本块特征,以及词、词性和位置三者之间的两两搭配特征等多种词层面特征。以词为标注单位时达到72.89%,是目前汉语框架语义角色识别的最好结果。但该结果是基于正确分词时的实验结果。特别地,为了获得基本块的分布表征,本文首先构建了基于深层神经网络的汉语基本块识别最优模型。利用最优模型对输入层进行基本块识别,在此过程中选择若干隐层分别作为基本块的分布表征,将其与角色识别的神经网络模型的中间层做级联(concatenated),联合形成最后的分类模型的特征表示向量,最终该模型的实验结果达到72.89%,而不加入基本块的这种级联特征的最好结果为72.70%,说明这种级联特征还是有效的。本文的创新之处是:1)实现了可以融合多种特征的神经网络训练、测试算法;2)将基本块识别的深层神经网络模型学习到的基本块的分布表征,与角色识别任务的神经网络模型的中间层做级联,提高了模型的标注性能。
其他文献
近几年来,随着智能手机技术的进步,其相关的软件业也得到了爆破式的发展。因为Symbian OS在智能手机市场占有率上占有压倒性的优势,所以Symbian软件已经成为最为普遍的智能手
近年来,分布式拒绝服务攻击(DDoS,Distributed Denial of Service)严重影响着Internet安全,给Internet的应用和发展带来了极大危害。目前,网络流量的自相似性、时间序列分析
社交媒体拥有巨大的用户群体,这些用户在社交媒体中留下的活动记录不仅是用户行为的真实反映,同时也记录着社交媒体中的信息传播过程。为研究应急事件背景下用户行为及信息传播
地图数据在网络环境下的可视化展现是一门飞速发展、应用也越来越广泛的综合性技术,能为决策者提供各种决策信息支持,可提高决策的质量和效率。基于AJAX和WEBService实现的WE
颅面测量作为人体测量的一个重要组成部分,在人类学、解剖学、临床医学、法医学、医疗器械设计、国家安全、人体识别、生物医学工程等领域有着广泛的应用。同时,如何充分利用
学位
用户界面的设计在计算机软件系统的设计中占有重要地位。尽可能早地将用户融入到设计过程中,建立界面原型,设计和描述界面的交互行为,对于快速迭代,获取用户评估意见,提高可
无线Mesh网络是近年来一种新兴的无线局域网技术。无线Mesh网络在提供网络服务的Mesh节点之间建立路由联系,不需要每个Mesh节点都与有线网络直接连接,极大地方便了无线网络的
论文研究了用于方言转换的语音识别技术,包括说话人自适应算法、连续语流音节切分算法和基于加权有限状态转录机(weighted Finite State Transducers,WFST)的关键词识别算法。普
蓝牙是一种短距离无线通信技术,用以代替数字设备和计算机外设间的电缆连线以及实现数字设备间的无线组网。遵循蓝牙规范的设备之间能够非常方便的建立数据和语音连接。这些体