面向中文文本的命名实体识别算法研究

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:harddisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理中一个重要的基础任务,旨在自动识别文本中具有特定意义的实体名词,通常包括人名、地名、机构名等。命名实体识别能够将非结构化的数据转为结构化数据,使计算机像人类一样对文本信息进行理解,在知识图谱、问答系统、搜索引擎等领域有着重要的应用价值。但在中文领域的命名实体识别中,由于汉语自身的特性,仍存在许多难题,主要包括:(1)汉语文本的词语之间没有边界,因此命名实体的识别效果严重依赖于分词的准确率。(2)中文命名实体缺少明显的词形变换特征,比如英文单词中的大小写、前后缀等。(3)多维度、跨领域的海量中文文本数据对命名实体识别的准确性提出了更大的挑战。(4)中文命名实体中存在大量缩写、中英文混用、实体互相嵌套等现象,导致命名实体的识别问题变得更加复杂。针对中文命名实体识别中的难点,本文对国内外命名实体识别技术的发展进行了大量调研。在对主流的统计学方法进行详细的分析之后,结合当前深度学习的技术特点与优势,指出利用深度学习与统计学方法构建混合模型来解决中文命名实体识别问题的改进方向。本文的研究内容主要包括如下两方面:(1)提出了基于多源嵌入与混合模型的中文命名实体识别方法。为了解决中文词边界模糊的问题,使用了基于单个字符的标记策略。针对该方法中单个字符语义信息不足的问题,使用基于大规模的外部语料预训练的方式对字向量的初始化进行多源嵌入。构建了双向长短期记忆网络与条件随机场的混合模型,通过对两者进行组合从而互相弥补了各自的不足。通过设计多组对比实验,对该模型在命名实体识别任务中的性能表现进行了深入的研究,逐步证明了该混合模型中各个部分的有效性。(2)提出了引入字符增强及注意力机制的中文命名实体识别模型。针对中文命名实体缺少内部拼写特征的问题,提出一种基于卷积神经网络的方法对中文字符进行额外的特征提取,并对卷积神经网络的架构设计做了研究。在此基础上,为了同时利用更多特征信息并解决最终字向量维度过大的问题,在不增加额外计算量的前提下,设计了基于注意力机制的向量自动组合方式。最后通过实验证明该方法在命名实体的识别中达到了更好的效果。实验表明,在不需要额外领域词典和手工制作特征的前提下,该方法取得了较高的识别性能,总体F1值达到了91.11%,优于传统的统计学方法以及相关文献的深度学习方法,能够很好地应用在当今大数据背景下的中文命名实体识别任务中。
其他文献
把数学文化融入到学习内容中,做好数学发展史在高中数学教学中的渗透,是我们一线的教学工作者必须要高度关注的问题。搞好数学文化教学资源的开发和利用,对于全面提高学生的
虽说金融创新是国际大趋势,但中国应当缓行。中国权证市场的泡沫表明投资者对新的金融产品有着强烈的追捧意愿,而且对金融产品的风险特征不是很熟悉 Although financial inn
同是捐赠行为,同一个事件、不同企业、不同时间点,其对社会责任绩效的影响差异很大。而且同是捐赠行为,同一个企业、不同事件、不同时间点,其对社会责任绩效的影响也是非常不
基于平行语料库的研究发现,《呐喊》汉英翻译过程中有疑问标记"?"缺失或添加的现象,疑问句(尤其是反问句)可译为否定句、感叹句及陈述句,而部分非疑问句,主要为感叹句、带省略号句
爱音乐更爱制箫,年轻的杜志阳将全部精力放在了南洞箫的制作上。面对当今喧嚣浮躁的世态,吹一曲箫,静一下心,生活就是这般美好。泉州后城“御音斋”的主人杜志阳,是一位来自
教育技术学公共课是培养高校师范生教育技术能力的一门课程.该课程是面向各师范专业的学生,教学对象复杂,因而学习者特征分析是教学开展的首要基础.本研究采用问卷和量表相结
高等师范院校《教育技术学》公共课是一门旨在培养未来新型教师具有良好信息素养,并能够胜任信息化教育的课程。以广东技术师范学院《教育技术学》公共课的开设现状为例,通过对
体育是现代社会一种特殊的文化形式,现代足球的体育传播方式在国内有着深远的发展趋势,新闻媒体作为传统的体育传播媒介,也在不断促进足球事业的蓬勃发展。本文重点分析了足
“二月兰”为诸葛菜,属于十字花科诸葛菜属,耐旱、耐寒,抗盐碱,是一种优良的绿肥作物。盛花期时,二月兰生物量最大,鲜草产量超过22.50 t/hm^2,植株体全氮(N)、全磷(P)、全钾(K)养分
闭海或半闭海特殊的地理特征决定了人类应该更加重视在该区域的环境保护。近年来,全球合作、双边合作保护闭海或半闭海区域海洋环境的弊端日益凸显,闭海或半闭海制度为创新此