多源数据的中文命名实体识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：lho001

【摘要】

：

命名实体识别技术对机器自动翻译、问答系统、搜索引擎、信息抽取和文本分类等有重要作用。由于中文内在的特殊性质，识别难度大于英文。本文从数据源的角度出发，针对各种不同数

【作者】

：

余玉宝

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

命名实体识别条件随机场多源数据自动模板抽取短文本模板匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

命名实体识别技术对机器自动翻译、问答系统、搜索引擎、信息抽取和文本分类等有重要作用。由于中文内在的特殊性质，识别难度大于英文。本文从数据源的角度出发，针对各种不同数据源的特点，分别进行了中文命名实体识别研究，并实验总结了较为适合的识别方法。　　对条件随机场相关理论进行了研究，分别对人名、地名和组织机构名提取了相关特征，训练了条件随机场命名实体识别模型。研究并实现了自动模板抽取的命名实体识别方法，对模板识别、模板匹配等过程，提出了效率较高的算法;对于实体过滤，提出了过滤规则与贝叶斯分类器结合的方法。　　长文本包括新闻类文本和机构类网站两大类数据源，本文采用了以上两种识别方法，分别对两种数据源进行了研究。研究表明，新闻类文本采用条件随机场能达到较好的识别效果，而机构类网站则更加适合采用自动模板抽取进行识别。　　以微博为代表，对短文本数据源进行了实体识别研究和实现。提出了以条件随机场为基础，辅以规则过滤、微博结构分析及用自动模板抽取进行结果提升的命名实体识别方法，达到了较好的识别效果。　　

其他文献

文本的情感极性分析关键技术研究

随着web技术的快速发展，网站的交互性越来越强。人们开始从单纯的信息接收者，转变为信息的生产方。网络上存在着大量的文本数据，并且每天都在不断增加。比如facebook等社交媒体

学位

文本数据情感极性特征提取神经网络算法分类准确率

一种可灵活配置的存储系统的研究和实现

学位

蓝天数控系统零件加工库的设计与实现

随着现代计算机技术的飞速发展，数控技术也日趋成熟。为数控产品设计并实现零件加工库是提高生产效率和产品质量的一种有效方法。零件加工库能有效缩短产品的设计和生产周期，提

学位

蓝天数控系统零件加工库参数验证轨迹仿真

平面波非局部映射和SBS方法的并行实现

学位

Web性能测量系统设计与实现

随着Web的发展和Web复杂性的提高，越来越多的用户开始遇到诸如Web页面加载缓慢的Web性能问题。Web性能的好坏直接影响着业务的成败，对于提供商企业和用户都十分重要，因而有必要

学位

网络性能测量网络中间点容器对象识别内嵌对象关联测量系统HTTP请求

基于半监督学习的交联二肽鉴定算法研究

目前，化学交联质谱技术已成为研究蛋白质结构与蛋白间相互作用的主流技术。虽然近几年交联质谱技术有了很大的发展，但由于交联二肽的搜索空间巨大，在计算方法方面的研究相对滞后

学位

交联蛋白质交联二肽鉴定算法搜索流程半监督学习

卷积网络在图像感知分类中的应用研究

人类接受的大量信息都是通过视觉系统加工处理而产生的。图像是一种重要的视觉信息，具有形象、直观、内容丰富等特点，是视觉媒体信息中重要的一种。对图像内容的理解与感知已经

学位

图像感知分类特征提取深度学习卷积神经网络

基于P2P的充媒体内容分发关键技术研究与应用

学位

基于深度学习的噪声鲁棒远程监督关系抽取算法研究

学位

基于领域知识的微博特定事件发现

特定事件是指涉及大众的生命和财产安全，对人们的生活产生重大影响，并在互联网上广泛传播和扩散的公共安全事件。对特定事件进行快速检测和发现，为有关部门快速应对和处置争取到

学位

微博数据特定事件短文本扩展触发词挖掘多媒体融合检测系统

多源数据的中文命名实体识别研究

与本文相关的学术论文