多源数据的中文命名实体识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lho001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别技术对机器自动翻译、问答系统、搜索引擎、信息抽取和文本分类等有重要作用。由于中文内在的特殊性质,识别难度大于英文。本文从数据源的角度出发,针对各种不同数据源的特点,分别进行了中文命名实体识别研究,并实验总结了较为适合的识别方法。  对条件随机场相关理论进行了研究,分别对人名、地名和组织机构名提取了相关特征,训练了条件随机场命名实体识别模型。研究并实现了自动模板抽取的命名实体识别方法,对模板识别、模板匹配等过程,提出了效率较高的算法;对于实体过滤,提出了过滤规则与贝叶斯分类器结合的方法。  长文本包括新闻类文本和机构类网站两大类数据源,本文采用了以上两种识别方法,分别对两种数据源进行了研究。研究表明,新闻类文本采用条件随机场能达到较好的识别效果,而机构类网站则更加适合采用自动模板抽取进行识别。  以微博为代表,对短文本数据源进行了实体识别研究和实现。提出了以条件随机场为基础,辅以规则过滤、微博结构分析及用自动模板抽取进行结果提升的命名实体识别方法,达到了较好的识别效果。  
其他文献
随着web技术的快速发展,网站的交互性越来越强。人们开始从单纯的信息接收者,转变为信息的生产方。网络上存在着大量的文本数据,并且每天都在不断增加。比如facebook等社交媒体
学位
随着现代计算机技术的飞速发展,数控技术也日趋成熟。为数控产品设计并实现零件加工库是提高生产效率和产品质量的一种有效方法。零件加工库能有效缩短产品的设计和生产周期,提
学位
随着Web的发展和Web复杂性的提高,越来越多的用户开始遇到诸如Web页面加载缓慢的Web性能问题。Web性能的好坏直接影响着业务的成败,对于提供商企业和用户都十分重要,因而有必要
目前,化学交联质谱技术已成为研究蛋白质结构与蛋白间相互作用的主流技术。虽然近几年交联质谱技术有了很大的发展,但由于交联二肽的搜索空间巨大,在计算方法方面的研究相对滞后
人类接受的大量信息都是通过视觉系统加工处理而产生的。图像是一种重要的视觉信息,具有形象、直观、内容丰富等特点,是视觉媒体信息中重要的一种。对图像内容的理解与感知已经
学位
学位
特定事件是指涉及大众的生命和财产安全,对人们的生活产生重大影响,并在互联网上广泛传播和扩散的公共安全事件。对特定事件进行快速检测和发现,为有关部门快速应对和处置争取到