基于CRF的蒙古文人名自动识别

来源 :内蒙古大学 | 被引量 : 8次 | 上传用户:daihaolr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文命名实体识别是蒙古文自然语言处理的基础课题,被广泛地应用于蒙古文信息抽取、机器翻译、文本聚类、信息检索等领域。而在蒙古文命名实体识别中人名所占的比例最大,其识别难度也较大。所以,蒙古文人名识别的研究对蒙古文信息处理具有非常重要的意义。为了能够正确的从蒙古文文本中识别出人名,结合蒙古文人名的特点和蒙古文人名的识别难点,本文最终使用条件随机场(CRF, Conditional Random Field)模型实现蒙古文人名识别系统。基于CRF模型的蒙古文人名识别系统由语料预处理、CRF模型训练、CRF模型蒙古文人名预测和系统评测四部分组成。其中CRF特征模板的设计和特征选择是影响CRF模型人名预测效果的主要因素。本文使用文中设计的6种CRF特征模板分析哪些特征利于提升蒙古文人名识别系统的性能。通过测试特征模板发现引入上下文信息和特征组合可以提升蒙古文人名的识别性能。并通过6种特征模板的对比实验发现在设计特征模板时不能过于复杂,以避免因数据稀疏而降低人名的识别效果。此外,为了进一步提升蒙古文人名的识别性能,本文在特征选择部分一共选取了7种特征,分别为拉丁特征、中间码特征、地名特征、边界特征、拼音特征、动词特征和格特征,其中边界特征由称谓特征、职位特征和职业特征组合而成。通过对比实验发现每种特征对蒙古文人名识别效果都有一定的提升。最终,融合7种特征设计出最优的CRF特征模板,使得基于CRF的蒙古文人名识别结果的F值达到92.64%,比最大熵模型高了近2个百分点。
其他文献
随着计算机技术的快速发展,网络应用已经在全球得以推广,有效地管理网络资源,科学合理地对网络资源的使用和占用进行计量,同时有效地监督和控制人们的上网行为,避免无为上网
为了解决开放式网络中网络服务的安全授权问题,Blaze等人将传统安全授权机制中的“信任”概念抽取出来作为研究对象,提出了信任管理的概念。信任管理克服了传统安全授权机制
随着计算机网络的发展,用户接入Internet的带宽越来越大,然而受Internet两个固有特性传输延时和网络丢包的影响,接入带宽成比例的提升并不能带来同比例提升的吞吐率,因而如何
P2P网络是以计算机网络为基础,采用对等模式工作的覆盖网络。P2P网络把传统的C/S模式改为每个节点处于同等地位的对等模式,任何两个人通过此网络都能直接、对等的共享文件、传
据最新统计,随着网络技术的飞速发展和互联网宽带技术的普及,目前Internet上的流媒体应用,如视频点播、视频直播等已经成为了主流应用形式。P2P技术打破了传统的传输模型,没
人名消歧是信息检索、数据挖掘等领域非常亟需解决的问题之一。目前,学术界对于人名消歧的研究已经取得了显著的成果,提出了很多人名消歧的算法。但是由于应用的领域的不同,
随着互联网的普及,互联网安全问题显得越来越突出。如何及时发现、识别各种网络威胁并保证系统安全运行已经成为当前研究的关注点之一。入侵检测系统(Intrusion Detection Sy
网格中的数据管理以命名的透明性、位置的透明性、协议的透明性、时间的透明性为目标,建立一个网格环境下数据一体化访问、存储、传输、维护的环境。它面向底层屏蔽网格中的
当前在消化道的体内极端环境中,医患双方都迫切需要提供可操控的医疗检测用可吞服式微型诊查工具。本课题主要研究医用胶囊内窥镜在人体内的无线定位,并给出了定位系统硬件电
随着Internet的发展和网上信息的愈加丰富,人们越来越依赖于网络获取需要的大量信息,搜索引擎正是在这样的背景下应运而生。然而,作为通用的信息提供工具,面对海量的互联网信