基于条件随机场的互联网文本命名实体识别研究

来源 :中原工学院 | 被引量 : 2次 | 上传用户:janebudian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,交流方式越来越趋向于网络平台,比较明显的有微博、网络新闻、评论等,这些都属于互联网文本,其形式各种各样。从文本中如何获取有效信息,是目前比较关注的问题,随之而来的命名实体识别就是提取有效信息的一种技术。命名实体识别是从文本中识别出人名、地名、机构名等专有名词,是自然语言处理的一项关键技术,同时也是文本信息处理的重要基础。至今为止,对文本进行命名实体识别较为普遍的方法有三种:基于统计的方法、基于规则的方法、规则和统计结合的方法,三种方法都存在着一些不足之处,如何利用好三种方法进行命名实体识别尤为关键。本文采用统计和规则相结合的方法对互联网文本进行命名实体识别。首先对文本进行规范化,再使用CRF模型,以词、词性、上下文信息等特征进行训练,结合互联网文本的不规范性、随意性和娱乐性等特点,以及若干匹配规则对文本进行命名实体识别。其中在去噪部分使用了新的方法,特征模板组合及参数的选取优化了条件随机场模型,实验结果表明,该方法能够有效的进行命名实体识别。
其他文献
毛泽东伦理思想是毛泽东思想体系的重要组成部分。新中国成立后,对毛泽东伦理思想的研究大致可分为三个阶段,所研究的问题主要集中在关于毛泽东伦理思想的来源、产生和发展,
<正>提起"一带一路",你会想到什么?是被誉为"钢铁驼队"的中欧班列,还是吞吐量增长迅猛的商贸港口?是遍地开花的中企海外工厂,还是影响深远的孔子学院?近日,中央电视台给出了
【正】 我院自1952年建校以来,至今已有35年,值此校庆之际,回顾一下我院科研工作的历程不是没有意义的。文革以前的十四年,受各种条件的限制,科研虽有开展,但成果较少。十年
乐视于2010年8月12日在中国创业板上市,成为中国A股最早上市的视频公司,然而经过几年经营,自2017年6月29日始,乐视被各家银行起诉由法院冻结了相应的资产,究其原因,在于乐视
【正】 现代外语教学的着眼点是外语能力的培养。外语能力是一个完整的系统,培养外语能力,必须从整体上加以考虑。一、科学地认识外语能力(一)、外语能力是语言能力和交际能
沃尔波尔执政期间,对内巩固汉诺威王朝的政治稳定,发展英国经贸,对外坚持和平的外交政策,避免英国参加欧洲战争,维持欧洲均势,保护英国的商业利益。和平外交政策保证了英国政
传统英语教学以培养语言技能型人才为主要目标,这样的人才培养模式已经滞后于社会发展的要求。因此,必须对高职院校传统的英语教学进行改革,新的培养目标和培养模式应立足于
非正式学习逐渐成为信息时代人们学习知识的重要途径,社会性软件的个性化和社会化的统一为非正式学习提供了工具支持。在充分认识社会性软件和非正式学习本质的基础上,通过提
在学习型社会的构建中,实施终身教育体系已成为当务之急,而普通学校教育的发展水平和教育模式,很难独自承担这一体系的构建。广播电视大学以其多年实践经验及理论研究基础,非常准
目的:观察托吡酯治疗结节性硬化症合并癫痫患儿的临床疗效。方法:将诊断明确的7例结节性硬化症合并癫痫患儿用托吡酯治疗,用药24周后评价其疗效。结果:接受托吡酯治疗的最小剂量