使用互信息辅助在篇章范围内识别命名实体

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:villmid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别命名实体(本文指专有名称、未登录普通词和篇章术语)是中文处理的一个重要问题.本文采用篇章内统计的方法,计算文本文档初步切分后任意两个邻接项(包括词和落单字)的互信息,以此作为判定这两个领接项是否可能形成新的命名实体的依据.对于可能形成新命名实体的串,继续利用互信息并结合构词法向左右两个方向扩展来确定其边界.最后根据串的内部构造和篇章上下文确定命名实体的类别.
其他文献
随着互联网朝着宽带和廉价方面不断发展,处理大规模信息内容的需求与日俱增.这些需求,来自电信、金融证券、网络安全、重要信息化行业等许多关系国计民生的要害部门和领域.从
会议
本文介绍了基于DCC(Dynamic Circulating Corpus动态流通语料库)的流行语动态跟踪发布研究的基本情况.着重介绍了流行语的界定与特点,流行语的动态曲线特点和意义,计算机辅助
目的探讨小切口阑尾手术用于老年阑尾炎患者的临床疗效。方法选取2009年11月~2012年11月我院收治的老年阑尾炎患者162例,随机分为两组,甲组患者80例,采用常规切口进行手术治疗;乙
为保证和提高高等中医教育的质量,适应现代教育教学改革,引入本科生导师制。我们利用中医传承的人才优势,通过导师制的方式加强本科师资力量,搭建学生与名师的沟通平台,帮助和指导
高端人士的健康什么状况呢?患病群体呈迅速增长态势;健康问题正在不断年轻化;心理健康问题越来越突出;在CEO的生活痛苦纬度中,健康问题居前列。这是我们的调查的部分结果。
领域知识获取是文本处理技术中的一个瓶颈问题,本文提出一种领域词汇的自动获取方法.该方法采用Bootstrapping的机器学习技术,从大规模无标注真实语料中,自动获取领域词汇知
 介绍了大间隔采样积分控制方法在具有纯滞后特性的皮带配料系统中的应用,讨论了在实际应用中需要考虑的几个问题.理论分析和仿真结果表明本文所介绍的方法具有不需精确对象
目的探讨生化检验在糖尿病(DM)诊断中的应用及的临床价值。方法选择近3年来在我院检验科检测的80例糖尿病患者为研究组,以正常体检为健康者80例作为对照组,进行生化检测,对比两组
目的分析和研究糖尿病健康教育在内分泌科护理中的应用效果。方法我们选取2010年4月~2012年4月糖尿病患者186例,按数字随机表法将其分为观察组(93例)与对照组(93例),对照组患者在治
目的探究老年慢性支气管炎的有效防治方法。方法选取本院2010年1月~2012年1月收治的64例老年慢性支气管炎患者作为研究对象,合理采用药物、护理等方法进行治疗,对患者治疗效果