论文部分内容阅读
识别命名实体(本文指专有名称、未登录普通词和篇章术语)是中文处理的一个重要问题.本文采用篇章内统计的方法,计算文本文档初步切分后任意两个邻接项(包括词和落单字)的互信息,以此作为判定这两个领接项是否可能形成新的命名实体的依据.对于可能形成新命名实体的串,继续利用互信息并结合构词法向左右两个方向扩展来确定其边界.最后根据串的内部构造和篇章上下文确定命名实体的类别.