基于变换的中文姓名识别技术探讨

来源 :1998中文信息处理国际会议 | 被引量 : 0次 | 上传用户:murrayxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文尝试了利用基于变换的方法识别中文姓名。设计了5类变换模板,利用基于变换的算法,获取了460条有用的识别姓名规则。他们从新闻和政务信息语料库中,抽取了400个含中文姓名的句子作为训练集。封闭测试结果,召回率达87℅,准确率达96℅。
其他文献
目前在世界许多发达国家和地区,作为知识经济基础的信息资源产业IRI(INFORMATION RESOURCE INDUSTRY)对经济增长的贡献率已达到或超过50%,总产值超过一万亿美元。这使许多国
该文介绍了一种针对中文校对软件的标准评测系统的构造方法,其中包括评测指标的确定及标准评测集的建造。该评测系统是由IBM中国研究中心在开发中文校对系统CEC时建立起来的,并贯穿应
本文通过对中国18家数据新闻团队的半结构化深度访谈和对6个代表性数据新闻专栏的内容分析,研究中国数据新闻的发展现状、问题与趋势。研究发现,截至2015年12月底,数据新闻生
该文介绍了对中文校对系统所侦测出来的错误字串提供修改建议的算法。这个算法已应用在IBM中国研究中心研究的中文校对系统CEC中。它首先根据字形、字音、字义或输入编码相近的原则
会议
该文通过对中文文本错误的分析、采用语料库语言学的思想和词语的模糊匹配技术,设计并实现了一个中文计算机辅助校对系统。
随着Internet在中国各地广泛开通,在其上开发便于广大网络用户使用的中文信息交流工具显得十分重要。该文介绍用于此目的的虚拟键盘的设计、运行环境,智能输入系统的设计思想与
真实文本中的未登录词辨识是中文信息处理中的新问题。该文讨论了文本局部统计在汉语未登录词辨识中的应用,探讨了局部缓冲大小和未登录词辨识性能之间的关系,并给出了一种局部