利用CRF实现中文人名性别的自动识别

来源 :2011年江苏省人工智能学术会议 | 被引量 : 0次 | 上传用户:lyyzk09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  受传统观念的影响,中国入名最后一个或两个字的用法对性别判定通常具有一定的指示作用,由此提出利用条件随机场模型来实现中文人名性别的自动识别。该机器学习方法根据人名的结构和用字信息,构建人名标注集,选择6组不同的特征模板集,利用条件随机场模型,在231 337个人名数据库中经过封闭测试,正确率可以达到89.30%,比采用朴素贝叶斯依赖人名用字进行性别识别的方法好将近7个百分点。实验证明:在人名库中识别性别,名字尾字的作用要高于姓氏用字,且女性人名性别识别的准确度要略高于男性,一般是高2至3个百分点,从机器学习的角度来说性别差异可以体现在人名用字中。通过分析实验数据总结了适合人名识别的CRF特征模板设计的一般规律,这为后续的研究工作提供了基础。
其他文献
我国的建筑业在社会迅速发展的时代大背景之下取得了巨大的发展成就,建筑工程的质量也随着建筑工艺的提升而有所保障。灌注桩后注浆施工技术已经被广泛应用,它在建筑工程施工
资源环境与经济增长间的耦合协调是区域可持续发展的重要组成部分。构建了评估能源消费碳排放与经济增长的耦合协调测算模型及其评价指标体系,并对湖南省能源消费碳排放与经
幼儿教育心理学顾名思义是幼儿教育学和幼儿心理学的结合与发展,作为中职学校幼儿教育专业的一本专业课,它其实在无形中发挥着很重要的作用。但是近些年来,中职学校幼儿教育
<正> 新疆维吾尔自治区博物馆在吐鲁番县阿斯塔那第206号墓,清理出彩绘木俑和绢衣木俑七十多件,另外还有木马残腿、木俑手脚二百件。在一个被盗掘过的墓中还发现这么多的俑,
中小学生"减负"口号已呼吁多年,但实际效果远不如预期,社会的压力已延伸至中小学教育,家长的期许、学校的声誉等因素无形之中给学生施加了难以释怀的重负。本文阐述了形成中
本文分析了南通发展现代物流业的优势与不足,根据南通发展现代物流业的整体规划及其面临的现实状况,提出了其发展现代物流业的几点政策主张。
对典型黄土丘陵区的延安、安塞和吴旗不同退耕年份植被特征、土壤水分和养分的调查和测定,研究了退耕地植被与土壤水分和养分随时间变异及其互动效应规律。结果表明,退耕初期
通过对芦苇收割机割台的研究,对比目前常用芦苇收割机割台存在的优缺点,提出了WS2000高杆芦苇收割机割台的设计方案。割台是收割机的关键部件,是分苇、扶苇机构、拨苇轮、割
借壳上市这种方式自从在资本市场出现以来,经过不断的发展,在实证界和理论界都获得越来越多的关注。本文就借壳上市这一主题为切入点,搜索、整理与该主题相关的文献,从借壳上
目的观察复方甘草酸苷治疗酒精性脂肪肝的疗效。方法选择酒精性脂肪肝患者60例,分为两组,分别给予基础护肝和在护肝的基础上加用复方甘草酸苷治疗4周,观察疗效。结果 30例治