基于统计的汉语词性标注方法的分析与改进

来源 :软件学报 | 被引量 : 0次 | 上传用户:cwzhq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析.为了充分利用训练语料库,提高标注正确率,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进,提高了标注性能.封闭测试和开放测试的正确率分别达到96.5%和96%.
其他文献
目的:探讨地高辛血浓度>2.0ng·ml-1的原因。方法:对地高辛血浓度>2.0ng·ml-1的51例患者病历进行分析。结果:病人年龄在50~93(76±11.0)岁,平均血药浓度为(2.89±0.89)ng·ml
PMOS—2000 发电市场技术支持系统是适合中国发电市场模式的技术支持系统。它具有实时市场调度功能,包括交易管理、预计划处理、实时调度计划、即时信息发布、能量管理、电能
高温气冷堆能提供 90 0℃以上的出口温度 ,而蒸汽透平循环的工质最高温度只有 550℃左右 ,不能有效地利用高温气冷堆的高温潜力。 10MW高温气冷堆 (HTR -10 )采用的气体透平
在场发射扫描电子显微镜(FE-SEM)下观察了圆形、中空、条形和Y-形中间相沥青炭纤维的横断面结构.用流变学理论分析了纺丝过程中几种炭纤维结构的形成.提出中空纤维纺制时沥青
首先描述了两个线性控制系统间的相似性概念,这种相似性概念蕴涵了前期所给出的相似性概念。然后从大系统模型集结为背景提出模型输出跟随控制问题,研究了被控系统的标称系统与
介绍了主动网的体系结构,并对几种不同的体系结构进行了比较;分析了主动网的主要应用方向,包括网络管理、拥塞控制、多播和信息缓存;列举了为保障主动网的安全性必须考虑的几个关
对 1 2 5MW机组汽轮机转子在启停调峰过程中的应力谱和低周疲劳寿命损耗进行了计算 ,给出了五种典型试验工况下的计算结果 .根据计算结果确定了应作重点监测的五个危险点 ,指
进行了汽轮发电机定子线棒端部附近的漏磁场分析与计算,磁场计算结果同实验值基本一致.建立了股线间环流计算模型,进行了QFQS-200MW汽轮发电机定子上、下层线棒的环流分析.
文章实现混合型多概念获取系统HMCAS(hybrid multi-concept acquisition system).无论在离散值或连续值输入下,HMCAS系统都可以实现增量式教师学习.HMCAS的核心算法HMCAP基于
在分布式虚拟环境中,位于不同物理位置的多个用户或多个虚拟环境通过网络相互联结,进行信息共享和交互.该文结合作者的研究工作,从分布式虚拟环境的产生、需求和特征、模型和