语境计算在词语歧义消解中的应用

被引量 : 0次 | 上传用户:wangold
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文回顾了国内外自动分词和词性标注技术的发展过程、面临的困难和已取得的进展。介绍了国内外语料库语言学发展的概况,以及在理论和方法上对语言研究的许多相关领域产生的影响。接着,详细地分析了自动分词和词性标注中两个重要的课题——分词消歧和兼类词歧义消解,对已有的研究成果进行了评述。 本课题以语料库为手段研究分词消歧和兼类词歧义消解的方法,在语境可计算的稳定性假设、特殊性假设和可计算性假设的基础上,对基于相对词频语境计算模型的算法和过程进行了改进,并完成该模型的训练、消歧自动处理和相关辅助功能的软件开发。 词库信息采用数据库存放方式,方便管理且数据重用性高。利用6年的《人民日报》语料(共1亿3756万余词次,34万5千余词型),完成了语境计算模型的训练和消歧实验,并将实验结果与中科院计算所的分词和词性标注软件——ICTCLAS系统进行了比较。 结果表明,组合型切分歧义消解的精确率比ICTCLAS系统有了进一步提高,封闭测试精确率在99%以上,开放测试的精确率为87.84%。交集型切分真歧义的消解不但精确率普遍在94%以上,而且平均错误率也比ICTCLAS系统低25%以上。兼类词消歧的封闭测试精确率为95.25%,开放测试精确率为95.21%,该结果比ICTCLAS系统的精确率提高了23.95%。根据语法制约关系优化消歧过程后,开放测试针对搭配有规律性的词语精确率可达到97.9%,比ICTCLAS系统高26.6%。
其他文献
企业形象靠文化来塑造,企业声誉靠文化来传播,企业素质靠文化来提高。追溯世界上最成功的组织,你就会发现其中成功的原因都有一个共同点,那就是有效的团队管理。本文通过对团
中国企业战略管理的实践正在挑战传统智慧。作为后发企业,中国企业在短短30年里即实现了技术和市场能力的有效追赶。然而,中国企业是在一个极其复杂且相互冲突的制度环境下取
在新的教学环境之下,面对传统音乐课堂教学存在的短板,充分运用现代信息工具,构建信息化教学课堂,是新时期初中音乐课堂教学的发展趋势,具有十分重要的应用价值。本文立足初
随着现代通信技术的飞速发展和电信市场的开放,传统的点对点脱机计费处理方式,因为计费时间长以及无法满足客户实时了解自身话费等问题,已不再能适应当今通信业对话费实时计
"90后"大学生现在已经是大学生中一个重要的群体。在新时代背景下成长起来的他们具有自身鲜明的特征:他们积极上进,虚心好学,对新生事物敏感,个性张扬,但同时也存在价值取向
<正>传承就非常困难,到底传承了什么?传承到底是什么?大部分我们看到传承都是旋律,旋律很美,我传承的旋律或者传承的节奏,但是有一个是最难传承的,就是声音本身,就是"韵"音。
为思想政治理论课教学提供学科支撑,是马克思主义理论一级学科设立的重要原因。此外,马克思主义理论一级学科的设立还有其一定的历史基础、科学基础、政治基础和学科基础。马
本文首先回顾了产业集聚与技术扩散相关理论。产业集聚理论主要以韦伯(Weber)的区位集聚论、熊彼特(Schumpeter)的创新产业集聚论、佩鲁的“增长极”理论和波特的簇群论为代
用尿素包合法从橡胶籽油混合脂肪酸中分离多价不饱和脂肪酸,用正交设计实验法对分离工艺进行研究,其最佳分离条件是:原料配比为m(混合脂肪酸)∶m(尿素)∶m(乙醇)=1.00∶1.5∶
加强中职学校学生思想政治工作,提高思想道德修养,成为当前中职学校教育的重中之重。这对于提高中职学生的素质具有非常重要的意义。本人从事职业教育近20年,在中职学校学生思想