基于字根法的古汉语分词模型

被引量 : 0次 | 上传用户:tangmanzhuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语分词技术,是计算语言学的一个重要研究方向,是机器翻译、文本分类、信息检索、语言合成等工作的第一个环节,同时也是自然语言处理的一个瓶颈难题。目前,现代汉语分词技术已经有了巨大的进步,某些分词系统可以达到95%以上的精确度。而古汉语分词方面的研究在国内尚无相关研究报告。本文首先基于古汉语文本的词汇特点,参考了古汉语语言学的相关知识,根据单字词占古汉语词汇的80%以上的统计信息,设计了一种基于字根算法的分词系统模型,给出了该算法的形式化描述,并与分词算法中广泛采用的最大匹配法进行效率对比。并且使用VC++实现一个简单的分词测试程序。基于语料库的分词词典的设计,直接影响分词的精度和速度,本文在简要介绍国内语料库发展后,提出了古汉语分词词典设计的几个注意的问题,并总结归纳了一些范例。另外,消除分词结果的歧义,也是分词模型的一个重要组成部分。本文介绍了古汉语分词歧义产生的原因和种类,通过归纳总结古汉语的句法特点,提出了一种基于古汉语句式的消歧策略。
其他文献
本文针对当今建筑越来越怪异、看似不可理解的趋向,选取具有代表性的日本建筑师伊东丰雄作为切入点,对其不同时期作品分别从形式、空间、场所等多方面加以分析与归纳,指出这
<正>随着新课程改革的不断深入,传统的评价观已越来越不适应新课改的实施。在语文教学中,教师往往只关心教学内容有没有按时完成,而忽略了学生的参与情况和学习状态。教师仍
佛教东渐 ,冥界地狱说亦随之传入 ,并与中土固有冥界观交汇互融。本文对隋唐五代小说中的冥界描写进行了全面、细致的考察 ,并结合汉译佛典对冥界的论述 ,系统地阐释了中土冥
《论语集注》是《四书章句集注》的一部分,是朱熹经过40多年的用心“理会”,并“逐字称等”后,才最终写定的经典之作。其注释特点有三:第一,以程氏之学为主,兼采时人之说;第
面对大规模的、高维的文本数据,如何建立有效的、可扩展的文本聚类算法是数据挖掘领域的研究热点。针对这些问题,本文对文本聚类分析所涉及的若干问题进行了较深入的研究,主
目的评价氨甲环酸对老年脊柱手术患者的血液保护效果。方法择期脊柱手术患者 80 例,性别不限,年龄65~70 岁,体重指数16~22kg/m2,ASA 分级Ⅱ或Ⅲ级,采用随机数字表法,将其分为 2
聚丙烯酰胺系微球,就是以丙烯酰胺类单体的均聚物或共聚物为骨架的微球,以其亲水性、优良的生物相容性及易于功能化等特点,被广泛用于生物分离、血液净化、免疫诊断和药物缓
目的:探讨延迟断脐带与新生儿窒息复苏的效果评价,研究提高新生儿窒息复苏成功率的方法。方法:试验组,将12例重度窒息的新生儿全部采取延迟断脐带;对照组,对同时期生产的12例
近年来,乡镇企业的重组、合资、联营和改制相当普遍,在评估业务中也有相当一部分是对集体建设用地流转的土地使用权市场价格进行评估。根据评估实践,按集体建设用地流转方式
本文以上古的"当"为例,讨论情态与将来时语法化的共性与个性。Bybee等(1994)提出,不同来源的义务义成分演化为将来时标记时,都要经历一个意向义的阶段。《史记》的证据显示,