现代汉语重叠式的识别及统计分析

被引量 : 0次 | 上传用户:wait689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代汉语形态缺乏,但重叠式还是比较丰富的。根据大规模语料调查显示,重叠式的能产性和派生性极强,利用重叠形式创造出的重叠新词数量在现代汉语中的比例仍然呈上升趋势,因此对重叠式的研究不能仅仅局限于语言理论的层面。本文将研究的着力点放在了语料库中的重叠式,进行了重叠式的抽取、切分不一致的比较、重叠式识别和统计等一系列研究。本文首先对重叠式进行了较为系统的考察,包括与重叠式相关的几个概念的辨析,汉语词典和三大词表中重叠式的分布等情况,为下文识别和分析重叠式打下理论基础。通过对《现代汉语词典》及词表进行统计分析,从中发现一些语言学现象,并对《现汉》中重叠式的收录问题进行了初步探讨,提出了一些改进的意见。其次本文对重叠式的切分错误统计及分析,该部分研究的对象有两个,一个是现有的分词语料库,另一个是成熟的分词软件。分别对它们的重叠式切分错误进行统计,并试图分析其切分错误的原因。文中以翔实的数据说明,重叠式切分上,流行的分词软件在错误率高达8%至48%,经人工校对后的分词语料库错误率也达到1%至11%(均依重叠类型和语料类型而有不同)。本文通过引入正则表达式和CRF统计模型进行重叠式的识别研究。重叠式的识别工作主要有三个步骤,一是利用正则表达式提取重叠式的候选,二是利用词表过滤辅以人工校对的方法对重叠式候选进行筛选,三是利用CRF模型对重叠式的所属类型进行判定。识别结果表明,利用CRF对各种重叠式的判定正确率都能达到95%左右,是一个相当不错的结果。文章最后利用前文研究产生的数据,对重叠式进行统计分析,试图分析其中隐藏的语言学现象。我们发现重叠现象与语体的庄重程度和语体语言的主观性程度有密切的关系,基式频率高于重叠式频率,不同重叠式之间的频率也有明显差异等等。这些规律的发现,对于语言学本体的研究有很好的参考价值。本文的研究启发我们从新的角度研究重叠式,提高了我们对重叠式的认识,在一定程度上深化了重叠式的研究。
其他文献
现代社会中,科技的迅猛发展、经济全球化进程的加快、社会体制的不断改革和突破、社会竞争的日趋激烈,使企业员工面临着较大的工作压力。过度的工作压力会使员工的心理、生理
勘探实践表明,碳酸盐岩是油气的重要储层,但由于碳酸盐岩沉积时代久远,经历多次构造运动,遭受强烈的风化,剥蚀和淋滤作用,地层的非均质性极强,导致碳酸盐岩储集岩的定量评价成为困扰
基于协作干扰机制,研究了分布式无线网络中,节点采取怎样的交互与合作策略能提升其物理层安全传输性能.该问题被建模成一个联盟形成博弈,并引入享乐设置,在此基础上提出一种
随着现代化教学的不断推进,多种新型教学模式应运而生。近年来,学校与企业的合作教学模式越来越受到重视,为高校培养应用型人才提供了一种新的途径,促进高校教学理论与实践的
为了满足国家电网公司总部提出的建设国际一流的科技创新体系的要求,加快推进公司科技资源共享和成果评估业务开展,提出了建设科技资源共享平台的要求。利用该平台可以实现公
<正>二十世纪下半叶以来,随着科学技术的飞速发展,人类与大自然的关系日趋紧张,自然遭到前所未有的破坏。同时人类自身的精神面貌也发生了改变,传统美德丧失,人性泯灭,生态危
期刊
分析了突发公共事件及其对通信系统的影响;提出了一种应急通信系统的参考模型,介绍了应急通信与网络技术,并针对近几年国内发生的突发公共事件反映出的应急通信需求,分析了国
新课程改革以来,小学语文教学出现了一些新情况:有的教师对新的教学目标把握不够全面,有的小学语文教师忽视了专业化成长。孙双金老师是江苏省小学语文特级教师,也是一名具有
化学习题作为化学教科书的重要组成部分,是化学教学过程中组织学生学习实践活动的一种重要形式。保证化学习题的科学性是其发挥功能和作用的前提条件。本文研究中学化学习题