论文部分内容阅读
本文以现代汉语口语与书面语的“过渡状态”——准口语为研究对象,在大规模真实语料的支持下,在对准口语与书面语以及不同类型的准口语之间进行对比分析的基础上,对现代汉语准口语的用字、用词情况和特点作了尽量详尽的动态描写和计量分析,并试图在此基础上探索现代汉语书面语、口语的自动文体判断规则与方法。全文共分五章: 第一章 概论 本章首先概述了准口语的概念和性质、意义与研究方法。在对口语和书面语进行了系统区分的基础上,对本文的研究对象——准口语——进行了定义,即不同于完全自然口语的、带有人为加工痕迹的口语。准口语不同于书面语,也不同于完全自然状态下的口语,有独特的研究价值和意义。目前口语研究多为经验性的研究,本文主张在以往经验性研究的基础上,利用大规模语料库结合基于规则的方法,对准口语进行定量与定性分析,从语料库中发现问题,用语料库所提供的数据分析问题。 第二章 现代汉语准口语语料库的设计与建立 本章简述了建立现代汉语准口语语料库的目的、语料选取原则、语料类型与结构、语料库自动分词与标注的基本情况。本章在考察和借鉴了目前已有的现代汉语口语语料库的基础上,提出了“准口语语料库”的概念,并对服务于本研究的550万字的现代汉语准口语语料库的建立、加工过程和情况做了介绍。 第三章 现代汉语准口语的字频分析 由于汉字与汉语音节的对应性,考察汉字的情况,实际上反映了口语中音节的使用情况。从这些高频字作为最常用的单音节词使用来看,其中代词的比例很大。从音节结构来看,高频字的音节总体上比较简单。最高频字“的”的频率随准口语类型逐渐接近日常自然口语而逐渐降低。准口语总用字数在2000左右,六种准口语类型中出现1—2次的最低频字平均为589字,占总字种数的近30%。 第四章 现代汉语准口语的词频分析 不同准口语类型的人名、地名、商标、机构名、数字、英文字符等具有不同的使用情况和特点。准口语中后缀的使用较少,且切分错误较多。六种类型的准口语前20位高频词的累积覆盖率平均为27.71%,高频词多为单音节词。只出现1—4次的低频词数占总词条数的比例平均高达68.39%。由高频词的高覆盖率及低频词的高词种数,我们得出了准口语用词比较简单的结论。 第五章 准口语特征与讨论 重叠形式词语、“子”后缀词、“说”系列词等从形式、内容、功能等方面体现了口语特色。后缀“们”的不同使用情况体现了各种准口语类型的口语化程度的不同。口语词也是准口语用词特色之一,应依靠口语词词库来进行判断。 结语 结语部分对本研究加以总体概括,并指出了研究中存在的不足之处,同时提出了进一步研究的设想。