论文部分内容阅读
索绪尔指出,语言是一种社会现象,是一种表达观念的符号系统。在汉语作为第二语言的教学过程中,我们发现汉语水平较低的学习者掌握的词汇数量有限,写作中使用词汇范围小,而中高级的学习者一般不受常用词的限制,往往使用的词汇更多样。这种语言文本中符号的使用与信息量有关,信息熵的计算可以应用于任何类型的频率分布。本论文以北京语言大学“HSK动态作文语料库”为研究基础,从语言的信息属性出发,结合计量语言学、信息论、协同语言学等指导理论和观点,运用书面汉语“词熵”的原理和计算方法,对经过分词、标注词性的中介语熟语料进行词频、词熵统计分析。本研究从熵的角度考察了留学生作文在“国别”和“体裁”两方面词汇使用的共性与差异,并在此基础上从词汇计量研究层面的词汇多样性、词汇重复率、词汇独特性和高频词等方面对留学生作文词汇使用情况进行了描述分析。统计结果显示,词熵在不同国别和不同体裁的留学生作文之间有的存在显著性差异,有的不存在差异。其中(1)日、韩两国籍作文词熵不存在显著性差异,其余国籍词熵均存在显著性差异;(2)记叙文体与议论文体词熵不存在显著性差异,书信文体与记叙、议论文体均存在显著性差异。通过其他词汇测量指标进一步发现,文本的词熵存在显著性差异,则两个文本的词汇使用丰富度上也存在差异;文本词熵不存在显著性差异,则文本的词汇使用情况也相差不大。本研究的意义在于,首次从信息熵的角度,并分别从写作者的国别和写作体裁两个方面对二语习得语料库统计分析。最终发现,词熵所反映出来的词汇使用程度以及文本词熵的共性与差异,在二语习得者使用词汇过程中也可以体现出来,也就是基于词熵的二语习得的文本研究是可行的,这也为汉语词汇的习得研究提供新的角度和思路。