基于HSK动态作文语料库的留学生作文词熵统计分析

来源 :华侨大学 | 被引量 : 0次 | 上传用户:nooneknow7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
索绪尔指出,语言是一种社会现象,是一种表达观念的符号系统。在汉语作为第二语言的教学过程中,我们发现汉语水平较低的学习者掌握的词汇数量有限,写作中使用词汇范围小,而中高级的学习者一般不受常用词的限制,往往使用的词汇更多样。这种语言文本中符号的使用与信息量有关,信息熵的计算可以应用于任何类型的频率分布。本论文以北京语言大学“HSK动态作文语料库”为研究基础,从语言的信息属性出发,结合计量语言学、信息论、协同语言学等指导理论和观点,运用书面汉语“词熵”的原理和计算方法,对经过分词、标注词性的中介语熟语料进行词频、词熵统计分析。本研究从熵的角度考察了留学生作文在“国别”和“体裁”两方面词汇使用的共性与差异,并在此基础上从词汇计量研究层面的词汇多样性、词汇重复率、词汇独特性和高频词等方面对留学生作文词汇使用情况进行了描述分析。统计结果显示,词熵在不同国别和不同体裁的留学生作文之间有的存在显著性差异,有的不存在差异。其中(1)日、韩两国籍作文词熵不存在显著性差异,其余国籍词熵均存在显著性差异;(2)记叙文体与议论文体词熵不存在显著性差异,书信文体与记叙、议论文体均存在显著性差异。通过其他词汇测量指标进一步发现,文本的词熵存在显著性差异,则两个文本的词汇使用丰富度上也存在差异;文本词熵不存在显著性差异,则文本的词汇使用情况也相差不大。本研究的意义在于,首次从信息熵的角度,并分别从写作者的国别和写作体裁两个方面对二语习得语料库统计分析。最终发现,词熵所反映出来的词汇使用程度以及文本词熵的共性与差异,在二语习得者使用词汇过程中也可以体现出来,也就是基于词熵的二语习得的文本研究是可行的,这也为汉语词汇的习得研究提供新的角度和思路。
其他文献
将木粉/聚乙烯复合材料进行硅烷偶联剂表面涂覆处理以改善其胶接性能.为探究胶接接头在水环境下的耐久性,利用傅里叶变换红外光谱(FTIR)和X射线光电子能谱(XPS),研究了水对表面涂覆处
文章通过对"十三五"规划中文化建设的重要论述的理解,结合出版行业面临的问题进行分析思考,提出了在新的历史起点上,必须以新发展理念引领文化建设,始终坚持公益性和经营性"
写作能力是一项重要的语言输出技能,体现着个人的思维能力和总体语言水平。然而,在我国,学生的英语写作能力一直是薄弱项,这与传统的写作教学模式不无关系。大部分学校的初中英语教师多采用背诵模板的方法进行写作教学。这种模式造成学生只会机械背诵,缺乏学习兴趣。随着计算机,信息传媒的发展,人们的交际方式和意义表达方式呈现出多模式化的特点。把语言文字作为主要交流手段的传统方式开始发生了变化,人们逐渐认识到图片、
禽心包积液-肝炎综合征(HHS)又名禽安卡拉病,1987年首次出现于巴基斯坦的安卡拉地区,是由Ⅰ群4型禽腺病毒(FAV-4)毒株引起的。高致病性FAV-4可感染各种禽类,各日龄的禽类对其