论文部分内容阅读
本文是基于语料库的上海市初中语文教材的用字与用词的计量研究。全文分为五个部分。引论部分,首先介绍本文的研究思路与内容,然后概述语料库及初中语文教材研究的情况。第二部分,简单介绍一下初中语文教材语料库的建设概况,为后面的统计奠定基础。初中语文教材语料库的建设所占篇幅虽少,可在做的过程中所花的时间却是最多的。没有这个基础工作,后面的一切工作都不可能开展。第三部分,是文章的主体部分,是初中语文教材语料库用字与用词的统计与分析。在这一部分,我们详细统计教材用字与用词的情况,包括总字/词次数、总字/词种数、字/词的频率、字/词的覆盖率等。除了总体数据外,还分别统计文言文课文、现代文课文、翻译文课文等用字与用词的数据。考虑到篇幅的限制,对于用词的情况,只给出数据,未进行分析。第四部分,是问题与讨论。在这个部分里,简单讨论两个方面的问题,一个是字频与词频问题,一个是文本难度问题。第五部分,是结论与展望。在这个部分里,先总结本文统计与分析所得到的几点结论,而后展望基于语料库的教材研究的前景,提出需要进一步研究的问题。通过研究我们得到了关于教材用字的一些分析结果:1.教材用字中字的平均使用次数比词的平均使用次数多得多,字的平均使用次数是词的平均使用次数的9到10倍。2.教材用字中近四分之三属于常用字,四分之一不属于常用字;另一方面97.23%的常用字出现在教材中。从教材用字看,初中阶段语文教材一方面复习巩固了小学阶段掌握的常用汉字,另一方面又将学习更多的非常用汉字。3.翻译文课文长度比普通现代文略长,用字比较分散。翻译文课文高频常用字的覆盖率,并不像整个教材一样随着语料库规模的扩大而降低,而是保持了相对的稳定性。4.文言文课文长度比较短,用字比较分散。文言文课文的高频用字比普通课文更集中,而且是越高频的越集中。5.语料规模越大,低频字的比例越低。翻译文低频字的比例比普通现代文要高得多,尤其是占总字次的百分比。通过数据分析我们也发现了一些问题,那就是目前语文教材的编写还缺乏基于语料库统计等研究数据的科学性,随意性较大。这主要体现在:一个是不少字的复现率很低,一个是课文顺序的编排标准不够科学。