论文部分内容阅读
《红楼梦》是我国古典文学作品的瑰宝,如果要选一部中国艺术文学作品推向世界《红楼梦》是不二之选,但这部文学巨作的作者归属自其成书200多年以来一直悬而未决,也许正是基于这个原因至今《红楼梦》的作者问题仍是人们关注的热点。毫无疑问,已有许多研究者运用各种分析方法对这一问题进行过认真研究并得出了各种判断结论,在这诸多结论中被大家普遍接受的是:《红楼梦》前80 回由一人所写后40回也由一人所写,但前后不是同一人。考虑到前面大多数的分析研究都是基于比较传统的统计学习方法(比如假设性检验),在此基础上对《红楼梦》作者问题所下的各种结论均是缺乏一定的可靠性,又考虑到伴随着大数据时代的来临机器学习被广泛应用,抱着“与时俱进”与改进实验分析技术的想法,本研究打算借助R语言对《红楼梦》进行文本分析并按本文作者所创造的甄选原则选取出100个高频词汇作为作者写作风格的用词特征,以此来获取实验数据;再从机器学习的Bagging、Adaboost、Rotation Forest三个角度出发分别对《红楼梦》作者归属问题进行分类研究。分析表明,Bagging、Adaboost、Rotation Forest的实验结果呈现出一致性,即《红楼梦》前80 回与后40回在写作风格上有明显差异,从技术角度确定了《红楼梦》前后由不同两人完成,运用信息技术手段佐证了大家对《红楼梦》的普遍认识。