论文部分内容阅读
《红楼梦》是中国古典小说的巅峰之作,有红学专门研究红楼梦中的文本.不同于传统的文学方法,将模式识别、聚类分析的方法应用于红学研究是一个可以尝试的方向.本文应用python的文本处理库、可视化库以及层次聚类方法等数据挖掘方法对《红楼梦》原本进行了分析.全书中“宝玉”出现3859次,次数最多;红楼梦前80回和后40回不是同一个人所写;对《红楼梦》进行社会网络分析,宝玉、贾母、凤姐是跟其他人联系最为紧密的.通过对数据的处理和分析实践了数据挖掘理论,扩展了数据挖掘技术的可用领域.