论文部分内容阅读
学科热点的研究分析,能够有效的指导学科管理工作,把握学科发展的方向。但随着信息化时代的到来,文本数据在急剧的增长,学科在任务、结构等方面也发生着变化。面对信息化的挑战,传统的学科热点分析方法很难快速、准确的处理大规模文本数据,分析学科发展的方向。因此,在面对大规模文本数据时,如何解决传统学科热点分析方法存在的问题,准确的探索学科发展方向,具有重要的研究意义。
本文以某校信息学科发展的现状及大数据技术为依托背景,在研究国内外相关文献的基础上,通过对BIRCH聚类算法中CF节点之间距离的计算方法及DNN神经网络结构进行改进,从宏观、微观两个层面对信息学科的发展进行分析研究,主要从以下几个方面展开研究。
第一,在学科发展的宏观分析中,通过分析BIRCH聚类算法聚类过程、理论基础及应用领域,针对BIRCH算法在进行文本特征计算时,欧氏距离计算方法易忽略文本数据间语义关系等问题,通过添加余弦距离对CF节点之间距离的计算方法进行了重新定义。同时,对BIRCH算法的聚类流程做进一步改进,提出了EC-BIRCH算法。通过与其他聚类算法进行实验对比,结果表明EC-BIRCH算法提高了文本分类的准确率。
第二,在学科发展的微观分析中,通过添加注意力层对DNN深度神经网络结构进行改进,改进后的DNN神经网络强调了特征词的比重,进一步对文本贡献率大的特征词进行提取。通过多个文本数据的实验结果证明,结合注意力层的深度神经网络,简称为DNN-AF模型,能够有效的对文本数据进行深度挖掘。
第三,将改进后的两种算法应用到某校信息学科发展分析中,以学科发展资料为数据基础,通过EC-BIRCH聚类算法对某校信息学科发展的主要研究领域进行宏观分析。在宏观分析的基础上,采用DNN-AF网络模型深度挖掘学科未来发展的方向。通过与SPSS软件多维尺度分析方法进行对比,本文提出的EC-BIRCH算法和DNN-AF网络模型比SPSS软件多维尺度分析方法在处理大规模文本数据的准确率、有效性等方面上更有优势。
本文以某校信息学科发展的现状及大数据技术为依托背景,在研究国内外相关文献的基础上,通过对BIRCH聚类算法中CF节点之间距离的计算方法及DNN神经网络结构进行改进,从宏观、微观两个层面对信息学科的发展进行分析研究,主要从以下几个方面展开研究。
第一,在学科发展的宏观分析中,通过分析BIRCH聚类算法聚类过程、理论基础及应用领域,针对BIRCH算法在进行文本特征计算时,欧氏距离计算方法易忽略文本数据间语义关系等问题,通过添加余弦距离对CF节点之间距离的计算方法进行了重新定义。同时,对BIRCH算法的聚类流程做进一步改进,提出了EC-BIRCH算法。通过与其他聚类算法进行实验对比,结果表明EC-BIRCH算法提高了文本分类的准确率。
第二,在学科发展的微观分析中,通过添加注意力层对DNN深度神经网络结构进行改进,改进后的DNN神经网络强调了特征词的比重,进一步对文本贡献率大的特征词进行提取。通过多个文本数据的实验结果证明,结合注意力层的深度神经网络,简称为DNN-AF模型,能够有效的对文本数据进行深度挖掘。
第三,将改进后的两种算法应用到某校信息学科发展分析中,以学科发展资料为数据基础,通过EC-BIRCH聚类算法对某校信息学科发展的主要研究领域进行宏观分析。在宏观分析的基础上,采用DNN-AF网络模型深度挖掘学科未来发展的方向。通过与SPSS软件多维尺度分析方法进行对比,本文提出的EC-BIRCH算法和DNN-AF网络模型比SPSS软件多维尺度分析方法在处理大规模文本数据的准确率、有效性等方面上更有优势。