论文部分内容阅读
数据挖掘的提出和发展是最近十几年的事情,不过现实的需要使得其发展速度非常迅速。数据挖掘技术是通过计算机技术,在多个学科的知识和技术基础上,从大量的实际数据中,分析挖掘出潜藏的人们没有发现的知识的技术。数据挖掘技术的诞生是在原来数据库技术和数据仓库技术的基础上进一步的提高,满足了人们对大量数据的分析型处理的需要。尤其在现代社会信息化高速发展的形势下,数据挖掘技术获得更为广泛和深入的关注和研究。文本聚类技术是数据挖掘技术中一种,按照数据挖掘的任务和目标,文本聚类技术属于聚类挖掘领域;按照数据挖掘的数据来源,文本聚类技术属于文本挖掘领域。随着信息社会和互联网的发展,文本文档信息正以高速度增加。文本聚类技术在人们对文本文档进行查询、收集、浏览等方面发挥了重要的辅助作用,所以显得日益重要。本文的研究目标是:进行数据挖掘技术、挖掘频繁特征词语集技术、文本聚类技术研究;提出改进的挖掘频繁特征词语集方法用以改进基于频繁特征词语集的文本聚类技术,并在具体实现上做出优化。本文综述了文本聚类技术研究现状;对相关的数据挖掘的基本概念、基本定义和基本定理进行了阐述和解释;以传统的Apriori算法挖掘频繁特征词语集的方法为比较,提出了新的改进的基于链表和矩阵的频繁特征词语集的挖掘方法,做了定性的分析;在基于频繁特征词语集的文本聚类方法中利用基于链表和矩阵的频繁特征词语集的挖掘方法替代传统的Apriori算法挖掘频繁特征词语集的技术生成频繁特征词语集,具体实现中,面对计算信息熵相同的情况下,比较频繁特征词语集的目数选定类别,信息熵和目数均相同的时候,以计算顺序选定类别,给出了实验过程和结果分析;文章最后进行了研究工作的总结,对相关的需要进一步深入的研究方向进行了展望。本文主要改进工作是以下两点:(1)对比传统的Apriori算法挖掘频繁特征词语集的方法,提出了新的改进的基于链表和矩阵的频繁特征词语集的挖掘方法,提高了生成频繁特征词语集的效率。(2)利用新的改进的基于链表和矩阵的频繁特征词语集的挖掘方法替代传统的Apriori算法挖掘频繁特征词语集的方法对基于频繁特征词语集的文本聚类方法进行改进,在具体实现中做了优化,面对计算的信息熵相同的情况下,比较频繁特征词语集的目数选定类别,信息熵和目数均相同的时候,以计算顺序选定类别。