基于频繁特征词语集的文本聚类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:waxs8520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的提出和发展是最近十几年的事情,不过现实的需要使得其发展速度非常迅速。数据挖掘技术是通过计算机技术,在多个学科的知识和技术基础上,从大量的实际数据中,分析挖掘出潜藏的人们没有发现的知识的技术。数据挖掘技术的诞生是在原来数据库技术和数据仓库技术的基础上进一步的提高,满足了人们对大量数据的分析型处理的需要。尤其在现代社会信息化高速发展的形势下,数据挖掘技术获得更为广泛和深入的关注和研究。文本聚类技术是数据挖掘技术中一种,按照数据挖掘的任务和目标,文本聚类技术属于聚类挖掘领域;按照数据挖掘的数据来源,文本聚类技术属于文本挖掘领域。随着信息社会和互联网的发展,文本文档信息正以高速度增加。文本聚类技术在人们对文本文档进行查询、收集、浏览等方面发挥了重要的辅助作用,所以显得日益重要。本文的研究目标是:进行数据挖掘技术、挖掘频繁特征词语集技术、文本聚类技术研究;提出改进的挖掘频繁特征词语集方法用以改进基于频繁特征词语集的文本聚类技术,并在具体实现上做出优化。本文综述了文本聚类技术研究现状;对相关的数据挖掘的基本概念、基本定义和基本定理进行了阐述和解释;以传统的Apriori算法挖掘频繁特征词语集的方法为比较,提出了新的改进的基于链表和矩阵的频繁特征词语集的挖掘方法,做了定性的分析;在基于频繁特征词语集的文本聚类方法中利用基于链表和矩阵的频繁特征词语集的挖掘方法替代传统的Apriori算法挖掘频繁特征词语集的技术生成频繁特征词语集,具体实现中,面对计算信息熵相同的情况下,比较频繁特征词语集的目数选定类别,信息熵和目数均相同的时候,以计算顺序选定类别,给出了实验过程和结果分析;文章最后进行了研究工作的总结,对相关的需要进一步深入的研究方向进行了展望。本文主要改进工作是以下两点:(1)对比传统的Apriori算法挖掘频繁特征词语集的方法,提出了新的改进的基于链表和矩阵的频繁特征词语集的挖掘方法,提高了生成频繁特征词语集的效率。(2)利用新的改进的基于链表和矩阵的频繁特征词语集的挖掘方法替代传统的Apriori算法挖掘频繁特征词语集的方法对基于频繁特征词语集的文本聚类方法进行改进,在具体实现中做了优化,面对计算的信息熵相同的情况下,比较频繁特征词语集的目数选定类别,信息熵和目数均相同的时候,以计算顺序选定类别。
其他文献
自从1982年波兰科学家Pawlak首次提出粗糙集理论以来,粗糙集理论正在赢得越来越多研究人员的关注,关于粗糙集的研究成果层出不穷,并已经被成功地应用于自动控制、医疗诊断、
现代信息技术的快速发展需要更好的图像检索技术来应对海量图像数据的检索。基于内容的图像检索随之被提出并迅速发展起来。它包括基于全局特征的图像检索和基于区域特征的图
本文在综合分析国内外微机监控技术现状的基础上,结合可再生能源分布式发电相关专业知识,应用分布式计算机测控技术、数据采集及通信技术、孤岛检测技术、卸负荷技术和逆变并网技术,通过硬件和软件的设计,实现了可再生能源分布式发电站的监控。系统采用分层分布式的结构,第一层为监控中心微机,第二层为发电站监控微机,第三层为环境参数监控微机,信号采集控制监控微机和发电单元监控微机。第一层与第二层采用GPRS-Int
随着计算机科学技术的发展,电子商务、电子政务、电子金融得到广泛应用,人们希望通过互联网进行迅速的、远距离的贸易合同的签名。因此,数字签名技术应运而生。数字签名是一
我国是世界上最大的纺织品生产和出口国。过去对纺织品中纤维种类的鉴别往往依靠人工劳动,其操作步骤复杂,工作效率低,同时掺杂了人的主观因素,容易造成鉴别错误,所以,用计算
虚拟现实技术在这些年来的发展速度十分惊人,三维可视化技术被广泛地应在了许多的领域,例如计算机仿真。它能对真实世界进行三维模拟,使用户在获取信息方面变得更加轻松和直
随着我国高等教育的发展,大部分高校逐渐采用学分制教学管理模式。作为学校管理的重要环节,就业管理和服务必须与该模式相一致以协调发展。同时随着信息时代的到来和Internet
Gabor变换作为信号的一种联合时频分析工具,克服了傅里叶变换不能准确地描述一个信号的频率随时间变化情况的缺点。早在1946年,Dennis Gabor将作为傅里叶变换核的复指数函数
在康复医疗领域,现在主要以人工和机器人辅助训练两种康复方法,人工辅助训练是康复教练一对一的对病患进行康复训练的指导,但现实中往往医疗资源匮乏,机器人辅助方式又会有造
随着互联网的高速发展,其信息量和用户数也在飞速增长,人们逐渐步入了信息过载时代,信息过滤的推荐技术应运而生。近年来推荐技术在学术界成为研究热点,在工业界得到了广泛应