基于均值密度中心估计的k-means聚类文本挖掘方法

来源 :重庆邮电大学学报(自然科学版) | 被引量 : 0次 | 上传用户:PresentScore
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘作为数据挖掘的重要研究领域,是检索有用文本信息的重要手段。通过对K-means聚类挖掘方法的基本原理和实现步骤的分析,发现随机选择聚类中心迭代初值、奇异点问题是制约其发展的技术瓶颈,针对该方法的不足,提出了一种基于均值密度中心估计的K-means聚类文本挖掘方法,采用基于均值密度的聚类中心初值估算取代原有方法的随机选取模式,设计自适应的邻域形状选择机制,用均值密度配合阈值消除奇异点。实验结果表明,提出的方法提高了K-means聚类方法的文本挖掘性能,使得文本挖掘查准率得到很大的提高,不仅强于一般K-means均值聚类方法,且和新近流行的自组织神经网络聚类方法相比也具有一定的优势。
其他文献
2001年10月15日,张学良将军因病抢救无效在美国夏威夷逝世,享年101岁。10月28日,台湾《联合报》全文刊登1990年张学良访谈录音整理稿,时年89岁的张学良向史学家郭冠英和旅美学者唐德刚亲口追述了西安事
在欧洲文坛上,曾流传着这样一件趣事。在一八三○年,当雨果的浪漫主义剧作《欧那尼》首次公演时,面对着古典主义者的激烈反对,文学巨匠巴尔扎克坚定地站在雨果一边,他亲赴剧
<正>一、总述随着社会分工不断的细分,物流业成为当前社会的支柱行业,同时也产生提供全方位服务的第三方物流乃至提供整合集约方案的第四方物流行业;冷链物流作为物流中的一
<正>近几年,在涉茶文章上,"工"、"功"二字混用的情况很普遍,不管是搜索引擎上的信息释义,还是已发表的文章,经常看到"功夫茶",而非"工夫茶"。"工夫茶"似乎因为人们的使用习惯
现如今电气是我国主要的动力来源,人们的生产生活已经离不开电气。随着人们对电气需求的增强,电气自动化成为必然的发展趋势,社会对电气工程及其自动化科技工作者的需求量也
语言是人类最重要的交际工具,人们借助语言保存和传递人类文明成果。随着外语教学与研究的不断发展,语言学家及外语教师越发重视语言学的研究及其与外语教学关系的研究。本文
着重介绍了高电压、大容量变频调速同步电动机对其绝缘的技术要求及整个研究过程 ,确定了具有代表国内最先进水平的定子绝缘系统
<正>艾瑞即将发布的《2014年中国商业银行互联网化研究报告》显示,2013年中国商业银行电子银行交易笔数超1000亿笔,电子银行交易笔数替代率达79.0%,股份制商业银行替代率高于
食品快速检测技术在食品安全领域越来越受重视和广泛应用。针对以往食品快速检测技术课程教学中存在的一些问题,教学改革从课程内容选取、实训教材改革、强化"以学生为主体"
针对分布式光纤振动传感系统的大传感数据流,提出一种时间周期压缩与传送技术,采用扰动脉冲特征值提取模块对扰动脉冲特征值进行同步提取,并将无关数据剔除,大大压缩了数据量