基于参考区域的k-means文本聚类算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:lzyltt8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点。针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值。理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率。
其他文献
随着工业4.0及智能制造2025规划对工业变革的快速推进,大数据在冶金自动化领域方面的应用将迎来前所未有的巨变。研究了大数据在高炉炼铁生产中排除设备隐患,延长设备生命周
科学素质是衡量国家综合国力的重要标准之一,也是国民综合素质的关键组成部分,更反映了一个国家的公民对科学知识的认识与理解水平,对一个国家而言,全民科学素质的建设有着重
<正> 一、问题的提出国营农场在生产经营活动中,流动资金是主要的周转资金。企业生产经营的效果好坏,关键在于流动资金的管理。目前国营农场在流动资金的使用上还存在着管理
<正>"我不是经济学家,只不过研究了一些经济问题。"这是清华大学公共管理学院教授、就业与社会保障中心主任杨燕绥见到《经济》记者的第一句话。眼前这位已过花甲之年的学者,
在分析了目前现有远程教育技术规范特点的基础上,提出了一种开放式内容对象的组件模型,该组件模型能给可共享Web学习内容的结构与顺序设计提供一种更为灵活高效的方法。首先
《批评的解剖》作为弗莱神话原型批评的代表著作,其中的文学循环观对他的神话原型批评理论起到重要的支撑作用。创作模式、社会语境、叙事结构这三个彼此独立而又环环相扣的
在同性恋题材的电影叙事中,角色自我人格形象的塑形离不开个体自我复杂的心理历程。象征父权秩序的缺失和身体所遭受的化学"阉割"造就着主体对象人格形象初次的塑形,当然也离
使用有限元理论模拟分析了几种不同铺层顺序的预成型体搭接复合材料的拉伸性能,并且使用国产碳纤维与快速固化环氧树脂制备相应的单下陷搭接试样,测试其搭接接头的拉伸性能,
我国2006年颁布并于2007年在上市公司使用的新会计准则中,对公允价值会计计量属性的采用是我国会计准则与国际会计准则趋同的重要标志之一。然而,由于此次席卷全球的金融风暴
与普通的数学课不同的是,数学综合与实践课程强调让学生在实践中学习数学、应用数学对学生的潜能和智慧进行充分的挖掘,使学生能够将数学知识与实际生活联系起来。在数学综合