SVD优化初始簇中心的K-means中文文本聚类算法

来源 :系统仿真学报 | 被引量 : 3次 | 上传用户:white2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了改善传统K-means算法在聚类过程中,聚类数目K难以准确预设,聚类结果受初始中心影响,对噪声点敏感,不稳定等缺点,同时针对文本聚类中文本向量化后数据维数较高,空间分布稀疏,存在潜在语义结构等问题,提出了一种利用奇异值分解(Singular Value Decomposition, SVD)的物理意义进行粗糙分类,再结合K-means算法的中文文本聚类优化算法(SVD-Kmeans)。新算法利用SVD分解的数学意义对文本数据进行了平滑处理,同时利用SVD分解的物理意义对文本数据进行粗糙分类,将分
其他文献
养殖池塘水质调控的常规方法有合理施肥、调节水位、科学增氧、定期搅动塘底、施用改良剂和采用生物方法等。1合理施肥施肥应贯彻抓两头(春秋两季水温低时多施有机肥料)、带
1 病例资料rn[例1] 男,19岁,以双膝关节包块2年就诊.查体:双胫腓骨近端及远端、双股骨近端及远端、双尺桡骨远端、双肱骨上端、肋骨触及多个大小不等的骨性突起,质硬,无活动,
将纤维素滤纸经碱处理、环氧活化、偶联IDA、固定化Cu++后制得大孔纤维素亲和膜.以BSA为目标蛋白,研究亲和膜吸附蛋白质的性能,对亲和膜的流速与负压、亲和膜性能的稳定性进
配电网中接入分布式发电装置(DistributedGeneration,DG)的种类、位置和容量会严重影响电网的运行,如不合理规划,对电网的正常运行会产生负面影响。当配电网接入新DG时,研究如何进行合理的选址与定容,以配电网购电费用、DG运维费用和DG补贴费用之和最小为经济性目标,以节点电压稳定性指标为稳定性目标,采用归一化权重方法处理多目标优化问题;以某地实际配电系统为例,对节点进行评估,确定D
11月20日,山东能源淄博矿业集团铁运处申报的"矿区铁路车地联控智能预警系统建设研究"项目通过中国煤炭工业协会组织的技术鉴定。该项目根据企业铁路在线路、道口、车站等运输
在水产健康养殖过程中,了解无公害精养池塘水体中存在的主要有害污染物质,掌握水质调控关键技术,对保证养殖安全和产品安全尤为重要。以下从两个方面介绍无公害精养池塘水体
近年来,随着大跨径、长悬臂、高耸建筑的飞速发展和普及,施工要求混凝土能远距离、高扬程地泵送。施工单位需综合考虑不同地区原材料供应情况、现场施工操作等各种因素确定混
我院自2005年7月至2010年7月对小儿外耳道异物在芬太尼与异丙酚静脉复合麻醉下进行取出术,收到良好的麻醉效果,现报告如下:rn1 临床资料rn1.1 一般情况 选择ASA Ⅰ-Ⅲ级的病
采用天甲橡胶(MG49)对CaCO3进行改性,研究改性方法、MG49用量及硫黄促进剂用量对MG49改性CaCO3补强杂胶标准胶的物机性能的影响.结果表明:MG49对CaCO3的表面改性是有效的,当M
牛创伤性网胃腹膜炎,是由金属异物(针、钉、碎铁丝等)混杂在饲料内,被牛采食吞咽落入网胃,导致急性或慢性前胃弛缓,瘤胃反复膨胀,消化不良.