一种基于改进的Newman快速算法的文本聚类方法

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:suzengbiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量;同时,用IDF权重计算公式来计算词语的权重,并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为O((m+n)n)。
其他文献
针对建筑工程项目施工现场职业健康安全管理和环境保护工作中的不足点,阐述了相应的改进策略及注意事项,并分析了建筑焊工的职业危害性、危险源与危险因素,提出了焊工施工作
以2,3,3-三甲基-3H吲哚为原料,与2-溴乙醇发生烷基化反应后得到N-羟乙基-2,3,3-三甲基-3H吲哚溴盐中间体,再将所得的季铵盐与方酸脱水缩合反应得到方酸菁染料.在吲哚烷基化反
随着经济和社会的发展,人们的生活水平有了大幅度提高,对于居住的条件也提出了更高的要求,出差旅游时在酒店住宿是避免不了的,近年来我国酒店行业发展的规模和质量正在逐年提
结合绿色建筑的核心体系,从节地、节能、节水、节材、室内环境、施工、运营等方面,论述了实施绿色建筑的管理方法,并分析了管理部门在工程建设各环节的控制内容,从而实现建筑
目的探讨血清癌胚抗原(CEA)、人附睾蛋白4(HE4)、糖类抗原199(CA199)、糖类抗原153(CA153)、糖类抗原125(CA125)水平联合检测在妇科恶性肿瘤诊断的临床意义。方法选取2014年6
物质溶于水时吸收或放出一定的热量,人们利用这些吸热或放热现象,制备了化学致冷袋和化学发热袋。为了增加学生的感性知识,可增加化学冰袋和暖袋的简单实用性实验。 化学冰
目的探讨病毒性脑炎(VE)患儿血清P-选择素(P-selectin)、神经元特异性烯醇化酶(NSE)、可溶性血管细胞黏附分子-1(sVCAM-1)水平的表达及临床意义。方法选取2015年9月-2018年6
利用气-质联用仪测定了黄连木生物柴油(PCME)的化学组成,利用冷滤点测试仪和运动黏度测试仪研究PCME及其调合油的低温流动性;通过添加低温流动改进剂(CFI)来改善PCME及其调合油的
自2013年9月“一带一路”倡议提出以来,中国同30多个沿线国家签署了共建合作协议,吸引100多个国家和国际组织参与,重点基础设施工程稳步推进,沿线国家贸易交往愈加顺畅,以新
目的探讨血清细胞角蛋白19片段(CYFRA-21)、糖类抗原125(CA125)、CA199、癌胚抗原(CEA)水平联合检测对非小细胞肺癌脑转移患者诊断效能的影响。方法选取我院2015年12月-2018