基于改进的潜在语义分析的文本聚类

来源 :北京信息科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:wingoH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了“词一文本”空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。
其他文献
凭借在上海的战略分部,以及多年来在其关注领域的专业知识,i+o(工业设计与组织)公司已在中国这一增长的市场上站稳了脚跟。"公司在中国的第一个项目是1998年在航空业领域完成的,
期刊
针对松弛系数和局地化半径的敏感性对PODEn4DVar同化方法性能的影响,以浅水波方程作为预报模型,测试了其对不同松弛系数d和局地化半径R的敏感性,获得了不同模型误差情形下该方法
基于模型驱动架构(MDA,model driven architecture)为Web服务开发提供了一个有效途径,但在使用统一建模语言(UML,unified modeling language)建模过程中缺乏严格的语义描述。对Web服
介绍了一种全新的基于《现代汉语语义词典》(SKCC)的词语相似度计算方法,并在此基础上加入了基于统计的相似度计算方法,为语料的进一步处理提供了支持。
针对WCDMARAKE接收机传统多径同步方法计算效率低的问题,借鉴延迟锁相环技术,提出了一种改进的多径同步实现方法。理论分析及实验仿真结果表明,相对于传统的多径同步方法,新方法
针对东巴文特有的结构特征进行了识别难点方面的分析,讨论了东巴象形文字的识别原理,提出了图像压缩、图像灰度化、平滑去噪、图像分割、归一化等图像预处理过程和基于特征提取的神经网络识别过程的东巴文识别方法,并通过实验对该方法进行了验证,实验结果表明了该方法的可行性。
通过对主机遥控气动系统的分析,建立了主机“驾控”方式不能换向的可靠性模型,据此建立相应的故障树模型;找出“驾控”不能换向所有可能的故障模式;对故障树进行定性分析,得出底事
针对在双目动态视觉测量系统中对特征点的准确匹配问题,采用强后方交会优化了外参数,提高外参数的精度,从而提高求取极线的精度;提出一种针对2幅图像特征点匹配的多约束匹配算法。多约束匹配算法在极线约束的基础上,增加了唯一性约束和双向匹配约束,结合视差约束的二次匹配,得到2幅图像特征点正确的匹配关系。实验结果表明:用于双目动态视觉测量系统的匹配中,可得到100%的匹配准确率。可以满足双目动态视觉测量系统对
面向生产商和零售商组成的两级供应链,分别考虑集中和分散型供应链协调问题,同时侧重产品的人工成本对供应链企业利润的影响,建立采用无线射频识别(Radio Frequency Identifi