基于改进的潜在语义分析的文本聚类

来源 :北京信息科技大学学报：自然科学版 | 被引量 : 0次 | 上传用户：wingoH

【摘要】

：

文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示，重新给出了针对潜在语义分析的特征权重计算方法，并提出了截断奇异值分解中K值的选

【作者】

：

宋涛施水才房祥吕学强

【机构】

：

北京信息科技大学计算机学院

【出处】

：

北京信息科技大学学报：自然科学版

【发表日期】

：

2012年3期

【关键词】

：

潜在语义分析权重计算奇异值分解 K-MEANS 文本聚类 latent semantic analysis weight calculation s

【基金项目】

：

国家自然科学基金项目资助（60872133）,北京市自然科学基金项目资助（4092015）,北京市教委科技发展计划项目资助（KM201110772021）,国家科技支撑计划课题资助（2011BAH11B03）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示，重新给出了针对潜在语义分析的特征权重计算方法，并提出了截断奇异值分解中K值的选取方法，达到了“词一文本”空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性，应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心，避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度，经实验证明改进后的方法在聚类问题中聚类效果显著。

其他文献

中国提供了很好的前景

凭借在上海的战略分部,以及多年来在其关注领域的专业知识,i＋o（工业设计与组织）公司已在中国这一增长的市场上站稳了脚跟。＂公司在中国的第一个项目是1998年在航空业领域完成的，

期刊

中国专业知识工业设计航空业

2009年《机电设备》总目次

期刊

PODEn4DVar对松弛系数和局地化半径的敏感性

针对松弛系数和局地化半径的敏感性对PODEn4DVar同化方法性能的影响，以浅水波方程作为预报模型，测试了其对不同松弛系数d和局地化半径R的敏感性，获得了不同模型误差情形下该方法

期刊

本征正交分解的集合四维交分同化数据同化松弛系数局地化半径浅水波方程模型PODEn4DVar data assimilation the relax

基于过程蓝图的Web服务建模

基于模型驱动架构（MDA，model driven architecture）为Web服务开发提供了一个有效途径，但在使用统一建模语言（UML，unified modeling language）建模过程中缺乏严格的语义描述。对Web服

期刊

模型驱动架构过程蓝图服务建模model driven architecture （MDA） procedure blueprint service

基于SKCC与统计相结合的词语相似度计算方法

介绍了一种全新的基于《现代汉语语义词典》（SKCC）的词语相似度计算方法,并在此基础上加入了基于统计的相似度计算方法,为语料的进一步处理提供了支持。

期刊

自然语言处理现代汉语语义词典相似度nature language processing the semantic knowledge-base of c

WCDMA下行RAKE接收机的高效同步方案

针对WCDMARAKE接收机传统多径同步方法计算效率低的问题，借鉴延迟锁相环技术，提出了一种改进的多径同步实现方法。理论分析及实验仿真结果表明，相对于传统的多径同步方法，新方法

期刊

WCDMARAKE接收机多径同步延迟锁相环wide code division multiple accessRAKE receiver muhip

东巴象形文字识别方法

针对东巴文特有的结构特征进行了识别难点方面的分析,讨论了东巴象形文字的识别原理,提出了图像压缩、图像灰度化、平滑去噪、图像分割、归一化等图像预处理过程和基于特征提取的神经网络识别过程的东巴文识别方法,并通过实验对该方法进行了验证,实验结果表明了该方法的可行性。

期刊

手写体文字识别图像处理特征提取神经网络handwritten character recognition image processing fea

主机遥控气动系统驾控不能换向的故障树分析

通过对主机遥控气动系统的分析，建立了主机“驾控”方式不能换向的可靠性模型，据此建立相应的故障树模型；找出“驾控”不能换向所有可能的故障模式；对故障树进行定性分析，得出底事

期刊

主机遥控故障率可靠性模型故障树分析main engine remote control failure rate reliability mode

双目动态视觉测量的匹配

针对在双目动态视觉测量系统中对特征点的准确匹配问题,采用强后方交会优化了外参数,提高外参数的精度,从而提高求取极线的精度;提出一种针对2幅图像特征点匹配的多约束匹配算法。多约束匹配算法在极线约束的基础上,增加了唯一性约束和双向匹配约束,结合视差约束的二次匹配,得到2幅图像特征点正确的匹配关系。实验结果表明:用于双目动态视觉测量系统的匹配中,可得到100%的匹配准确率。可以满足双目动态视觉测量系统对

期刊

动态视觉测量双目立体匹配强后方交会多约束匹配dynamic vision measurement binocular stereo matching

两级供应链的RFID技术决策条件分析

面向生产商和零售商组成的两级供应链,分别考虑集中和分散型供应链协调问题,同时侧重产品的人工成本对供应链企业利润的影响,建立采用无线射频识别(Radio Frequency Identifi

期刊

供应链协调RFID技术人工成本投资决策

基于改进的潜在语义分析的文本聚类

与本文相关的学术论文