面向论坛FAQ文档的轻量级聚类算法

来源 :微型电脑应用 | 被引量 : 0次 | 上传用户:chengjun_80
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档聚类分析是组织文档的一种有效方法,在信息处理中被广泛应用于未知话题的自动发现并取得不错的效果。本文提出了一个轻量级聚类算法。该算法利用减小原始文档的索引数,来处理大量小文档,并把它们分组到几千个簇,或者通过更改特定参数,将聚类簇的数量减小到几十个。理论分析和实际应用表明,该算法提高了对高维数据和大量小文档处理效率。
其他文献
肇阜小片的许多上声字同时存在着方言字调和普通话字调,导致肇阜上声字调的方普竞争。大部分肇阜上声字调处在方普竞争的开始阶段,少部分肇阜上声字调已经被普通话字调归化,还有
建立一个实用的脱机手写汉字笔迹库是研究笔迹鉴别技术的基础,论文结合笔迹图像与书写者信息设计了一个脱机手写汉字笔迹库系统,详细介绍了笔迹样本采集方案及系统的主要功能,阐述了部分关键问题的解决方案。
周恩来关于社会主义经济建设的理论贡献钱小利1949年新中国成立后,中国社会面临着从新民主主义向社会主义的转变,一穷二白的国民经济也等待着新生的人民政府去恢复和发展。伟大的无
一、参考文献的顺序编码制格式参考文献是学术专著、科研论文的重要组成部分,是对期刊论文进行统计和分析的重要信息源之一。本刊推荐采用GB/T7714中规定的顺序编码制格式著录
教宗扎迦利在任期间,通过与伦巴德国王的谈判合作,不仅使罗马公国的独立性得到广泛认可,还使教宗在西部基督教世界的世俗权力和宗教权威得以提升。而伦巴德人之于教宗而言,不
在对CORBA构件模型以及构件组装技术进行研究的基础上,分析了基于CORBA构件模型的构件组装机制及构件组装的描述方法.在研究的基础上设计出一个具体的构件组装工具,并用此组
随着互连网业务量的剧增,网络拥塞已经成为一个十分重要的问题。网络拥塞控制极大的促进了Internet的发展。本文指出了目前TCP/IP拥塞控制技术的不足,利用控制理论分析现有拥塞
民间化是中国现代文艺的一种发展趋向,由于战争引起的城乡文化背景转移,民间化进程分为大众化和民族化两个阶段。文艺大众化不仅是以作家、作品为中心的文学层面的文风变革,
当一个移动节点(MN)或移动路由器(MR)移动到另一个移动网络,并通过另一个MR提供接入时,这样的情况称为嵌套移动网络,这样的嵌套可以有很多层。一个典型的例子是携带笔记本电脑的乘客
AOP(面向方面编程)提供了一种有效的方法封装软件中的横切行为,AspectJ是对Java的一个通用AOP扩展。本文首先分析call和execution这两种类型PCD的语义,然后指出这两+PCD基于的一个