基于R-Grams的文本聚类方法

来源 :2015年全国开放式分布与并行计算学术年会 | 被引量 : 0次 | 上传用户:jundy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法。该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类。实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右。随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势。此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单。
其他文献
  针对现有视频二值分割算法分割性能过低的问题,提出了一种基于GPU的视频实时二值概率分割算法.该算法通过规范化视频帧中每个像素属于前景类和背景类的概率大小,实现了基于
会议
  针对环境监测、电网冰灾监测等大规模监测系统中监测区域覆盖广、传感器数量大等特性,为节约网络能耗以延长生命周期,提出了一种基于区域分簇的大规模无线传感器网络生命
会议
  基于可视化库(VTK)可视化技术的特点,讨论可视化流水线机制和并行程序的基本结构。针对计算流体力学可视化后处理实现的问题,介绍和使用VTK颜色映射算法,并编写对计算流体力
会议
  针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空
会议
针对小目标检测方法受信噪比影响较大的情况,本文提出了一种时空联合小目标检测方法,通过使用目标的灰度特征,梯度特征,运动特征实现对小目标的检测,并在FPGA平台上完成了硬件实现。实验结果表明,本文提出的算法检测准确性较高,实时性较好,能够实现对红外小目标的实时检测。
距离选通水下激光成像技术通过控制成像模块的阴极快门时间,从时域上屏蔽大部分可进入成像模块的光信号,能有效抑制水体后向散射对激光成像系统探测性能的影响,提高作用距离
对于羽毛球的热爱要追溯到我读高二的时候。记得那天我们上生物课,课间休息时,生物老师把她收藏的有关鲍春来的照片翻给我们看。当时我还不知道照片上的这个人就叫鲍春来。只
硅基三维微纳结构在红外成像与探测方面具有重要的应用价值。然而,受加工技术的限制,硅基复杂面型三维微纳结构的制备仍然是一个难题。本文提出了利用刻蚀辅助激光灰度改性技
本文对语码的形成及其文化心理作了初步分析、论述.“语码”是古诗词中的一种特殊词汇,是诗歌中反复出现的、具有特定意义的艺术符号,它能引起同一文化系统内读者丰富的社会
管道内壁腐蚀对化工企业的安全生产造成重大隐患,因此对于内壁腐蚀缺陷深度的预估极其重要。本文采用涡流热成像技术对内壁不同深度的腐蚀缺陷进行检测与评估。利用COMSOL建