融合实例选择和特征选择的文本聚类性能优化方法

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:zhoumi2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类一直是数据挖掘和信息检索领域的基础性研究议题,它试图将内容相似的文本划分到相同的类簇。文本聚类不仅得到了国内外学者广泛的关注和探索,也在大量实际系统中获得广泛应用。具体的应用场景包括:搜索引擎结果归纳、大规模文档集合浏览、电子商务推荐系统等等。尽管数据挖掘中的绝大部分聚类分析算法都可直接用于文本,如K-means、DBSCAN等,然而,文本数据规模的爆炸式的增长,使得文本固有的高维稀疏性问题显得更加突出。同时,无意义、有歧义的冗余文本规模随之扩大,这些文本难以划分到任何一个有明显语义的类簇。  为此,本文试图同时利用实例选择和特征选择优化文本聚类的效果和效率。具体地,我们以信息K-means算法为切入点,首先提出一种基于随机实例抽样的Info-Kmeans聚类算法,算法将Info-Kmeans中KL距离(Kulback Leibler Divergence)计算变换为香农熵的计算,解决了文本数据高维稀疏性所导致的零值困境问题;接下来,我们引入随机实例抽样进一步降低算法的迭代计算量,并证明抽样所导致的性能误差可以被控制在极小的范围之内。在8个不同规模文本数据集上的实验表明,我们所提出的方法可以大幅提升文本的聚类效率。然而,由于频繁更新实例的类簇容易降低聚类性能,因此,对大规模文本聚类进行随机实例抽样,才亦有助于聚类效果的提升。  特征选择有助于扩展文本数据维度,并抽取出有清晰语义的类簇。为此,本文首先在文本词袋模型上定义出有物理意义的强关联词项集指标,然后证明文本中强关联特征组合可以用类Apriori算法挖掘,其中强关联词项集指标可以起到剪枝作用。在此基础上,我们探讨了文本强关联特征组合在优化聚类时的使用方法:(1)强关联特征组合用于维度约简及特征增强,提升聚类效率;(2)强关联特征组合用于删除冗余文本,实现类簇抽取,获得语义更清晰的类簇。最终,通过实验证明,基于强关联项组合的特征选择,能提升各个规模文本的聚类效果。
其他文献
针对现有认证系统存在的问题及缺陷,提出了一种基于格的跨信任域认证模型。该模型首先在二维坐标系上以格理论为基础,构建了信任域联盟,并引入互为牵制的双验证机制,避免了中
公路选线在公路设计工作中占有重要的地位。选线质量决定着公路的工程费用和维护费用,而且与交通安全关系很大。传统的公路选线大部分由人工完成,存在主观性缺陷,而且长期的
流媒体是宽带通信网和多媒体技术共同发展的产物。近年来,随着相关技术的发展和普及,以视频为主的流媒体技术在监控和应急指挥中的应用获得了普遍关注,己经成为近期流媒体技
随着信息网络技术的发展和新的无线网络的出现,用户对移动性的要求越来越高。移动IPv6协议的出现,使得单一接口的移动节点在IPv6子网间移动时可以保持其通信的连续性。目前全
Web Services为网络服务提供了统一的接口和调用模式,而服务组合的目标,就是在SOA的架构内实现对已有服务的重用、生成新服务,这是一个很有应用前景和研究价值的方向。当今对
自二十世纪九十年代末P2P技术出现以来,P2P应用迅速发展,目前已占领多个网络应用领域。P2P应用在为用户提供前所未有的便利的同时,也已经严重影响了其他网络应用的正常开展。
现有的服务组合建模语言中,业务流程执行语言BPEL已成为业界标准。越来越多的工作流通过BPEL进行建模,需要相应的测试技术来保证服务组合能够正确有效地运行。 目前一些研究
随着社会、经济与科技的发展,机器人技术在人们的生活、工农业生产以及航空航天事业中的重要地位日益突显,并成为衡量一个国家科技和制造业水平的重要标志。模块化机器人因其
近年来,随着计算机技术的普及和数据库技术的发展,用数据库记录并保存数据已经广泛应用到了社会生活的各个领域。尤其在商务界更是积累了大量的数据。如何找出数据之间的关联,将
在信息化时代,数字化的信息数据正在以前所未有的速度增长着,信息查询工具已经成为人们日常生活中不可缺少的工具。目前,互联网上已经出现了众多的搜索引擎,为广大的用户提供