基于自组织映射的文本聚类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：dengliguo1971

【摘要】

：

【作者】

：

罗克刚

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

自组织映射网络文本聚类聚类算法神经元方法 SOM聚类聚类搜索引擎文档潜在语义索引动态类速度映射模型

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文是在对几种比较经典的聚类算法对比分析的基础上，利用自组织映射网络在拓扑保序和抗噪声能力等方面的优势，以自组织映射模型作为文本聚类的主要框架，研究和探索借助自组织映射模型进行文本聚类的特点以及所面临的主要问题和相应的解决方法，并通过实践探索文本聚类在搜索引擎上的应用。本文的目的是研究具有良好自适应能力的聚类方法，以反映输入文本集合的主题结构，并针对实际应用中出现的问题改进现有聚类算法。
　　本文通过重点分析Kohonen SOM网络的性能及其训练方法，有针对性的对现有聚类算法进行改进，主要研究工作如下：
　　首先，针对文本聚类具有高维和语义相关的特点，本文实现了基于潜在语义索引的动态SOM聚类算法，该方法通过潜在语义索引中的奇异值分解实现了原文档-词矩阵的降维，经过动态SOM聚类，取得了比以前更优的聚类结果，聚类速度也有所提高。该方法用统计的方法进行文本聚类，通过规则与统计相结合的方法更好地实现了自然语言理解。
　　其次，本文提出了一种面向大规模文档集的增量梯度下降式动态SOM聚类算法。该算法通过逐渐减少插入神经元的数目，有效解决了其他动态SOM聚类算法（如GHSOM）的神经元欠利用现象，因而聚类效果更优，并且聚类速度明显提高。针对大规模文本聚类可能出现神经元过利用的问题，本文通过对过利用神经元进一步分裂的办法对聚类结果后续调优，取得了良好的聚类效果。
　　再次，针对文档向量化后的文档-词矩阵都是稀疏矩阵的特点，本文提出一种基于向量稀疏性的SOM聚类算法。该算法首先通过前向和后向两遍扫描所有的文档向量，初始化多个神经元以及其特征词，并固定每个神经元非零维度为常数，然后通过SOM网络进行训练，合并相似的神经元，并在必要时插入新的神经元，直到训练结束。该方法比GHSOM取得了更好的聚类结果，聚类时间明显减少。由于采用压缩方式存储，算法的空间复杂性也明显降低。该方法在输入文本数据集越大的情况下，神经元以及文档所对应的向量越稀疏，算法性能越优越。
　　最后，为了更好地将动态SOM聚类算法应用于实际，本文还对大规模文本聚类在搜索引擎上的应用作了简单的探讨和研究，期望能以此对聚类搜索及文本聚类的应用有个更深入的认识。文中介绍了聚类搜索引擎的基本理论和一个好的聚类搜索引擎的评价方法，设计并实现了一个简单的聚类搜索系统，通过对索引结果先发现主题词再聚类的方法，有效地解决了聚类搜索中聚类类别描述的问题，并使聚类速度较大幅度提高。

其他文献

成长路上

【摘要】随着社会经济的飞速发展，对优秀人才的需求也越来越迫切。通过高考进入一个一流大学深造学习，是绝大多数优秀人才的必经之路。当前高考竞争日益激烈，作为偏远地区的学校，由于资源限制，要想跨跃龙门进入一流名校学习越来越困难。而众多脱颖而出的佼佼者，他们的成功，除了在学习上踏实努力之外，还离不开他们一些从小积淀的众多优秀品质。　　【关键词】目标；短板效应；勤思善问；惜时如金；从不放弃　　【中图分类号

期刊

清王朝构建政治认同的遗产和困境

【摘要】清统治者通过在文化内部获取政治认同的方式，成功构建了边疆各民族的政治认同。以蒙古为例，清廷以盟旗制度为政治基础，通过铸固血缘纽带的满蒙联姻制度、拉拢贵族的王公制度和年班制度以及考虑军事安全的驻防制度，获得了蒙古对清的政治认同，为现代多民族国家构建留下了制度遗产，但其固有的局限性，也留下了民族问题的病灶。　　【关键词】盟旗制度；满蒙联姻制度；王公制度；驻防制度　　【中图分类号】G641 【

期刊

中学教学中学科互融性研究

【摘要】随着社会的快速发展，我们已进入信息时代。新形势对人才提出了新的要求，传统教育模式培养出的人才在很多方面已经不能满足社会发展的需要。培养创新型、实用型、复合型人才才是应对发展变化的关键。针对传统教学分科过细学科之间割裂太开的弊端，学科互融成为发展的趋势。本文针对历史和地理学科之间互融的必要性和可能性进行探讨，列举了若干史地互融的实例以及互融过程中涉及的相关策略，希望能为相关领域提供参考。　

期刊

论转型期科技翻译人才培养

【摘要】随着我国经济发展的不断壮大，我国高校院校逐渐具有全球化眼光，将自己的视角纷纷转向国际领域，目标在于培养国际化人才，很多大学都需要学生发表高水平的论文或者期刊来展现自己的学术水平，要将检索论文作为学生学业成绩的考核标准。尤其是在转型时期，科技翻译人才更是稀缺，科学技术吸收了很多外国先进的管理技术和管理经验，科技翻译人才的培养也许要跟上脚步，在社会不断发展过程中，我国在国际期刊上发表的论文还

期刊

高职院校教学秘书职业倦怠状况及对策研究

【摘要】教学秘书是专门从事教学管理工作、直接参与教学活动（教学计划、教学组织、教学安排等）的工作人员，是高职院校教学管理队伍中的重要组成部分。近年来，随着高职院校的高速发展及院系二级管理、学分制改革等的推行，教学秘书的工作量增多，工作压力加大，使得教学秘书容易产生职业倦怠，严重影响了教学秘书的工作状态，进而直接影响高职院校教学管理的质量和效率。本文以东莞职业技术学院的教学秘书为例进行分析研究，了

期刊

线上线下混合教学模式的探讨

【摘要】教育信息化已成为“互联网+”时代的新趋势，从农业建筑环境与能源工程专业的核心课程主干课程《风能工程》入手，对基于线上线下混合式教学模式改革进行了探索和研究，充分利用网络平台和网络资源优势，通过教学模式构想、教学流程及线上线下课程特色方面探讨了线上线下混合式教学，旨在满足学生的个性化差异，激发学生的学习兴趣。　　【关键词】线上线下；教学模式；混合式教学　　【中图分类号】G712 【文献标识

期刊

让教育教学不留断档

【摘要】小升初的衔接教学可以帮助学生更好的开展初中学习，让学生用健康的心态迎接美好的初中学习，教师针对数学教学现状采取多元化的教学方法衔接，让学生更好地进行高效学习。　　【关键词】小升初；教育教学；衔接；教学措施；方式方法　　【中图分类号】G633.6 【文献标识码】A　　【文章编号】2095-3089（2019）03-0038-01　　在当前的教育体制下，作为九年制义务教育的中小学，由于初中与

期刊

一场特殊的拯救

【摘要】无痕教育是指教育者在接受教育的過程中，通过与教育者的接触交流，与教育者产生共鸣，在情感交流中潜移默化，不留痕迹地接受了教育的一种思想教育方式。学困生因其自身成绩不佳，往往容易产生自卑心理，对教师或同学的特殊照顾尤为敏感。作为老师，在课堂上，除了要多关注他们，更重要的是要保护他们的自尊心不受伤害，这就要求教师引入无痕教育的理念，本文重点分析无痕教育在小学低段语文课堂中的具体实施应用。　　【

期刊

在初中英语教育中融入情感教育

【摘要】教育的核心是爱，教学中也离不开爱。Apple老师用爱去呼唤一个又一个的灵魂。每当望着孩子们一张张笑脸，听着一句句真诚的话语，感受着爱与爱的碰撞时的那份快乐，她仿佛走进了生命中最灿烂的时刻。她用笔尖记录自己与学生的点滴，整理思路，砥砺前行。　　【关键词】初中英语；情感教育；融入　　【中图分类号】G633.41 【文献标识码】A　　【文章编号】2095-3089（2019）03-0051-0

期刊

由《氓》想到的

【摘要】高中生谈恋爱已经成为当今校园里一个不可能回避也无法回避的客观事实，而社会上所谓的“唯物”、“拜金”、“实用”主义之风让这一方“净土”也开始变得浮躁和功利。在物欲横流的今天，人们呼喊着“宁可坐在宝马车里哭，也不愿坐在自行车后面笑”，其实这本身就是对爱情的一种亵渎。如何把“叙事德育”渗透到语文教学中，让叙事德育在教学中发挥它的作用。　　【关键词】爱情观；叙事德育；明理功能　　【中图分类号】G

期刊

基于自组织映射的文本聚类研究

与本文相关的学术论文