【摘 要】
:
文本挖掘是数据挖掘领域中一个热门的研究方向。在文本挖掘领域中,文本聚类技术有助于缩小数据搜索空间,提高查询精度。作为一种无监督的机器学习方法,文本聚类技术已经成为
论文部分内容阅读
文本挖掘是数据挖掘领域中一个热门的研究方向。在文本挖掘领域中,文本聚类技术有助于缩小数据搜索空间,提高查询精度。作为一种无监督的机器学习方法,文本聚类技术已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。可以说,文本聚类的研究具有重要的理论意义和实际使用价值。自组织特征映射神经网络SOM在聚类应用中具有自组织映射、可视化好、计算效率高、聚类效果好等良好特性。因此,本文将SOM神经网络应用到中文文本聚类中,研究其在文本聚类中的有关特性。本文首先介绍了中文文本聚类中几项预处理关键技术:分词、数据清洗、特征词选取、文本向量表示。在此基础上,本文实现了文本的预处理模型:从已知词汇库中根据词性构造了一个初步的中文停用词表,用来对已分好词的文章进行停用词筛选。在剩下的那些词中,根据词的有效性评价,选取出一定数量的特征词。基于这些特征词,利用向量空间模型VSM,把每篇文章表示成计算机能够处理的实数向量。本文继而研究了对于类别已知的文本,利用SOM网络和已知类别标注方法,实现先验类别知识指导下的文本聚类。针对传统SOM算法聚类效果不佳的情况,本文使用核SOM算法进行改进,并且通过实验比较了传统SOM算法和核SOM算法在文本聚类中的聚类精度和鲁棒性。如果文本的类别事先是未知的,单纯使用SOM算法是无法实现自动聚类的。因此,本文将SOM网络和K均值聚类算法相结合,研究了类别未知文本的两阶段自动聚类。相比K均值聚类模型:前者聚类速度快,聚类结果可视化好,但聚类精度依赖于第一阶段SOM网络在特定训练样本集上的训练效果。
其他文献
当前,我们国家正在进行高中物理新课程改革,建构主义理论对新课改从理念到操作都产生了广泛而深入的影响。而基于建构主义的教学设计,则是九十年代以后随着多媒体和网络技术
汽车悬架系统是一个比较复杂的多体系统,其构件之间的运动关系十分复杂,这就给使得传统的计算方法分析悬架的各种特性带来许多的困难。因此,悬架的运动学和动力学仿真分析在
民间艺术的史诗 ──谈电视纪录片《流年》张同道黄河文明的腹地──黄土高原上流传着一句民谣:“生女子要巧的,石榴牡丹冒铰的”。唐代诗人杜甫逃亡陕北时曾写下“
目的:本研究旨在在既往文献研究及专家咨询的基础上,通过前瞻性、诊断性、横断面调查的研究方法,明确冠心病痰证的辨证要素以及权重系数,为建立一个客观的、可量化的冠心病痰
1补益气血法乳汁为血所化,又赖气以运行。产后血液盈亏直接影响乳汁的分泌,而气为血之帅,血为气之母,二者同为化生乳汁的源泉,缺一不可,气血亏虚是产后乳汁分泌不足的根本原因。临
《新课程标准》明确指出,教学过程是师生共同学习、共同发展的互动过程。交互式电子白板这一现代化教育媒介的出现,使它越来越受教育者的青睐。它将为发展学生的主体性和创造
偏头痛是一种临床常见的原发性头痛,严重危害人类健康和患者生活质量。近年研究表明,偏头痛患者脑白质病变发生率高于正常人群,并独立于其他脑血管病危险因素。而卵圆孔未闭
乡村旅游是建设社会主义新农村的重要途径,也是“十一五”期间中国旅游业发展的重要方向。广西具有和谐的乡村旅游景观、乡村人文景观风貌独特、乡村文化多样性等资源优势。
随着现代化建设的飞速发展以及人民生活水平的不断提高,人们对其住宅的安全性要求越来越高。另一方面,现代电子、通讯技术的蓬勃发展已经为家庭防盗报警系统的研究提供了强有
针对电涌保护器(SPD)级间能量配合试验中配合失效的问题,主要利用波的传输理论与基尔霍夫定律进行分析,结合JB/T 10618—2006(组合式电涌保护器)的规定假设一套组合型SPD,通