基于海量科技文献的自动聚类研究与设计

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:wnn379
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为记录科学技术知识和信息的载体,科技文献在科技领域拥有极其重要的作用。在互联网时代来临后,科技文献成几何倍数增长,人工筛选信息显然无法满足需求,对科技文献进行数据挖掘能更好的帮助我们获取科技信息。但在当前科技快速发展的环境下,随着大量新学科和网络用词的出现,仅仅采用传统的学科分类,无法满足目前的科技文献的学科划分需求的现状。同时聚类方法对文献进行划分也在效率和软硬件设施上提出了更多的要求。本文结合TF-IDF方法和科技文献的特点对文本特征进行提取,并在Hadoop分布式环境下,通过canopy改进后的k-means算法进行文本聚类,最终实现了海量科技文献的自动聚类。本文的主要工作和课题研究重点如下所示:1、首先对文本聚类的知识框架进行研究。重点研究了文本预处理,特征提取和聚类技术。详细介绍了特征提取方法和聚类算法。同时对科技文献的特征和分布式技术进行了研究与介绍。通过分析确定了大数据环境下的文本聚类的难点。2、在对文本聚类基础知识研究的基础上,本文提出使用提取文本名词特征并用TF-IDF进行特征提取,然后用降维后的特征,建立相应空间向量模型,最终在分布式环境下利用canopy改进后的k-means算法对科技文献进行聚类的模型。3、实现了基于海量科技文献的聚类,具体包括分布式环境的搭建,功能模块的实现,聚类结果的分析等。目前此系统已经成功应用于某单位的中文互联网文本观点抽取项目中,并在实际应用中系统取得了良好的聚类结果。
其他文献
超级电容器作为最有前途的可再生能源存储系统之一。这些年对其能量储存机理的研究和对纳米结构电极材料的合成一直是研究的重点,众所周知,由于过渡金属氧化物/硫化物/氢氧化物/等法拉第材料杰出的电化学性能使赝电容器比双电层电容器的比容量大许多。伴随着新一代智能电子技术的发展,便携式可穿戴储能设备也受到了越来越多的关注,然而对于电极材料来说如何在保持具有良好机械性能的前提下保持其高存储容量仍是一个巨大的挑战
高性能聚合物是一种在高温条件下依旧能保持高强度、高模量等物化性能的聚合物。因其质量轻便、易于加工,在航空航天、汽车制造、电子信息等方面有着广泛应用,开发和制备新型
随着经济社会的飞速进步、移动设备的普遍应用以及无线网络的的广泛覆盖,用户可以使用移动计算设备在任何时间任何地点接入网络,因此越来越多的企业、服务商将目光定位到基于
为了提高低渗煤层瓦斯的抽采效果,目前主要通过人为强化增透的方法,来改变煤层透气性和地应力梯度、降低煤层瓦斯压力和瓦斯含量,促进瓦斯抽采。其中水力化增透措施已成为单
近年来,随着社会的快速发展和人们生活水平的不断提高,人们对生活品质的要求也越来越高,为解决频繁给药给人们带来的痛苦和不便,科研人员一直致力于寻找一种安全有效的药物缓
民间谚语不但具有很强的逻辑性和科学性,而且极具语言表达的艺术性,藏民族日常生活中谚语的运用非常广泛。进年来,有关部门和学者对藏族民间谚语进行搜集、整理工作,相继出现
滤层是水利水电工程中的重要渗控措施,也是海绵城市建设中渗滤系统的重要组成部分。传统砂石滤层容易淤堵,并且淤堵后不易更换而导致滤层作用效果下降。泡沫塑料过滤体是一种
翻译不仅是不同民族之间相互沟通的方式,而且是不同文化和语言沟通的理解方式。自从不同语言不同民族的人们有交往以来,翻译就成为人们沟通的桥梁,是双语转换途径中的信息传
黄安伦先生是现代极具影响力的作曲家,其创作的作品数量众多,涵盖室内乐、舞剧、歌剧等多种体裁,堪称作品最多的中国作曲家之一,在国内外极具影响力。二十世纪七十年代,刚从
高速、高精度的直线进给运动中需要采用可以实时进行位置检测的直线导轨副进行精确定位。因此可以通过将直线导轨副与位置检测系统进行一体化设计,实现检测技术与被测系统的