基于CFSFDP的文本聚类及其应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:dingdingdeaiqing85
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,互联网技术的迅猛发展促使大批量的网络数据生成。每天有数以万计的信息以各种方式生成,而文本是大多数信息储存的方式之一。对于这些文本数据的处理分析是当代研究的热门话题,文本处理技术的一大分支就是文本聚类,其普遍适用于模式识别、用户推荐、数据挖掘、情感分析、话题识别等方向。考生在选取高校时,对于感兴趣的学校都存在很多疑问。本文所用实验数据是考生对于招生办提出的问题,即高考咨询文本。将聚类算法CFSFDP应用在高考咨询文本上并对其分析处理有利于发现考生所关注的热点问题,有效快速地回答考生的问题,同时减轻招生办的咨询压力。CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法是2014年由Alex等人于Science上发表的一种新的基于密度的聚类算法,该算法思想简单,有着能够发现任意形状的数据集以及不需要预先指定聚类个数的优点。通过研究发现,CFSFDP算法中截断距离不能够自动获取,本文针对此问题引入了k邻近距离分析数据集的结构,获得截断距离的值。截断距离的不同将影响局部密度值的大小,最终影响整个算法的准确率。同时由于数据点的局部密度和距离不在同一个数量级下,因此对这两个属性进行归一化处理。通过在高考咨询文本中对改进的CFSFDP算法做出实验论证,证实了改进算法的有效性。为了进一步提高聚类效果,本文分析了基本CFSFDP算法中将数据点的局部密度与距离的乘积作为聚类中心的选取依据而存在的问题,提出了一种基于粒子群的CFSFDP算法。通过粒子群算法寻找CFSFDP算法中的最优局部密度阈值和距离阈值,降低局部密度及距离阈值的随机性选取对聚类准确率造成的影响。最后在高考咨询文本数据集上的实验证明,基于粒子群的CFSFDP算法的聚类结果达到与DBSCAN算法、基本的CFSFDP算法以及Agglomerative Clustering算法相当或者更好的效果,验证了算法的有效性。
其他文献
我国民营企业由于营商环境不佳和不可避免的自身因素,如资产规模较小、经营理念落后、财务制度不够健全等多方面原因,限制了其通过传统渠道如银行贷款方式获得融资。我国各级政府高度重视民营企业发展,多措并举,鼓励企业打破传统思维利用资本市场拓宽融资路径,实现股权增值,以解决民营企业这一普遍性融资难题。近年来我国现代多层次资本市场体系发展日趋完善,新三板市场作为其中承上启下的一部分,设立目标就是帮助符合条件的
石墨烯是一种由碳原子构成呈蜂巢晶格的六角型平面薄膜,目前是世上最坚硬也是最薄的纳米材料,只吸收2.3%的光因此几乎完全透明,极具应用前景。然而,在石墨烯与其它材料复合过程中,由于石墨烯表面能高,易团聚,难以分散均匀,这增加了复合工艺难度,因此,如何控制石墨烯分散范围及分散效果已成为目前亟待解决的关键性技术。前期课题组提出一种石墨烯复合微粒群喷射分散成形的新方法,本文重点研究石墨烯复合微粒制备及其喷
《最小说》杂志创刊于2006年11月,是当时柯艾文化传媒集团出版的一份青春文学杂志,2006——2016年期间与长江文艺出版社合作,2017年结束刊物的形式,变更为选题书的形式,合作方也转为湖南文艺出版社。《最小说》杂志十年期间,以“少年新文艺·青春最小说”为口号,以80、90后编辑、作者为基本团队,以90、00后的初、高中生为主要消费对象,以青春类型、幻想类型、耽美类型文艺创作为主导,超高的销售
本论文利用水热合成技术,以N,N′–哌嗪二(亚甲基)膦酸(H4L1=H2O3PCH2NH(C2H4)2NHCH2PO3H2),对羧基卞基膦酸乙酯(H2L2=4–HOOCC6H4CH2PO(OH)(OC2H5))和4–羧基哌啶–N–亚甲基膦酸(H3L3=HO
由于无人机机载蓄电池自身携带的能量有限,严重影响其工作效能的发挥。为提升其续航能力,激光无线供能技术得到了重视。采用激光无线供能技术给无人机进行实时供能,可大幅提升无人机的续航时间和航程距离。同时,在任务侦查,信息采集等特殊任务中,无人机通常需要采用集群形式进行协同配合完成任务,保证无人机集群的能量补给充足是任务完成的基础。首先,本文介绍了激光无线供能技术,无人机地面跟瞄控制系统以及机载侧的光电转
随着制造工艺的提升,我国大跨径斜拉桥的建设得以飞速发展。跨径能力日益剧增的同时,其结构非线性性能愈发明显。对于大跨径斜拉桥的计算分析来说,作为材料非线性的混凝土徐变、整体结构的几何非线性以及索力优化是分析中无法避免的问题,对斜拉桥在施工和成桥运营阶段的变形、结构受力产生不可忽视的影响。本文就自重作用下斜拉桥的分阶段施工仿真建模成桥的受力分析和索力优化分析分别展开研究。本文主要内容如下:(1)阐述了
乳腺癌作为全球女性最常见的恶性肿瘤之一,目前为止缺乏有效的预防措施,只能依靠患者早发现、早诊断来降低死亡率。深度学习在该领域的研究,主要存在两个问题,一是医学图像的细节会影响医学图像处理结果的准确度;二是深度学习方法本身是一个黑匣子,具有不可解释性,缺乏理论支持。针对现有乳腺肿瘤诊断技术存在的问题,本文的主要研究工作与成果如下:(1)图像预处理时,在归一化的情况下尽可能多的保留图像细节信息,使图像
长周期大地电磁测深法是获取地球深部信息的重要手段之一,国内开展长周期大地电磁勘探工作主要依赖进口设备,有些设备甚至限制出口中国,其中低噪声、低温漂的三轴磁通门传感
近年来,随着经济全球化的发展,供应链结构也随着社会分工精细化程度越来越复杂,供应链结构的复杂性与供应链的脆弱性成正比。AB公司是典型的制造加工型企业,该公司的供应链因其结构的复杂性在2020年新冠疫情爆发后出现明显弊端,多次延迟供应导致生产线临时转产造成产成品成本上升。因而各企业供应链能在不确定环境下或各种非常规性突发事件中可以更快恢复或适应新的市场竞争环境,这也是当今企业盈利最大化的前提。本文研
环境行政裁量基准在本质上来说仍然是行政裁量基准,作为行政裁量基准而言,它是规范行政自由裁量权,在法律规范和上级行政规范性文件预留出空间内通过情景细化、分格等方式对法规范具体化,使得裁量权能合理使用的制度。就性质而言,行政裁量基准源自于行政自我控权的需要,它是行政自制的手段也是属于内部的监督,因而,行政裁量基准的效力是区别于法律的效力,虽然在动态的裁量之中会对行政相对人产生约束力,但这种约束力并不是