DBSCAN算法研究及其在专利文本推荐系统中的应用

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:a7281423123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是把数据对象划分成子集的过程,它是数据挖掘技术的核心,并且其应用范围非常广泛,其中基于密度的聚类算法具有较高的应用价值,其对任意形状的类簇都具有较好的识别效果,此外,它还能很好的处理数据集中的噪声点,但其不适用于分布不均匀的数据集,同时时间性能也较差,所以如何提高其在密度不均匀的数据集中的聚类质量及算法的时间性能是当前亟需解决的一大问题。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法是基于密度的聚类算法中一种经典算法,本文重点改进了DBSCAN算法在非均匀数据集中聚类质量差及算法时间复杂度高的问题,提出了一种基于数据分区和网格聚类相结合的密度聚类算法(PC-DBSCAN)。首先,根据每个数据点的k最近邻域,计算数据点对应的k-ave值,根据每个数据点对应的k-ave值进行单维度聚类来实现数据分区,缓解了算法对全局参数Eps敏感的问题,提高了算法的聚类质量;其次,针对每一个数据分区,把其对应的数据空间划分成以Eps为网格阈值互不相交的网格单元,在确定核心对象时,只需要对数据点所在网格单元及其周围网格单元进行遍历,降低了算法时间复杂度;最后,对各数据分区聚类结果进行合并。实验结果表明,改进后的算法在非均匀数据集上的聚类质量和算法的聚类效率要优于原始的DBSCAN算法及相关改进算法。本文将改进的聚类算法PC-DBSCAN应用到了面向问题的专利文本聚类当中,由于面向问题的专利文本向量的维数一般较高,进而导致无法获得好的聚类结果,潜在语义分析LSA可以有效的对向量空间降维,因此本文对潜在语义分析LSA进行了研究并将其应用到了面向问题的专利文本聚类过程当中,实验结果表明聚类结果良好。在以上专利文本聚类结果的基础上,本文基于文本相似度研究了面向问题的专利文本推荐流程,并设计实现了专利推荐系统,为用户根据专利问题高效准确的推荐出相关专利,帮助用户找到针对某一实际问题的有效解决方案,达到了预期效果。
其他文献
X射线检测是可以观察物体内部结构的无损检测技术之一,目前已被广泛应用于航空航天、国防工业和工业探伤等领域的产品质量检测。当待测物体具有无规则外形且内部结构复杂时,
案例背景习近平总书记指出:"实现中华民族伟大复兴,坚持和发展中国特色社会主义,关键在党,关键在人,归根到底在培养造就一代又一代可靠接班人。"青年干部要成长起来,必须加强
因果分析是解决问题的关键,也是创新理论TRIZ常用的问题分析方法。目前,国内外针对因果关系识别已经开展了一定的研究工作,取得了一定的成果。但是对事件序列的因果识别工作
近几十年来,数字隐写技术的飞速发展,已被广泛应用到数字认证、版权保护以及多媒体产品防伪等领域。传统的数字隐写算法是以修改原始载体数据为代价来嵌入秘密信息,对原始载
目的:探讨消化性溃疡相关急性非静脉曲张性上消化道出血病患临床表现及中医辨证分布特点,比较不同中医证型在一般情况、既往病史、临床症状、实验室指标及是否输血、再出血、入住ICU、死亡等方面的异同,同时探讨AIMS65评分与BRS评分对消化性溃疡相关急性非静脉曲张性上消化道出血患者在是否需要输血、入住ICU,是否可能出现再出血、死亡等方面的预测能力的差异。方法:本研究使用临床回顾性研究的方法,以消化性溃
在光储直流微网中,光伏接口变换器作为可再生能源获取与利用的核心环节,对整体网络的稳定运行至关重要。然而,由于光伏电源具有强间歇性,微网负荷也具有随机性和大范围波动的特征;同时,光伏接口变换器在微网协调运行中也存在控制模式的切换,这些综合因素造成接口变换器为典型的多激励大信号工作系统。为此,论文重点对光伏接口Boost变换器开展基于Lyapunov理论的大信号稳定性研究。首先,对光伏接口变换器进行建
红外伪装技术在军事领域有着广泛而深入的应用,该技术直接影响甚至决定了军事目标的生存能力。因此,对目标的伪装技术的效能的评价十分必要。现有的红外伪装技术效能评价大多
农业农村现代化是建设现代化国家的重要内容,也是乡村振兴战略的最终目标。党的十八大以来,以习近平同志为核心的党中央始终坚持把解决好“三农”问题作为全党工作的重中之重。十九大报告指出,要坚持农业农村优先发展的政策方向,加快推进农业农村现代化。在这一政策背景下,文章以安徽省农业农村现代化发展情况为研究角度,构建了一个符合“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”总要求,包含20个三级指标的科学
目的:Girdin是2005年新发现的肌动蛋白结合蛋白,它能够募集并联结、调控细胞内微丝,具有调节细胞生长、迁移、血管生成及自噬等功能。细胞迁移不仅在细胞重要生理活动中起作
图像检索技术一直是一个非常活跃的研究热点,其在各领域中得到广泛的应用。近年来,边界先验和背景信息在目标检测进程中已被采用。论文根据背景提取出目标区域,先将背景标识