【摘 要】
:
近年来,随着高性能通信技术和工业互联网的快速发展,各行各业都将面临PB级别数据的处理。聚类分析作为数据挖掘中一种常用的无监督分析方式因其易用性强、实现效率高越来越成为行业关注的热点。DBSCAN作为一种依据样本点分布密度实现聚类划分的算法,通过设置密度阈值min Pts和邻域半径距离Eps即可完成聚类。但是,当数据集的簇类密度分布波动较大或者聚类数据量较大时,DBSCAN算法存在对噪音点的识别过于
论文部分内容阅读
近年来,随着高性能通信技术和工业互联网的快速发展,各行各业都将面临PB级别数据的处理。聚类分析作为数据挖掘中一种常用的无监督分析方式因其易用性强、实现效率高越来越成为行业关注的热点。DBSCAN作为一种依据样本点分布密度实现聚类划分的算法,通过设置密度阈值min Pts和邻域半径距离Eps即可完成聚类。但是,当数据集的簇类密度分布波动较大或者聚类数据量较大时,DBSCAN算法存在对噪音点的识别过于敏感、初始参数设置困难、聚类时间过长等缺陷。本文通过对DBSCAN算法的研究,结合现有学者对于该算法的改进方式提出了基于数据集密度分布的自适应初始参数Eps的改进算法。同时,针对海量数据环境中聚类算法执行效率低的问题提出了基于Spark的并行聚类算法。最后将本文算法结合文本挖掘技术实现了新闻摘要的自动化提取。本文的研究工作主要概括如下:首先,对于复杂环境下DBSCAN算法初始参数选择困难的问题,提出了一种依据数据分布密度实现参数Eps自适应选取的改进算法DR(Density Recognition)-DBSCAN,该算法通过计算并统计出所有数据点的第k个最邻近的聚类收敛距离,找到满足该区域密度的Eps值,实现该参数的自适应选取。针对DR-DBSCAN算法邻域数据点查询复杂度高的问题,利用R树提高了查询效率。其次,为了更好地将DR-DBSCAN算法应用到海量数据的聚类分析,提出了基于Spark的PDR(Parallel Density Recognition)-DBSCAN算法,该算法通过二次划分策略将数据集划分为数据量相当的子集,然后对每个子集进行独立的自适应Eps计算并实现聚类局部。最后根据局部数据点的重合标签实现了簇类融合。实验结果表明PDR-DBSCAN算法的计算效率远不仅高于单机聚类方式,也优于其他的并行聚类算法。解决了聚类算法在大数据环境下运行效率低的问题。最后,将PDR-DBSCAN算法应用到文本挖掘中。通过数据采集、数据预处理、特征表示等步骤完成文本数据的空间模型构建,并基于本文算法进行词向量和句子向量的聚类,最终实现了文本数据中关键词和摘要的自动化提取。
其他文献
高考评价体系为命制高考试题提供了重要的理论支撑。文章基于高考评价体系对2021年高考全国文综乙卷第44题的情境设置、情境活动两个方面进行探讨,并得出研究高考试题,提高命题水平;研读高考评价体系,转变教学观念;研读新课程标准,创新试题评价方式的教学建议。
淀粉酶抑制剂(α-AI)是一种常用于减肥和降低血糖的辅助药物,且其作为植物的抗虫基因在基因工程和药学应用广泛。从白玉豆中提取了α-AI并对其进行纯化,研究了其稳定性。使用CM纤维素柱和Sephedex C-75凝胶柱对白玉豆α-AI粗品进行层析后,以HAc-NaAc洗脱液进行洗脱,收集蛋白峰后检测α-AI活性。结果表明,白玉豆中提取的白玉豆α-AI粗品可以通过层析得到α-AI。提取的α-AI耐热性
新型冠状病毒肺炎(COVID-19)大流行严重威胁着人类的生命健康和社会发展。为应对这一公共卫生事件,全球各国迅速研发了多种COVID-19疫苗。迄今为止,已有41项疫苗获得紧急使用批准,疫苗的使用显著降低了COVID-19的发病率和病死率。然而,随着病毒不断变异,尤其奥密克戎变异株的出现,疫苗产生的免疫保护作用受到了挑战,COVID-19疫苗的持续研发工作还任重道远。本文就目前COVID-19疫
识别城市用地功能对摸清土地利用现状、合理制订城市规划有着重要意义。POI(兴趣点)具有许多应用优势,将其应用于地理研究中,可以为解决相关学科问题提供新方法和新思路。本文以福建省主要城区的POI数据为基础,以核密度分析法与层次分析法为主要研究方法,对福建省主要城区的功能区进行识别和研究。本研究旨在构建基于POI数据的功能分区识别模型,为各城市空间布局政策的制定提供科学依据。
在不断推进基础教育优质均衡发展,合理解决大城市学位供给矛盾的同时,如何通过有效途径判断学校空间布点是否达到规划预期,实现公众享受教育资源的公平性,是当下研究的热点之一.本研究基于2020年西安市中心城区小学315条POI数据信息,借助ArcGIS地理处理中的空间分析模块,利用平均最近邻、核密度分析和标准差椭圆等方法,分别对中心城区小学布点的宏观分布、下辖六区的中观供给、小学单元的微观覆盖三个层面进
从能源动力类专业教育现状总结不足,以沈阳工程学院新能源科学与工程专业为例,按照碳中和的技术和人才需求改革专业的培养目标、培养模式。强调重视学科交叉和创新实践教育构建课程体系,满足以可再生能源为主体的新型能源结构的发展需求。为其他应用型高校能动类专业建设提供参考,推动人才培养质量不断提升,为我国双碳目标提供人才保障。
针对在数据仓库的建设中业界端对端的数据迁移工具无法能满足数据库高可扩展性需求,基于数据ETL中间件技术和数据抽取CDC技术分析选型,设计实现一种基于插件化的异构数据ETL中间件,重点介绍其包括业务解析层与数据处理引擎层的总体架构,从而实现数据增量迁移需求,对工业数据仓库建设具有借鉴意义。
目的:分析自由贸易港建设下海南省医疗卫生资源配置的现状及公平性,为进一步优化医疗卫生资源配置提供参考。方法:采用描述性分析对2020年海南省18个市县的医疗卫生资源配置的现状进行研究,从人口、地理面积两个维度,采用Lorenz曲线、基尼系数,对公平性进行研究,同时从纵向角度分析2016—2020年海南省医疗卫生资源配置的基本情况。结果:2016—2020年海南省各类医疗卫生资源的数量呈不断上升趋势