【摘 要】
:
目前工业企业对于如何利用现有数据推动数字化转型,提升业务效率并没有十分明确的思路。针对这种现象,探索工业大数据的采集、分析与应用成为了大数据领域研究与发展的一个新方向,并且有必要建立一个专属的数据挖掘平台为工业数字化转型提供生态建立的支点。本文以工业大数据为基础、以工业应用场景为研究对象,挖掘工业应用场景中的通用化模块,并基于Hadoop分布式框架和Spring Cloud微服务框架实现一个能够对
论文部分内容阅读
目前工业企业对于如何利用现有数据推动数字化转型,提升业务效率并没有十分明确的思路。针对这种现象,探索工业大数据的采集、分析与应用成为了大数据领域研究与发展的一个新方向,并且有必要建立一个专属的数据挖掘平台为工业数字化转型提供生态建立的支点。本文以工业大数据为基础、以工业应用场景为研究对象,挖掘工业应用场景中的通用化模块,并基于Hadoop分布式框架和Spring Cloud微服务框架实现一个能够对多种工业应用场景提供底层基础服务支持的数据挖掘平台。为达到上述要求,对平台架构的分层设计做了全新定义,并在工业数据源的特征上采用Drools规则化提取数据,灵活地应对不同上层应用的数据需求。通过对不同工业应用具体需求的分析,本文提取出了算法库和翻译器等基础微服务。其中算法库通过对K-Means、CART决策树、支持向量机、TF-IDF等算法的实现,能够有效完成对上层推荐系统、预测系统、议价系统的算法支持,并且通过接口配置实现灵活的调用以及中间数据的存储。其次翻译器通过首创的Sugar转换方法,以及独特的词法划分和Abstract Syntax Tree构造,能够实现自定义文法的高级语言转换,具有可靠性和灵活性。平台底层搭建采用Flink实现流式数据处理,Map Reduce完成批量数据计算,配合高容错、适合批处理、高扩展性的HDFS完成大批量数据的存储,并且设计有Mongo DB、Redis、Mysql完成业务数据的存储,不管是分布式存储还是上层应用数据的存储与回流都具有极高的稳定性,同时这一类组件都能很好的支持集群扩展,方便企业级应用以及拓展。本文根据项目具体的应用需求做出了微服务设计,同时在项目实践过程中也为支持更加广泛的平台应用设计了许多基础微服务,最终实现了一个支持高并发、可扩展、高稳定性、高灵活性、可靠的分布式数据挖掘平台。论文应用创新如下:(1)对分布式集成环境做出了适应性设计。包括采用轻量级架构Flink进行流式数据处理;将日志系统拆分为分布式系统日志和上层业务运行日志;将平台存储拆分为分布式存储和业务数据库存储;(2)设计以微服务为核心的数据服务中间层。包括以Spring Cloud架构为核心的一系列微服务,重点为ETL、算法库和原创的翻译器设计。通过实现以上创新并进行实验,验证了本文技术方案的可行性。最后在完善的功能和性能测试中,证实了该平台的可靠性和先进性。
其他文献
随着中国城市化进程的加快,城市汽车保有量不断增加,城市交通需求呈现增长态势,引发出交通拥堵、交通事故等一系列关乎民生福祉的问题,严重阻碍了城市的高质量发展。在当前的城市智能交通系统中,快速准确的交通流预测是城市交通控制的必要前提,在智能交通系统中发挥着重要作用。基于以上背景,本文对道路数据特征展开研究,提出了不同交通原始数据情况下的两种短时交通流预测方法,设计并实现了一个短时交通流预测系统,主要工
随着科学技术的发展,各种各样定位设备不断涌现,可获取到轨迹数据的数量与种类迅速增长。对获取到的轨迹数据进行储存,分析在行为识别、交通规划、城市安全与防控等方面都可以发挥重要作用。其中,对人类轨迹的研究可以获取行为方式、个人偏好等关键信息,对许多领域的进一步研究都有推进作用。因此研究行人的轨迹预测算法具有重要意义。传统的轨迹预测方法基于数学统计模型对行人的运动模式建模难以适用于复杂场景。复杂场景中存
在城轨车辆运行试验过程中发现了车辆存在紧急通风逆变器不能启动的问题,针对该问题分析逆变器的启动工作原理,核查设备与车辆的接线点位及线缆的走线路径,最终确定问题的根本原因是由于设备干扰导致误触发停止信号使逆变器无法启动,经研究对电路进行改进,并经过实际运用验证表明改进措施行之有效。
现代社会,随着互联网技术的高速发展和信息化时代的到来,全球信息量暴增,人工处理信息的速度远不能满足人们的需求。自动文本摘要技术可以帮助人们快速从文本中精炼出重要信息,从而提高人们信息获取的效率。自动文本摘要技术主要分为抽取式和生成式两大类,两类方法有不同的使用场景。为了满足不同的应用需求,本文对抽取式的TextRank算法和生成式的PreSumm模型进行了研究,并对其中存在的问题提出了改进方法,提
伴随着信息技术以及各种互联网企业的迅猛发展,面对爆炸的数据以及种类繁多的新业务,传统老旧的运维方式已经不能满足一个大型企业的需求,高昂的人力成本也是人工运维必须要去面对的一个问题。在此场景下,一个高智能化的运维系统显得尤其重要。因此,针对上述问题,人们提出了一种基于机器学习的智能化运维(AIOps)技术来解决这些困难。容量分析是智能运维(AIOps)中极为重要的一个部分。本文研究的电信运维容量分析
源代码搜索是指根据自然语言查询语句获取对应的函数代码片段。其中主要涉及了自然语言处理技术,并通过将自然语言处理技术引入到源代码文本上,实现跨越自然语言与源代码两种模态形式进行搜索。现有的方法基于传统的序列表示模型分别处理自然语言语句与源代码文本输出形成向量表征形式,经过相似性比对实现搜索任务。但传统的序列表示模型例如词包模型、循环神经网络模型等对语义的特征能力抽取不足,而源代码信息含量对比自然语言
在问题规模不断增大的背景下,机器学习和深度学习的应用门槛越来越高,且需要极具经验的人工干预。然而,人工干预往往需要耗费大量的时间和计算成本。为了更好的解决上述限制,本文针对机器学习和深度学习流程中的超参数优化以及模型选择两个流程进行深入研究并实现高效的算法。对于超参数优化问题,本文以强化学习作为技术支持,实现了一种超参数优化方法。该方法通过序列选择各个超参数的方式,能够减少每一步超参数的搜索空间,
知识图谱已经在各行各业中得到了很好的应用,如法律、医疗、金融等领域。然而软件知识领域至今还没有相应的知识图谱得以建立,因此构建软件知识领域知识图谱显得十分重要。其次将软件知识图谱融入到软件领域个性化习题推荐中,可以增强推荐的科学性和可解释性。本文针对目前软件知识领域中的知识图谱构建及其相关技术问题展开了相关的研究,主要研究内容如下:对软件知识领域知识图谱的关键技术展开综述。由于目前关于领域知识图谱
近些年,人工智能已经由传统的感知智能逐渐向认知智能过渡,认知智能与自动推理成为研究的重点。如何将深度学习应用于逻辑推理,从而让机器具备思考和推理能力将是人工智能的重大突破口。本文的研究内容是基于图同构的初等数学推理引擎的设计和构建,推理引擎的系统设计理念基于产生式系统,并涉及到知识表示和实例化规则库的构建两部分。具体研究内容如下:(1)初等数学的知识表示知识表示是类人解答系统求解问题的第一步,只有