论文部分内容阅读
【摘 要】时序信号分析是信息数据的获取和非时序信息系统的转换的基础,其中的知识挖掘技术起到了关键性的作用,论文从知识挖掘技术和其在时序信号分析系统中的应用进行分析,为业内相关研究打下基础,观点作为同行参考之用,不足之处,有待进一步指正。
【关键词】知识挖掘;时序信号;分析系统;应用
0.引言
随着信息技术的飞速进展,多元化、多种类的时序数据会在人们的工作中大量的积累,其排列的顺序是根据时间进行集合的,而这些大量的时序信息具有一定的价值,但由于时序信号数据的动态变化性的特点比较明显,因而要利用知识挖掘在时序信号分析系统中的应用,对时序信号进行获取、转换,并对转换后的非时序信息进行属性约简,通过对时序信号信息进行挖掘,去除冗余信息,从数据中寻求人们感兴趣的内容。知识挖掘在时序信号分析系统中的应用包含电力、金融、工程等领域,带来了积极的意义,其研究也具有很大的价值,笔者结合已有的工作研究经验,以下将做简要论述。
1.知识挖掘在时序信号分析系统中的应用研究
1.1知识挖掘技术
一般从技术角度和商业角度对知识挖掘技术进行定义,以下将分述。
(1)技术角度:由于应用数据的繁杂性、模糊性、非完全性、噪声性等特点,要从中提取人们所未知的但具有价值的潜在信息,知识的表现形式非常广泛,如数据、信息、理解、观念、规则、模式等都被当成知识家庭的一份子。而原始的知识是结构化或半结构化的,有的甚至呈现异构型数据的形式,知识挖掘的过程和手段也是多样化的,如数学的和非数学的都可以起到作用,挖掘之后的知识被用来进行过程控制、信息管理、决策、优化等,其可以对数据的应用慈宁宫低层次的查询、到高层次的挖掘、提供了诸如数理统计技术、人工智能技术、并行计算技术等方面的功能,是一门多领域的交叉性学科,可以将多领域的知识进行综合拓展新的研究领域。
(2)商业角度:知识挖掘归根结底是以应用为实现形式的,而应用是一种新的商业信息的处理技术,在商业数据库的功能集成中,可以实现诸如数据的采集、转换、分析和模型化的处理等,为商业决策提供重要参考。数据挖掘在时序信号分析系统中的应用其实是深层次的数据分析方法,虽然应用于科学研究的情况较多,但大量的业务数据的处理并不单纯的只是为了分析,而是为了给科学的商业决策提供有价值的信息,进而帮助企业盈利。只是由于时序信号的量非常大,且信息庞杂,从中提取的有用信息的价值难以和投入形成正相关系,制约了其应用的深度。但是知识挖掘按照企业的既定业务目标,对大量的信息进行分析和探索,揭示其中隐藏的规律,然后模型化,以为商业运用打下基础,是当今知识挖掘的另一项重要的意义。
1.2知识挖掘在时序信号分析中的技术
知识挖掘在对于时序信号的分析中常用到关联分析、预测、聚类、概念描述和偏差检测等技 术,以做出前瞻性、基于知识的决策,发现其中隐含的具有价值的知识。
(1)关联分析:由于某些数据之间存在内在的规律,并且能够被发现利用的,称为关联,关联主要有三种形式:因果关联、简单关联和时序关联,本文研究的主要为时序关联,数据中存在隐藏的关联网,非线性的或线性的函数关系,关联分析技术具有一定的可信度,可以作为知识挖掘的重要手段来发现其中存在的内在动力因素。
(2)预测:大量的数据如果经过手工分析将带来工作中的不利,而自动化的预测技术可以满足大型数据库中的信息预测需要,并且可以直接由数据本身得出结论,如在市场促销的预测中,知识挖掘技术可以根据已有的数据寻找未来投资中回报率最高的用户;在预报破产和事件的反应群体的认证制定等都有相应的应用。
(3)概念描述:所谓概念描述主要是针对数据的有关特征和内涵进行评述分析,其主要的描述手段有区别性描述和特征性描述,区别性描述主要是針对不同对象之间的差别,有遗传算法和决策树方法等;而特征描述则针对对象的共同点,生成一个类的特征交集。
(4)聚类:知识挖掘中的聚类即是根据一系列有意义的子集来进行划分,作为概念描述的基础条件,可以增强人们对于可观现实的认知能力,其主要的方法包含数学分类法和传统模式识别法。以上世纪80年代 Mchalski提出的聚类技术为代表,可以克服描述对象之间的距离,划分其中的内涵和特征,可以较为全面、客观的为描述打下基础。
(5)偏差检测:由于大量的数据存在,必然有异常的记录,如反常实例、观测结果与预期的偏差、不规则的数据模型等,形成了潜在的数据偏差,因而偏差检测具有积极的意义。现代的偏差检测技术综合了决策树、遗传算法、可视化技术、人工神经网络等,从结构上进行仿生设计,通过训练来进行非线性的预测、检查等,基于生物进化的理念设计的应用模型可以实现时序信号的偏差分析,将偏差超过范围的时序信号进行排除。
1.3知识挖掘在时序信号分析中的应用流程
知识挖掘实际上是在整个系统中进行的,获取未知的、实用的和有效的信息,其涉及到时序信号的数据库的建立、选择采样、时序信号的预处理、信号转换、知识的发现和评价固化等,并且整个流程形成一个反馈信息系统,综合起来而言分为三大子系统:时序信号的数据准备阶段、知识挖掘阶段和结果的处理分析阶段。
2.结束语
由于现代工作中面对大量的数据信息,但信息的量大、复杂、操作困难性大,因而研究具体的手段在时序信号中的应用,可以充分挖掘其中存在的价值,给研究或企业决策提供重要的参考。但是时序信号的复杂性制约了其挖掘潜力的发挥,因而研究知识挖掘的应用技术和手段,对于时序信号的分析处理具有重要的作用,相关的研究也值得进一步深入,以为业内研究做出贡献。
【参考文献】
[1]张文修,吴伟志,梁吉业等.粗糙集理论与方法.北京:科学出版社,2001:25-45.
[2]王国胤.Rough集理论与知识获取.西安:西安交通大学出版社,2001:114.132.
[3]石红,沈毅,刘志言等.关于粗糙集理论及应用问题的研究.计算机工程,2003:1-4.
[4]刘延卿,曹家琏.粗集挖掘策略在时间序列分析系统中的应用.电脑知识与技术,2009,5(5):1179-1180.
[5]张琦,韩祯祥,文福拴.一种基于租集的电力系统故障诊断新方法.中国电力,1998,31(4):31.39.
[6]潘丹.属性约简臼寻优方法.计算机研究与发展,2001,36(6)I:904-909.
【关键词】知识挖掘;时序信号;分析系统;应用
0.引言
随着信息技术的飞速进展,多元化、多种类的时序数据会在人们的工作中大量的积累,其排列的顺序是根据时间进行集合的,而这些大量的时序信息具有一定的价值,但由于时序信号数据的动态变化性的特点比较明显,因而要利用知识挖掘在时序信号分析系统中的应用,对时序信号进行获取、转换,并对转换后的非时序信息进行属性约简,通过对时序信号信息进行挖掘,去除冗余信息,从数据中寻求人们感兴趣的内容。知识挖掘在时序信号分析系统中的应用包含电力、金融、工程等领域,带来了积极的意义,其研究也具有很大的价值,笔者结合已有的工作研究经验,以下将做简要论述。
1.知识挖掘在时序信号分析系统中的应用研究
1.1知识挖掘技术
一般从技术角度和商业角度对知识挖掘技术进行定义,以下将分述。
(1)技术角度:由于应用数据的繁杂性、模糊性、非完全性、噪声性等特点,要从中提取人们所未知的但具有价值的潜在信息,知识的表现形式非常广泛,如数据、信息、理解、观念、规则、模式等都被当成知识家庭的一份子。而原始的知识是结构化或半结构化的,有的甚至呈现异构型数据的形式,知识挖掘的过程和手段也是多样化的,如数学的和非数学的都可以起到作用,挖掘之后的知识被用来进行过程控制、信息管理、决策、优化等,其可以对数据的应用慈宁宫低层次的查询、到高层次的挖掘、提供了诸如数理统计技术、人工智能技术、并行计算技术等方面的功能,是一门多领域的交叉性学科,可以将多领域的知识进行综合拓展新的研究领域。
(2)商业角度:知识挖掘归根结底是以应用为实现形式的,而应用是一种新的商业信息的处理技术,在商业数据库的功能集成中,可以实现诸如数据的采集、转换、分析和模型化的处理等,为商业决策提供重要参考。数据挖掘在时序信号分析系统中的应用其实是深层次的数据分析方法,虽然应用于科学研究的情况较多,但大量的业务数据的处理并不单纯的只是为了分析,而是为了给科学的商业决策提供有价值的信息,进而帮助企业盈利。只是由于时序信号的量非常大,且信息庞杂,从中提取的有用信息的价值难以和投入形成正相关系,制约了其应用的深度。但是知识挖掘按照企业的既定业务目标,对大量的信息进行分析和探索,揭示其中隐藏的规律,然后模型化,以为商业运用打下基础,是当今知识挖掘的另一项重要的意义。
1.2知识挖掘在时序信号分析中的技术
知识挖掘在对于时序信号的分析中常用到关联分析、预测、聚类、概念描述和偏差检测等技 术,以做出前瞻性、基于知识的决策,发现其中隐含的具有价值的知识。
(1)关联分析:由于某些数据之间存在内在的规律,并且能够被发现利用的,称为关联,关联主要有三种形式:因果关联、简单关联和时序关联,本文研究的主要为时序关联,数据中存在隐藏的关联网,非线性的或线性的函数关系,关联分析技术具有一定的可信度,可以作为知识挖掘的重要手段来发现其中存在的内在动力因素。
(2)预测:大量的数据如果经过手工分析将带来工作中的不利,而自动化的预测技术可以满足大型数据库中的信息预测需要,并且可以直接由数据本身得出结论,如在市场促销的预测中,知识挖掘技术可以根据已有的数据寻找未来投资中回报率最高的用户;在预报破产和事件的反应群体的认证制定等都有相应的应用。
(3)概念描述:所谓概念描述主要是针对数据的有关特征和内涵进行评述分析,其主要的描述手段有区别性描述和特征性描述,区别性描述主要是針对不同对象之间的差别,有遗传算法和决策树方法等;而特征描述则针对对象的共同点,生成一个类的特征交集。
(4)聚类:知识挖掘中的聚类即是根据一系列有意义的子集来进行划分,作为概念描述的基础条件,可以增强人们对于可观现实的认知能力,其主要的方法包含数学分类法和传统模式识别法。以上世纪80年代 Mchalski提出的聚类技术为代表,可以克服描述对象之间的距离,划分其中的内涵和特征,可以较为全面、客观的为描述打下基础。
(5)偏差检测:由于大量的数据存在,必然有异常的记录,如反常实例、观测结果与预期的偏差、不规则的数据模型等,形成了潜在的数据偏差,因而偏差检测具有积极的意义。现代的偏差检测技术综合了决策树、遗传算法、可视化技术、人工神经网络等,从结构上进行仿生设计,通过训练来进行非线性的预测、检查等,基于生物进化的理念设计的应用模型可以实现时序信号的偏差分析,将偏差超过范围的时序信号进行排除。
1.3知识挖掘在时序信号分析中的应用流程
知识挖掘实际上是在整个系统中进行的,获取未知的、实用的和有效的信息,其涉及到时序信号的数据库的建立、选择采样、时序信号的预处理、信号转换、知识的发现和评价固化等,并且整个流程形成一个反馈信息系统,综合起来而言分为三大子系统:时序信号的数据准备阶段、知识挖掘阶段和结果的处理分析阶段。
2.结束语
由于现代工作中面对大量的数据信息,但信息的量大、复杂、操作困难性大,因而研究具体的手段在时序信号中的应用,可以充分挖掘其中存在的价值,给研究或企业决策提供重要的参考。但是时序信号的复杂性制约了其挖掘潜力的发挥,因而研究知识挖掘的应用技术和手段,对于时序信号的分析处理具有重要的作用,相关的研究也值得进一步深入,以为业内研究做出贡献。
【参考文献】
[1]张文修,吴伟志,梁吉业等.粗糙集理论与方法.北京:科学出版社,2001:25-45.
[2]王国胤.Rough集理论与知识获取.西安:西安交通大学出版社,2001:114.132.
[3]石红,沈毅,刘志言等.关于粗糙集理论及应用问题的研究.计算机工程,2003:1-4.
[4]刘延卿,曹家琏.粗集挖掘策略在时间序列分析系统中的应用.电脑知识与技术,2009,5(5):1179-1180.
[5]张琦,韩祯祥,文福拴.一种基于租集的电力系统故障诊断新方法.中国电力,1998,31(4):31.39.
[6]潘丹.属性约简臼寻优方法.计算机研究与发展,2001,36(6)I:904-909.