基于规则的数据分类算法在铁路运输信息中的应用

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:wang218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国铁路信息化建设的快速发展,铁路运输中产生的信息数据的规模迅速膨胀,且数据类型纷繁复杂,对铁路运输管理技术人员提出了全新的挑战。然而,目前铁路运输信息系统却只能提供一些常规查询和统计功能,还不具备对铁路运输信息进行实时分析和预测的能力,故无法完全满足铁路运输的实际需要。如何有效地组织和利用海量的铁路运输信息数据,揭示隐藏在数据背后本质联系,为铁路运输管理提供更为准确、直观的指导方案是铁路信息化建设亟待解决的重要课题,同时也是本论文研究的主旨所在。本文系统的介绍了数据挖掘领域的发展概况,阐述了基于统计的数据分类的一般内容。在充分比较分析了基于朴素贝叶斯和支持向量机两种统计分类算法的基础上,针对将它们应用于铁路运输信息数据分类时存在的一些问题进行了深入剖析。通过研究发现,当类别之间交叉现象比较严重时(即类间的特征重复较多时),分类器的精度会大大下降,尤其是在多层分类中,有些子类之间的特征交叉更为严重,即使在大类别基本正确的情况下,子类的分类精度也会大幅度降低,严重影响对子类数据进行进一步预测分析,从而导致整体预测结果失效。针对基于统计的分类方法的上述不足,本文进一步提出了新的基于规则的铁路运输信息数据分类方法。该方法结合统计分类方法,通过定制面向铁路信息系统的行业分类规则,设计出基于专家规则的分类器,并构建出具有高准确性的分类模型。此外,进一步将本研究所提出的分类策略应用于铁路运输管理信息系统的数据分类中,进行实际系统测试,取得了较好的分类性能。最后,本文还对于基于统计的各种分类方法所得到的结果进行了比较分析,结果表明,由于铁路运输信息数据的特殊性(强周期和季节性等),只有在基于统计的分类方法基础上引入专家规则,使二者有机结合,才能取得较好的分类结果。同时,本文所提出的基于规则的分类器的泛化和扩展能力方面也优于基于统计的分类方法,故在铁路运输信息管理领域有着广泛的应用前景。
其他文献
随着计算机技术的飞速发展,中间件已成为三大基础软件之一和网络应用系统的基础平台。其可以更好地用于开发和应用能够在异构平台上运行的应用软件,适应基于标准的、独立于计
随着计算机信息技术在各个领域的应用不断扩大,教育行业招生领域从地域横向到行业纵向实施了信息化、无纸化办公。具有针对性的并且易扩展的招生管理信息系统是完成该任务的
在许多流行的图像分享网站(如Flickr,Google+)中,用户们可以上传照片并且把同一事件的照片归到一类,作为一个照片事件(event)。浏览者可以通过搜索引擎搜到这些事件,并且这些事件以其
本文旨在把数据挖掘技术引入到地震预报领域,研究并行关联规则、聚类等在地震预报中的应用,着重讨论并行关联规则在地震地区相关性预报中的应用。 首先,对地震数据进行了数据
WWW的发展给人们带来了巨大的变化,面对如此大量的信息,人们迫切需要有效的信息发现工具在WWW上进行导航。搜索引擎就提供了这样一个导航工具。而随着多Agent技术的发展,为了
本文在广泛调研的基础上,分析了当前Web服务应用研究中构造开发模型的特点和存在的问题,通过对Web服务核心技术和模式理论的研究探索,提出了一个Web服务集成开发模型:描述了W
数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅
随着互联网应用的不断普及,网络信息安全方面的问题也越来越严重。在互联网中,电子邮件的应用最为广泛,电子邮件系统出现的安全问题也最多,安全电子邮件已成了电子商务、电子政务
规范管理应用和各种管理系统之间的接口是当前通信网管研究的一个热点。在通信网管的标准中,TMN以其相对完备的体系结构规范和开放的系统设计思想获得了广泛的应用。它的一个
近几年来,Internet处于不断的发展和变化中。从Internet上承载的应用看,有三个明显的趋势:一是业务流量的规模不断增大;二是VOIP、网络视频服务等多媒体应用不断增多;三是电