基于文本挖掘的铁路外部环境隐患类别自动判别方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:snowmansoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国铁路路网规模不断扩大,铁路外部环境问题越发突出,已经成为铁路行车安全的重要风险源之一。党和国家领导人对此高度关注,2019和2020年党和国家领导人对铁路外部环境隐患治理多次做出重要指示和批示。中国国家铁路集团有限公司(以下简称为国铁集团)十分重视铁路外部环境安全,多次开展铁路外部环境隐患排查整治专项活动。2019年10月,国铁集团安监局组织开展全国范围内高铁外部环境隐患排查整治大行动。由于各路局的管理特点和对外部环境隐患管理办法理解不同,在排查整治行动中暴露出外部环境隐患应属类别(目前国铁集团将外部环境隐患分成15大类,76小类)识别不清的问题。这严重影响了国铁集团和各铁路局准确掌握外部环境隐患情况及落实地方政府整治主体责任。本文针对人工判别外部环境隐患类别不统一的问题,基于文本挖掘和支持向量机(SVM),实现了外部环境隐患类别自动判别。本文主要完成以下工作:(1)构建外部环境隐患特征词库。首先通过中文分词、去停用词等手段将外部环境隐患描述文本切割成词或单字集合,以此构建外部环境隐患特征词库;然后通过CHI检验、基于改进的TF-IDF算法对特征词库内的词及词权重进行优化;最后,基于优化后的特征词库,采用文本挖掘技术实现外部环境隐患描述文本的向量化。(2)利用向量化的外部环境隐患描述文本,基于SVM分类算法实现铁路外部环境隐患类别自动判别。首先基于SVM分类算法,结合铁路外部环境隐患数据特点,构造了EHD-CSVC和EHD-VSVC两个分类器。基于优化后的词库对两种分类器在多项式、RBF、sigmoid三种核函数条件下的分类效果进行比较,结果表明多项式核函数下的EHD-CSVC分类器分类效果最优。在选定核函数和分类器条件下,对核函数参数和分类器参数进行寻优,在多项式阶数为3,惩罚系数为32,核函数参数γ为3.0517578125e-5时,分类准确率能够达到92.33%。(3)对EHD-CSVC分类器进行系统实现,满足实际工作需求。基于上述研究成果,依托《铁路外部环境安全管理信息系统》,对隐患外部环境隐患类别自动识别完成功能实现,并利用部分未参与机器学习的外部环境隐患数据进行功能测试,分类准确率为90.5%,平均响应时间1.04s。测试结果表明外部环境隐患类别自动判别功能准确率和响应速度能够满足日常工作需要。最后基于隐患外部环境隐患类别自动判别功能对隐患数据进行分析。图30幅,表9个,参考文献49篇。
其他文献
本文运用生产力、人力资源、教育优先发展和可持续发展等方面的理论,对我国所实施的科教兴国战略进行了理论方面的探讨,为说明高校在科教兴国中的地位和作用作了必要的理论阐述