基于文本挖掘的铁路外部环境隐患类别自动判别方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:snowmansoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国铁路路网规模不断扩大,铁路外部环境问题越发突出,已经成为铁路行车安全的重要风险源之一。党和国家领导人对此高度关注,2019和2020年党和国家领导人对铁路外部环境隐患治理多次做出重要指示和批示。中国国家铁路集团有限公司(以下简称为国铁集团)十分重视铁路外部环境安全,多次开展铁路外部环境隐患排查整治专项活动。2019年10月,国铁集团安监局组织开展全国范围内高铁外部环境隐患排查整治大行动。由于各路局的管理特点和对外部环境隐患管理办法理解不同,在排查整治行动中暴露出外部环境隐患应属类别(目前国铁集团将外部环境隐患分成15大类,76小类)识别不清的问题。这严重影响了国铁集团和各铁路局准确掌握外部环境隐患情况及落实地方政府整治主体责任。本文针对人工判别外部环境隐患类别不统一的问题,基于文本挖掘和支持向量机(SVM),实现了外部环境隐患类别自动判别。本文主要完成以下工作:(1)构建外部环境隐患特征词库。首先通过中文分词、去停用词等手段将外部环境隐患描述文本切割成词或单字集合,以此构建外部环境隐患特征词库;然后通过CHI检验、基于改进的TF-IDF算法对特征词库内的词及词权重进行优化;最后,基于优化后的特征词库,采用文本挖掘技术实现外部环境隐患描述文本的向量化。(2)利用向量化的外部环境隐患描述文本,基于SVM分类算法实现铁路外部环境隐患类别自动判别。首先基于SVM分类算法,结合铁路外部环境隐患数据特点,构造了EHD-CSVC和EHD-VSVC两个分类器。基于优化后的词库对两种分类器在多项式、RBF、sigmoid三种核函数条件下的分类效果进行比较,结果表明多项式核函数下的EHD-CSVC分类器分类效果最优。在选定核函数和分类器条件下,对核函数参数和分类器参数进行寻优,在多项式阶数为3,惩罚系数为32,核函数参数γ为3.0517578125e-5时,分类准确率能够达到92.33%。(3)对EHD-CSVC分类器进行系统实现,满足实际工作需求。基于上述研究成果,依托《铁路外部环境安全管理信息系统》,对隐患外部环境隐患类别自动识别完成功能实现,并利用部分未参与机器学习的外部环境隐患数据进行功能测试,分类准确率为90.5%,平均响应时间1.04s。测试结果表明外部环境隐患类别自动判别功能准确率和响应速度能够满足日常工作需要。最后基于隐患外部环境隐患类别自动判别功能对隐患数据进行分析。图30幅,表9个,参考文献49篇。
其他文献
在建筑工程中,暖通工程被划归为重点,它耗费了偏多的总能耗.针对建筑行业,依循减排及节能这样的总指引,优化设计空调.节能路径下的优化设计,改善了偏旧的空调运行,真正降耗及
目前园林景观工程在房地产建设工程中越来越受到重视,因为园林景观,特别是绿化部分,如果说设计规划的比较合理,会把整个小区品质提高很多,且树木做为软性景观,随着时间推移,
本文运用生产力、人力资源、教育优先发展和可持续发展等方面的理论,对我国所实施的科教兴国战略进行了理论方面的探讨,为说明高校在科教兴国中的地位和作用作了必要的理论阐述
随着科学技术的不断提高,电力工程的自动化已经成了电力行业发展的大趋势。随着电网的不断完善和各种现代化技术在电力系统中的应用,我国电力的自动化水平已经有了很大的进步,但
【正】 在修辞格中,争论较多的是夸张。往往有这种情况,明明是夸张手法,而有的人则照实际意义去评点。这种笑话,不仅出于一般人,有时甚至出在一些专家学者的身上。这究竟是什
期刊
【正】 现代科学的研究证明,物质世界具有无限的层次。就现代科学已经认识到的物质层次而言,从层子、基本粒子、原子核,直到星系、超星系团、总星系等,每一层次都有它本身的
期刊
在众多的修辞学论著中,我们欣喜地发现吴士文教授的《修辞格论析》(上海教育出版社出版,下称《论析》)一书,作为我国迄今为止第一部全面论述辞格的专著,在辞格研究领域作出了开创性
【正】 一、什么是篇章"篇章"这个术语,古已有之。古人所谓"文章之学"或"辞章之学",主要就是谈论篇章的一些知识。《论衡·正说》云:"句有数以连章,章有体以成篇。"《文
期刊
【正】 《望星空》《望星空》是一支深受大众喜爱的曲子。它那悠扬动人的曲调,美妙隽永的歌词,开启了不少青年的心扉,拨动了无数对情侣的心弦,一对对分居两地的夫妻藉此寄寓
期刊
【正】 苏联学者维诺格拉多夫说:"文学语言的一般同义语,在艺术文学的语言中已无限地不可估量地扩大和丰富起来……使意义本来相距很远的特别是用来有力地讽刺和表现形象的字
期刊