基于文本挖掘的在线煤矿事故案例分类方法研究

来源 :安徽理工大学 | 被引量 : 3次 | 上传用户:fanfrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展,促使煤矿企业积累了大量煤矿数据资源。阅读煤矿数据挖掘相关文献可以发现:当前煤矿数据挖掘对象主要集中在隐患数据、监测数据,而对在线煤矿事故案例的研究较少,造成数据资源的浪费。在线煤矿事故案例作为对事故时间、原因等多个方面总结的非结构化数据,在处理的过程中具有一定的难度。但是,数据内部包含的信息对于煤矿安全生产、安全管理具有重要意义。因此,本论文选取在线煤矿事故案例作为研究对象,构建煤矿事故案例自动分类模型,挖掘煤矿事故案例中包含的信息。本论文为了研究在线煤矿事故案例自动分类方法,对相关理论技术进行研究。常见的文本表示模型为基于统计语言的词袋模型、Tf-idf模型表示方法。W-ord2-vec作为基于神经网络语言的文本表示方法,能够将中文文档中的词语转换成词语向量。为了构建自动分类模型,本论文对Word2vec进行改进,将输出的词语向量转换成文档向量,实现中文文本数据到计算机语言的转换。支持向量机分类器的分类效果受到参数的影响,为了选用最优模型参数构建分类模型,本论文将网格法与支持向量机结合构建cgSVM分类模型,运用cgSVM实现在线煤矿事故案例自动分类。为了研究在线煤矿事故案例自动分类方法,将3种文本表示方法与不同分类器进行结合共构建word-SVM,word-Mul-NB,word-DTC,Tf-idf-SVM,Tf-idf-MulNB,Tf-idf-DTC,Word2vec-SVM,Word2vec-cgSVM8 种文本自动分类模型。比较煤矿监测网以及煤矿安全网网站中与煤矿事故案例相关的内容,爬取煤矿安全网对应的煤矿事故案例作为实验数据验证自动分类模型的性能。从比较模型的预测值与实际值以及性能评价指标值两个方面评价8种模型的分类效果。得出Word2vec-cgSVM模型的预测结果与实际值更加接近的结论,对应的精确率、召回率、fl-score 分别为 0.977、0.976、0.976。通过研究,本论文构建了煤矿事故案例自动分类模型,经过模型性能分析得出构建的Word2vec-cgSVM对在线煤矿事故案例分类的精确率能够达到97.7%。将Word2vec-cgSVM自动分类模型运用到在线煤矿事故案例分类中,能够节约分类的人力、时间,对提高企业的分类效率具有实际意义。对Word2vec和支持向量机进行改进,提出了改进的Word2vec和cgSVM模型,丰富了文本表示和文本分类模型,对后续的中文文本分类研究具有理论意义。图14 表17 参67
其他文献
为了研究子午线轮胎耐久试验后的破坏规律,建立了滚动轮胎三维非线性有限元模型。在模型中考虑了轮胎的几何非线性、材料非线性以及轮胎接触非线性,计算了滚动速度和侧倾角度对
随着市场化、产业化程度不断提高,传媒市场竞争日益加剧,经营管理对于传媒的促进作用日益显现,激发了传媒业对经营管理类创新型人才的大量需求。因而,培养既懂传媒业务,又懂
新课程将学生语文素养作为一个核心概念提出,并对其进行了详细解释,主张把学生语文素养的培养作为语文教育的重点来抓。这是对传统应试教育的革新,体现了语文教育工作的推陈
民族音乐是高校思想政治教育的重要资源和载体,挖掘和实现民族音乐的思想政治教育价值,为高校思想政治理论课提供教育资源,拓展思想政治教育形式,开发民族音乐在高校思想政治
<正> 这里需要就为什么要编译这个集子以及编译过程向读者作一些说明。这个过程持续了五年。编译的动力既出于好奇,也为了做一些尝试,但主要是由于我急于想了解"现代中国创作
针对《关于审理证券市场因虚假陈述引发的民事赔偿案件的若干规定》中关于虚假陈述因果关系的认定作出评析,发现其中存在缺陷,即排除了诱空的虚假陈述,在虚假陈述实施日至虚
如今,信息化已成为大势所趋,各式各样的讯息沟通软件如雨后春笋般涌现,让人应接不暇,如微博、微信、QQ等已广为人知,于是,许多语文教育工作者也开始将探索的视线投向大家喜闻
营运资金是一个传统的财务管理话题,但却是企业财务管理中的一个重要概念和重要内容。在理论方面,我国缺乏营运资金方面的理论创新与实证研究,甚至某些理论观点存在一定的误
20世纪以来,随着世界范围内现代科学技术的迅猛发展及其应用,农业发展过程中呈现出明显的现代化和机械化趋势。一方面,农业机械在农业生产中发挥着重要作用,能够很大程度上促
幼教工作者应当着力用爱心和责任,从班风、园风建设入手,创造一个奋发向上而又团结一心的校园文化环境,树立群体成员共同一致的群体目标,帮助幼儿在集体需要和自身发展中确立