实体识别和文本分类在质检投诉中的研究与应用

来源 :上海第二工业大学 | 被引量 : 0次 | 上传用户:xu337958503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网和计算机技术的发展,各个领域的质检投诉数据积累越来越多,因此对质检数据进行分类的研究具有重要意义。目前主流的三种分类方法字典匹配、机器学习模型、深度学习模型均存在共性问题,字典匹配对于词库依赖度较高,机器学习模型和深度学习模型都需要较好的词嵌入表示。针对以上问题,本文基于质检领域数据将字典匹配、深度学习模型进行组合提出一种新的分类方法进行投诉文本的分类。主要贡献如下:(1)构建基于词典和句法依存树的中文命名实体识别模型。针对质检领域数据集存在许多专有名词使得分词困难和同一词在不同句子中的词存在多义性的问题。本文通过在主流的基于图神经网络丰富字符信息的基础上进行改进,提出一种新的基于词典和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。将句子中的词信息和句法依存树信息形成图,再通过自适应门控图神经网络(Adapted Gated Graph Neural Networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系。最后通过实验证明,对于质检领域这种专有名词较多的数据集有较好的效果提升。(2)构建一种结合词典、实体识别、传统文本分类相结合的分类方法。针对在质检数据集上仅仅依靠词典、实体识别、纯文本分类模型各自进行分类无法获取较好的分类结果的问题,本文提出一种基于投票机制的分类方式来提升最终的分类准确率。本文将三种分类方式进行整合,分类词典由国家标准商品名称分类表和实体识别所生成的新词共同构成,通过正则表达式和字符串匹配进行分类;实体识别使用上文所提到的中文实体识别算法进行新词提取和分类识别;文本分类选用TextRCNN算法模型作为文本分类模型。按照各模块结果进行汇总,选取类别最多的作为最终分类结果。实验结果表明此方法效果最佳,准确率约为91%。这种基于投票机制的文本分类模式适用场景广泛,对于不同阶段、不同应用场景有更好的适配性。(3)设计与实现质检信息管理系统投诉分类子模块。基于将投诉分类数据进行可视化、校正、导出的功能需求,本文通过使用Django和Vuejs的前后端分离技术将分类模型嵌入,通过Django来进行数据业务处理,之后通过Vuejs进行页面渲染,最终实现相关需求,为后续使用提供了极大的便利。
其他文献
本研究采用微波辅助氯化焙烧-水浴浸出相结合的技术,从NCM(废旧锂离子电池三元正极材料)中高效提取金属离子。以PVC(聚氯乙烯)为氯源,采用微波烧结炉焙烧和低温水浴浸出的方法可以有效地浸出正极材料中的有价金属。探究不同反应温度、物料比、反应时间和微波功率对浸出率的影响,并进行了浸出动力学的研究;然后采用MRNC(二甲基乙二肟)选择性回收浸出液中Ni,探究不同pH和MRNC浓度对Ni沉淀率的影响;采
学位
超声换能器作为声电转化过程不可或缺的功能部件,在医学、工业、军事等领域作用巨大。而作为超声换能器的主要敏感元件,压电材料对换能器的灵敏度、带宽等性能起直接作用。通过研制机电耦合系数高、声阻抗低、柔韧性和可控性好的压电材料,可以有效提升超声换能器在医疗、无损检测、水声等领域的应用效果。1-3型压电复合材料作为新型功能性压电材料之一,兼具压电陶瓷的压电活性、聚合物的柔韧性及良好的传感和驱动能力,成为制
学位
作为玻璃生产和使用的大国,我国每年产生大量的废玻璃,而回收量仅占50%左右,废玻璃无法焚烧,无法在填埋中自然降解,而如将废玻璃加以回收利用则能产生显著的经济和环境效益。因而对废玻璃的回收处置是缓解资源瓶颈约束,减轻环境污染的有效途径,符合国家发展循环经济的根本需求。废玻璃回收包括多项复杂工艺流程,尽管针对废玻璃的回收和分拣已有少量相关指导标准,但处理过程中的人工分拣、破碎、清洗、干燥、除杂等工艺环
学位
传统的金属氧化物由于具有成本低廉、制备方法简便、操作可控的优点成为气体传感器领域的研究热点。但是在实际生产应用中,金属氧化物气体传感器灵敏度低、工作温度高、稳定性差、使用寿命短等缺点限制了它在气体传感器方向的长足发展。碳纳米角(CNH)是一种新型的碳纳米材料,与棒状碳纳米管和层状石墨烯相比,碳纳米角具有独特的球形形貌,由于碳纳米角具有比表面积大、热稳定性强、孔隙率高等特点获得了广泛的关注。Ti3C
学位
近年来,臭氧(O3)污染对全国各地环境空气质量的影响十分突出,挥发性有机物(Volatile Organic Compounds,简称VOCs)是O3的重要前体物之一。近期国家出台的各项文件指出企业需要针对挥发性有机液体储罐、装卸、敞开液面等10个关键环节进行VOCs污染治理,可见亟需对有机液体装卸环节进行治理。本文以某工业园区六家典型企业作为研究对象,开展有机液体装卸环节挥发性有机物排放特征研究
学位
新能源汽车产业的发展是我国减少能源消耗和降低二氧化碳排放的重要措施,整车控制器作为新能源汽车核心部件之一,其软件测试是控制器开发过程中必不可少的环节。随着新能源汽车上电气电子设备数目显著增加,整车控制器功能变得越来越复杂。为解决传统汽车控制器测试过程中存在环境配置和筛选测试脚本等的大量人力成本消耗、测试时间局限、测试决策单一、效率低下、准确度低的问题,本课题根据汽车企业实际需求,设计并实现了基于持
学位
随着无线通信技术的出现及蓬勃发展,其在当今社会中的应用越来越广泛。其中在自媒体技术的推动下,使得无线语音传输系统的研究与开发具有较大的市场需求和应用前景。与此同时,也就意味着对系统语音传输的质量以及语音延迟性提出了更高的要求。而对于无线通信,信源的质量和信道的容量是无线通信中最主要的两个因素,也是以往研究的重点。本文中采用的OPUS音频编解码技术是从信源的角度在信道容量一定和不影响语音质量的情况下
学位
臭氧是一种高效广谱无残留污染的气体消毒剂。新冠肺炎在全世界的大流行显著地影响了公共安全和健康。低浓度的臭氧能够灭活新冠病毒。负离子发生器是产生臭氧的一种安全高效的方法,通过多针对板电晕放电,在针板电极之间会形成离子流,释放出一定浓度的臭氧。在负离子发生器中电极板间距与臭氧释放的关系研究中,不同的实验观察出现矛盾的结果,使得理论解释变得非常困难和复杂。本实验室系统地研究臭氧释放速率与针板电极间距离和
期刊
异丙醚(IPE)可以作汽油添加剂,解决含铅汽油问题,也可作化学工业上的溶剂,与异丙醇(IPA)混合溶解纤维,同时可以处理煤气厂污水来解决水污染问题。它可应用到医药中间体,也可应用至煤制溶剂或者制备生产香料等工业中。另外,异丙醚还可应用于腈纶硫氰酸钠的一步法萃取回收等。在一定条件下,它也可作为生产乙醇的一条可行的工艺路线。近年来,随着人们对异丙醚的优异性能的认识,为异丙醚的发展带来机遇。分子筛催化异
学位
钢阻尼器是增强建筑物抗震性能的重要手段,它通过吸收外部振动能量,从而减弱振动对构件的影响,具有良好的消能减震效果。钢阻尼器在强震来临时通常需要承受高应变低周疲劳,这对阻尼器用钢(低屈服点钢,通常为(超)低碳铁素体钢)的低周疲劳性能提出了较高要求。铁素体钢在循环变形过程中交滑移频繁发生且塑性变形不可逆,在此过程中伴随着组织稳定性降低及应变局域化;随循环进一步进行,疲劳裂纹往往萌生于材料表面的应力集中
学位