基于深度学习的产品信息挖掘

来源 :沈阳航空航天大学 | 被引量 : 2次 | 上传用户:tianyawoaiai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
产品信息是指有关产品的消息、情报、数据和知识等。作为经济信息的一个有机组成部分,在整个商务活动过程中扮演重要作用。从以文本形式存储的信息中自动挖掘出能够直接用于统计分析和知识发现的语义项已经成为自然语言处理领域研究的热点。当前,深度学习技术广泛应用于自然语言处理领域,并在多方面取得突破性进展。基于深度学习的产品信息挖掘的研究目的就是利用深层神经网络等深度学习技术完成面向产品的相关术语、相关部件以及其他相关概念词等语义项的挖掘任务。主要工作包括:1.产品相关术语挖掘;2.产品相关部件挖掘;3.产品相关概念词挖掘。首先,在产品的相关术语挖掘方面,本文采用双向长短期记忆模型(BiLSTM)与条件随机场(CRF)两个模型的有效结合,前者通过词的分布式表示作为输入,考虑上下文信息并且对关键字双向编码;后者考虑前一时间状态节点对当前状态节点的转移概率,并且通过维特比算法进行全局最优解码。实验表明上述模型识别结果相比传统条件随机场模型的F1值提高0.7%。然后,在产品的相关部件挖掘方面,本文提出一种基于统计和知识相结合的产品部件信息自动抽取方法。为确保抽取的相关性,采用词频剪枝方法过滤掉干扰词,利用BiLSTM生成上下文向量,并计算语义相关度。为确保抽取的准确性,引入知网知识库,根据词语首义原的分类来验证抽取结果是否为部件类概念词。实验表明识别结果相比现有方法F1值提升3.7%。其次,在产品的其他相关概念词挖掘方面,主要完成与产品相关的人名、地名、机构名等命名实体的识别,虽然其挖掘的方法与相关术语挖掘方法类似,但是标签的类别对比术语更为复杂,所以本文采用双向门控循环单元神经网络模型(BiGRU),并且加入注意力机制,对候选实体进行关系分类。实验表明上述模型识别结果相比与不做分类的相关识别F1值提升6.3%。最后,设计产品相关信息挖掘系统,该系统完成上述任务的可视化操作。
其他文献
日本是社会性长期护理保险的典型代表国家,其长期护理保险制度对我国护理保障体系的构建具有重要的借鉴意义。对日本长期护理保险进行研究,从其产生的社会背景入手,介绍了保
台湾的国际航空市场是一个泛公营(混合所有制)与纯民营同时进行竞争的混合寡占市场。政府对中华航空公司的民营化,将影响民营化企业与民营企业对于企业社会责任策略的选择。
随着现代医疗体系的日益成熟,越来越多的新兴技术应用于医疗系统中。其中,自动问答技术就给医患沟通带来很大帮助。基于深度学习的生成式问答系统一般使用序列到序列(Sequenc
目的 HOXA10是胚胎黏附的重要调控分子,其表达降低将导致胚胎种植失败,已知反复种植失败患者子宫内膜组织中Nur77和HOXA10的表达均降低。本研究旨在探究Nur77是否通过转录调
污染土壤重金属原位钝化修复是通过向土壤中施加一些活性钝化修复材料,通过溶解沉淀、离子交换吸附、氧化还原、有机络合等反应来改变重金属在土壤中的赋存状态,降低土壤中重
【目的】以安庆市区常绿园林绿化植物香樟为研究对象,探讨香樟叶片、叶柄生物量分配及含水量在生长季(发育阶段)和树冠方位上的差异格局及相互关系。【方法】在夏季和冬季分
[目的](1)通过建立复发性外阴阴道假丝酵母菌病(recurrentvulvovaginal candidiasis,RVVC)的小鼠模型,探索构建复发性外阴阴道假丝酵母菌病小鼠模型的方法。为RVVC的临床治疗
在职业教育改革中,课程改革一直是备受关注的热点问题之一。职业教育的首要目标是使学生获得职业能力,实现直接就业,并在职业中得到发展。如何使职业教育的课程达到使学生的潜能
高血压是我国最常见的心血管疾病,其本质是微循环障碍。血压的升高是以外周阻力的增加为基础,其中阻力血管功能的改变促进了高血压的发生和发展。血管中的内皮细胞对维持血管
阅读在英语学习中占有十分重要的地位。在阅读理解过程中图式知识确实有其独特而巨大的优势,对阅读实践活动和教学活动都具有十分重要的意义。但图式知识的运用仍具有一定的局