论文部分内容阅读
产品信息是指有关产品的消息、情报、数据和知识等。作为经济信息的一个有机组成部分,在整个商务活动过程中扮演重要作用。从以文本形式存储的信息中自动挖掘出能够直接用于统计分析和知识发现的语义项已经成为自然语言处理领域研究的热点。当前,深度学习技术广泛应用于自然语言处理领域,并在多方面取得突破性进展。基于深度学习的产品信息挖掘的研究目的就是利用深层神经网络等深度学习技术完成面向产品的相关术语、相关部件以及其他相关概念词等语义项的挖掘任务。主要工作包括:1.产品相关术语挖掘;2.产品相关部件挖掘;3.产品相关概念词挖掘。首先,在产品的相关术语挖掘方面,本文采用双向长短期记忆模型(BiLSTM)与条件随机场(CRF)两个模型的有效结合,前者通过词的分布式表示作为输入,考虑上下文信息并且对关键字双向编码;后者考虑前一时间状态节点对当前状态节点的转移概率,并且通过维特比算法进行全局最优解码。实验表明上述模型识别结果相比传统条件随机场模型的F1值提高0.7%。然后,在产品的相关部件挖掘方面,本文提出一种基于统计和知识相结合的产品部件信息自动抽取方法。为确保抽取的相关性,采用词频剪枝方法过滤掉干扰词,利用BiLSTM生成上下文向量,并计算语义相关度。为确保抽取的准确性,引入知网知识库,根据词语首义原的分类来验证抽取结果是否为部件类概念词。实验表明识别结果相比现有方法F1值提升3.7%。其次,在产品的其他相关概念词挖掘方面,主要完成与产品相关的人名、地名、机构名等命名实体的识别,虽然其挖掘的方法与相关术语挖掘方法类似,但是标签的类别对比术语更为复杂,所以本文采用双向门控循环单元神经网络模型(BiGRU),并且加入注意力机制,对候选实体进行关系分类。实验表明上述模型识别结果相比与不做分类的相关识别F1值提升6.3%。最后,设计产品相关信息挖掘系统,该系统完成上述任务的可视化操作。