论文部分内容阅读
随着近几年文本数据量的爆炸式增长、大规模知识库的建立和普及,命名实体识别研究已经逐渐成为自然语言处理领域的一大研究热点。然而,传统的基于有监督学习的方法,需要大规模的标注语料。在标注语料稀缺的医疗领域,传统的命名实体识别方法并不能够达到理想的效果。随着深度学习的火热发展和普及,循环神经网络(RNN,Recurrent Ne ural Network),尤其是长短期存储单元LSTM(Long-Short Term Memory)被广泛应用于自然语言处理领域,并在多个研究方向上取得显著高于传统方法的成绩。因此,我们首先利用LSTM模型进行医疗领域的命名实体识别的研究,并证明其无论是在研究效果评价还是实际应用层面,都能够达到比传统的条件随机场模型(CRF,Conditional Random Fields)更好的效果。由于医疗领域的规范的标注语料相对稀少,我们在LSTM模型已经取得比CRF模型更好的效果的基础上,还希望它能够通过融合外部信息,同时学习到新闻领域的语言学特征和医疗领域的无监督语义信息,达到更好的效果。我们利用了深度学习中迁移学习和预训练的相关知识,对医疗领域的模型进行了参数融合和模型调优,使得模型的效果进一步提升。最后,由于LSTM模型在实际应用中的缺陷,我们希望能够利用另一种方法进行领域自适应的命名实体识别。为了找寻不同知识域的领域差异,我们进行了多组混合不同领域语料的对比实验进行分析和探究。并通过GB DT模型集成领域差异和无监督的医疗领域的语义向量进行命名实体识别的研究,取得了较好的研究效果。