论文部分内容阅读
随着互联网医疗的深入发展,在线问诊作为一种快捷有效的新型医疗应用,已经逐渐成为人们获取优良医疗服务的重要手段。在线问诊记录中记录着大量的患者个人健康信息和医生给出的诊断与治疗建议,其存在的主要形式为文本。通过对在线问诊记录进行信息抽取,可以从中获得大量实时的临床医疗数据,为疾病跟踪、医学研究、个性化医疗服务等医学应用提供坚实的数据支持。由于在线问诊记录主要以非结构化文本的形式存储,命名实体识别将成为对在线问诊记录进行知识抽取的首要工作。针对在线问诊记录文本的特点,本文研究了在线问诊记录的命名实体识别方法。首先,本文利用大规模的无标注语料进行专业词典的建立,待建立的词典包括医学常用词词库和词汇间的语义相似度。针对医学常用词词库,本文提出一个由互信息、边界熵和领域专属度构成的无监督学习方法,该方法利用大规模无标注语料进行医学领域的常用词挖掘,建立适用于医学领域的常用词词库,从而在一定程度上代替专业的医学词典。而为了获得词汇间的语义相似度度量,本文使用word2vec算法在未标注语料上进行词向量的训练,并进一步通过聚类算法按词向量间的距离进行语义类别的划分。在获得以上词典的基础上,本文分别构建了基于条件随机场和深度学习的实体识别模型。本文首先使用条件随机场算法(CRF)进行医疗命名实体的识别。基于语料的特点,开发了一系列针对字、词语、上下文等不同层面的CRF备选特征,并加入了医学常用词词库和语义相似度特征。然后本文构建了基于卷积神经网络、循环神经网络和条件随机场原理的深度学习模型。该模型分为三层,包括提取字特征和词信息的输入层,进行特征学习的特征层和基于条件随机场原理的解码层。最后,论文开展了实验,结果证明深度学习模型比条件随机场模型取得了更好的命名实体识别效果,验证了大规模无标注语料和深度学习框架结合的有效性。