论文部分内容阅读
医疗文本的信息抽取是医疗领域自然语言处理研究中重要的一环。其目的是从电子化的医疗文本中,挖掘有价值的信息,并进行提取和分析,以帮助医生或患者分析病情,实现医疗智能化。随着人民的生活水平提高,对身体健康的关注日益加强,发展医疗信息化、将大量的医疗文本通过自然语言处理技术转化为医疗知识是一份十分重要的工作。然而,如何对中文文本使用自然语言处理技术进行信息抽取,具有以下几个问题:(一)由于中文的汉字和词语都具有语义,这不同于英文等以单词为最小语言单位的语言,在中文自然语言处理时,不同场景下,对中文的表征有不同需求,有的场景需要用字作为基本单位,有的场景需要以词语作为基本单位。因此,在文本信息抽取任务中,需要一个鲁棒性好,适应性强的中文分词算法。(二)在医疗文本中,包含了如“疾病名称”、“发病部位”、“症状”、“药品名称”和“治疗手段”等大量有价值的信息,这是医疗文本信息抽取的主要内容。由于医疗文本多为描述复杂的非结构化自由文本,且具有很多专业领域的描述方式,如何准确的提取上述信息,是医疗文本信息抽取的难点和关键点。(三)仅仅识别医疗文本中的实体,还不足以满足医疗文本信息抽取这一需求。实体的属性也具有重要的意义,如肿瘤的发病部位、肿瘤扩散后的转移部位和肿瘤的大小等信息,如若能在肿瘤患者的电子病历中提取出类似信息,将对医生的诊断和电子病历的智能化处理带来极大的帮助。针对以上问题,本文主要工作分为以下三点:(一)考虑到现有的分词算法并不能很好的适应不同领域的文本,本文在卷积神经网络的基础上,提出一种无池化的卷积神经网络分词模型PCNN。该模型可以高效地在训练中学习字向量维度之间的特征关联信息,准确地标识出单字的标签类别,从而完成分词任务。并且,模型在医疗文本的分词任务上表现优秀。(二)本文以电子病历作为命名实体识别的目标数据,结合电子病历的特点,提出级联Bi LSTM+CRF模型来进行电子病历的命名实体识别工作。本文认为,在中文语境下,汉字的笔画和拼音同样具有语义信息,故设计模型将汉字的笔画和拼音序列分别经过Bi LSTM网络提取特征,之后将输出的笔画特征和拼音特征结合汉字字向量,传入另一个Bi LSTM模型,组合成级联Bi LSTM得到文本序列的特征表示,最后由CRF标注序列,进而提取出医疗实体。经过实验表明,本文提出的级联Bi LSTM+CRF医疗实体识别模型在公开数据集上表现优秀。(三)实体及其属性是文本数据中非常有价值的语义单元,是文本信息抽取的主要工作,从非结构化的文本中对实体及实体属性进行抽取,是知识挖掘、智能检索、智能问答和知识图谱构建等任务的基础。在前文提出医疗实体识别模型识别医疗实体之后,本文提出短文本分类模型,结合前文提出的分词模型和医疗实体识别模型,使用实体上下文文本分类的方法提取肿瘤患者的电子病例中的实体属性,其中实体上下文的切分使用分词模型的结果作为切分标准。医疗实体属性抽取,作为命名实体识别研究的延续,以提取肿瘤患者的电子病历中的发病部位和肿瘤扩散的转移部位这两个肿瘤属性为目标,提出新的模型,并设置实验验证了模型性能表现。