论文部分内容阅读
摘要:文本分类是自然语言领域一个重要的研究方向和技术核心,一直受到研究者的热切关注。在医学领域,中医源远流长,在人类历史发展中发挥着不可磨灭的作用。中医语言包含了大量中医领域术语,且多为表述严谨和富含辩证思维的古文,上下文词语关联性较强,且大多是结构化、半结构化或非结构化数据的形式,这些特点给中医病案的智能分析分类造成了很大地困难。该文基于注意力机制的深度学习模型Bert模型实现中医深层全局语义的特征表示,并进行中医临床文本的分类研究。最后通过对中医临床文本分类实验的验证,该模型达到了非常可观的分类效果。
关键词:文本分类;深度学习;中医文本;注意力机制
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)27-0013-02
Abstract: Text classification is an important research direction and technical core in the field of natural language, and it has always received eager attention from researchers. In the field of medicine, Chinese medicine has a long history and has played an indelible role in the development of human history. The language of Chinese medicine contains a large number of terms in the field of Chinese medicine, and most of them are ancient texts with rigorous expressions and rich dialectical thinking. The contextual words are strongly related, and most of them are in the form of structured, semi-structured or unstructured data. These characteristics give Chinese medicine The intelligent analysis and classification of medical records caused great difficulties. In this paper, the Bert model, a deep learning model based on the attention mechanism, realizes the feature representation of the deep global semantics of TCM, and conducts the classification research of TCM clinical text. Finally, through the verification of the TCM clinical text classification experiment, the model achieved a very considerable classification effect.
Key words: text categorization; deep learning; TCM text; attention mechanism
1 引言
文本分类是按照一定的分类规则对文本进行自动划分类别的过程,在很多领域它都有着非常广泛的应用场景[1]。文本分类分为基于传统机器学习的文本分类和基于深度学习的文本分类。文本分类的核心是文本的处理分类,它有着非常广的应用前景。
在中医领域对于文本分类技术的使用和探索从未停止,常被用于中医药文本分类、中医方剂相似度计算等多项任务之中。中医是以古时候的“天人合一”为指导思想,以阴阳五行理论为工具,研究人体生命变化规律的一门学问[2]。中医临床文本承载了名老中医的临床经验,也是为病人临床决策的重要依据。中医临床文本的正确分类对于中医的蓬勃发展有着重要的意义。本文使用Bert模型对中医临床文本进行文本分类研究,该模型的向量表示会随着上下文的不同而变动,解决了传统词向量无法处理的一词多义的问题。通过Bert预训练模型可以生成融合中医深层全局语义的特征表示,并且进行中医临床文本的分类工作,最后输出分类的结果。
2相关研究
文本分类属于人工智能技術领域,是自然处理领域一个重要的应用,也是文本处理中一个很重要的模块。文本分类算法的研究就从未停止,在中医领域的研究者也进行了深入的研究。
顾铮等人[3]将文本分类相关技术运用到中医方剂相似度的计算上,为中医药研究开辟了新的发展道路。王华珍等人[4]使用传统分类算法针对数据库中疾病和症状的相关知识进行文本挖掘研究,并在此基础上构建智能诊疗模型用于智能证型的分类,该模型为中医辅助诊疗决策提供了支持。付钊等人[5]研究了基于语义分块的中医病情分类问题,实现基于TF-IDF特征的随机森林病情分类模型和SVM病情分类模型。陈广等人[6]研究基于关键语义信息的中医肾病病情文本分类问题,使用N-Grams片段的信息熵和关键词提取算法以及文本关键语义信息提取方法应用到中医肾病病情文本分类上。
3 研究方法
语言模型的研究经历了one-hot、Word2vec、ELMO、GPT再到Bert模型。Word2vec模型训练出来的词向量属于静态的词向量,无法表示一词多义。GPT属于单向语言模型,无法获取一个字或者词的上下文。ELMO为一词多义提供了一个很好的解决方案,会考虑更多的文本信息,基于给定的上下文动态的生成每个词的嵌入。Bert模型是综合ELMO和GPT两者的优势,是一个多层双向Transformer编码器语言模型,Transformer可以并行训练所有的字,不仅计算效率很快,而且通过位置嵌入,模型的语言顺序的理解能力也比较好。BERT模型具有很多特点:真正的双向、解决一词多义、并行运算、泛化能力强等。Bert是一个两阶段模型:第一阶段双向语言模型预训练,预训练过程中,可以学习到每个词对应的上下文信息。第二阶段针对具体的任务进行fine-tine模型,使其学到新特征,因此可以在具体任务上打造一个比较好的效果。 1)模型的输入
输入中医医案文本的初始词向量,输出为融合了中医语义信息后的词向量表示。Bert模型的输入表示主要包括三部分:字向量、段向量和位置向量。字向量是以字为粒度获得词向量,Bert通过将原始词向量转化为一维字向量。段向量的主要作用是将两个句子区分开,[SEP]结尾符是将输入的两个句子拼接,因为预训练会有判断两个句子先后顺序的分类任务。
位置向量是为了表征不同位置的文本语义。Bert模型的输入是字向量和文本向量和位置向量的叠加和。
2)模型结构
Transformer是组成Bert模型的核心模块,Bert模型是由多层Transformer组装而成。使用Transformer特征抽取器可以抽取词语,并行化获取句子、语义等各层次信息。因为一个词在不同的上下文环境中,产生了不同的含义,例如:“肝脏”代表了人体的一个器官,而“肝不藏血”则是代表了肝脏的一种状态。Bert模型使用多层Transformer结构抽取一个词的不同的语义,解决中医中一词多义的问题。Attention机制又是Transformer中最关键的部分。Attention机制的中文名叫“注意力机制”,它表示了词语之间的关联程度。Self-Attention机制,对于输入的文本,每个字都融合了注意力。Multi-head Self-Attention,利用不同的自注意力模块,获得文本中每个字基于不同中医场景的丰富语义向量,然后将自注意力机制得到的向量将其进行线性组合后,最后获得和输入向量相同长度的特征向量。因为Attention机制,在不同的中医语境下,Bert模型可以很容易分清差别巨大的词向量是否相同词。Transformer Encoder在Multi-Head Self-Attention基础上包括残差连接(Residual Connection)和Layer Normalization和线性转换。将多个Transformer Encoer堆叠起来,就是Bert模型。
Bert模型是双向语言模型,借鉴双向Transformer,同时利用当前词的上下文信息做特征提取,根据上下文信息的不同动态调整词向量,可以解决一词多义的问题。并且具有并行运算能力,Transformer中使用多头注意力机制,能同时并行提取输入序列中每个词的特征,在加载预训练好的模型作为当前任务词的词嵌入层或者直接做任务,不需要对代码作大量修改或优化。
4 实验分析
4.1 实验数据
本文使用的训练集和测试集是中医临床文本数据,从中医网站和经典中医书籍中收集了包含三个类别的中医数据,分别为病因病机、治则治法、方药。
4.2 实验结果
文本数据进行数据预处理之后,对模型进行训练和测试。实验结果证明,对比经典模型TextCNN,Bert模型在各个评测标准上都有提升。使用Bert模型进行中医文本分类任务,可以取得比较理想的效果。
5 结语
本文探索了深度学习模型Bert模型在中医领域的使用,Bert模型是基于双向编码器表征的语言模型,它基于所有层中左右语境进行联合调整,预训练深层双向表征。只需要增加一個输出层,可以对预训练的Bert表征进行微调,可以为更多的任务创建当前的最优模型,而不需要对特定任务进行实质性的架构修改。实验结果表明预训练Bert模型具有较强的普适性,在中医文本分类的任务上也有比较好的效果。
参考文献:
[1] 于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8.
[2] 王育林,樊经洋.试论中医学与中国传统文化的关系[J].中华中医药杂志,2014,29(6):1777-1781.
[3] 顾铮.基于文本分类技术计算中医方剂相似度[J].微计算机信息,2010,26(12):199-201.
[4] 王华珍,胡雪琴.中医“内生五邪”的智能证型分类[J].计算机工程与应用,2011,47(6):156-160,163.
[5] 付钊.基于文本语义分块的中医病情分类问题研究[D].杭州:浙江大学,2018.
[6] 陈广.基于关键语义信息的中医肾病病情文本分类问题研究[D].杭州:浙江大学,2019.
【通联编辑:代影】
关键词:文本分类;深度学习;中医文本;注意力机制
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)27-0013-02
Abstract: Text classification is an important research direction and technical core in the field of natural language, and it has always received eager attention from researchers. In the field of medicine, Chinese medicine has a long history and has played an indelible role in the development of human history. The language of Chinese medicine contains a large number of terms in the field of Chinese medicine, and most of them are ancient texts with rigorous expressions and rich dialectical thinking. The contextual words are strongly related, and most of them are in the form of structured, semi-structured or unstructured data. These characteristics give Chinese medicine The intelligent analysis and classification of medical records caused great difficulties. In this paper, the Bert model, a deep learning model based on the attention mechanism, realizes the feature representation of the deep global semantics of TCM, and conducts the classification research of TCM clinical text. Finally, through the verification of the TCM clinical text classification experiment, the model achieved a very considerable classification effect.
Key words: text categorization; deep learning; TCM text; attention mechanism
1 引言
文本分类是按照一定的分类规则对文本进行自动划分类别的过程,在很多领域它都有着非常广泛的应用场景[1]。文本分类分为基于传统机器学习的文本分类和基于深度学习的文本分类。文本分类的核心是文本的处理分类,它有着非常广的应用前景。
在中医领域对于文本分类技术的使用和探索从未停止,常被用于中医药文本分类、中医方剂相似度计算等多项任务之中。中医是以古时候的“天人合一”为指导思想,以阴阳五行理论为工具,研究人体生命变化规律的一门学问[2]。中医临床文本承载了名老中医的临床经验,也是为病人临床决策的重要依据。中医临床文本的正确分类对于中医的蓬勃发展有着重要的意义。本文使用Bert模型对中医临床文本进行文本分类研究,该模型的向量表示会随着上下文的不同而变动,解决了传统词向量无法处理的一词多义的问题。通过Bert预训练模型可以生成融合中医深层全局语义的特征表示,并且进行中医临床文本的分类工作,最后输出分类的结果。
2相关研究
文本分类属于人工智能技術领域,是自然处理领域一个重要的应用,也是文本处理中一个很重要的模块。文本分类算法的研究就从未停止,在中医领域的研究者也进行了深入的研究。
顾铮等人[3]将文本分类相关技术运用到中医方剂相似度的计算上,为中医药研究开辟了新的发展道路。王华珍等人[4]使用传统分类算法针对数据库中疾病和症状的相关知识进行文本挖掘研究,并在此基础上构建智能诊疗模型用于智能证型的分类,该模型为中医辅助诊疗决策提供了支持。付钊等人[5]研究了基于语义分块的中医病情分类问题,实现基于TF-IDF特征的随机森林病情分类模型和SVM病情分类模型。陈广等人[6]研究基于关键语义信息的中医肾病病情文本分类问题,使用N-Grams片段的信息熵和关键词提取算法以及文本关键语义信息提取方法应用到中医肾病病情文本分类上。
3 研究方法
语言模型的研究经历了one-hot、Word2vec、ELMO、GPT再到Bert模型。Word2vec模型训练出来的词向量属于静态的词向量,无法表示一词多义。GPT属于单向语言模型,无法获取一个字或者词的上下文。ELMO为一词多义提供了一个很好的解决方案,会考虑更多的文本信息,基于给定的上下文动态的生成每个词的嵌入。Bert模型是综合ELMO和GPT两者的优势,是一个多层双向Transformer编码器语言模型,Transformer可以并行训练所有的字,不仅计算效率很快,而且通过位置嵌入,模型的语言顺序的理解能力也比较好。BERT模型具有很多特点:真正的双向、解决一词多义、并行运算、泛化能力强等。Bert是一个两阶段模型:第一阶段双向语言模型预训练,预训练过程中,可以学习到每个词对应的上下文信息。第二阶段针对具体的任务进行fine-tine模型,使其学到新特征,因此可以在具体任务上打造一个比较好的效果。 1)模型的输入
输入中医医案文本的初始词向量,输出为融合了中医语义信息后的词向量表示。Bert模型的输入表示主要包括三部分:字向量、段向量和位置向量。字向量是以字为粒度获得词向量,Bert通过将原始词向量转化为一维字向量。段向量的主要作用是将两个句子区分开,[SEP]结尾符是将输入的两个句子拼接,因为预训练会有判断两个句子先后顺序的分类任务。
位置向量是为了表征不同位置的文本语义。Bert模型的输入是字向量和文本向量和位置向量的叠加和。
2)模型结构
Transformer是组成Bert模型的核心模块,Bert模型是由多层Transformer组装而成。使用Transformer特征抽取器可以抽取词语,并行化获取句子、语义等各层次信息。因为一个词在不同的上下文环境中,产生了不同的含义,例如:“肝脏”代表了人体的一个器官,而“肝不藏血”则是代表了肝脏的一种状态。Bert模型使用多层Transformer结构抽取一个词的不同的语义,解决中医中一词多义的问题。Attention机制又是Transformer中最关键的部分。Attention机制的中文名叫“注意力机制”,它表示了词语之间的关联程度。Self-Attention机制,对于输入的文本,每个字都融合了注意力。Multi-head Self-Attention,利用不同的自注意力模块,获得文本中每个字基于不同中医场景的丰富语义向量,然后将自注意力机制得到的向量将其进行线性组合后,最后获得和输入向量相同长度的特征向量。因为Attention机制,在不同的中医语境下,Bert模型可以很容易分清差别巨大的词向量是否相同词。Transformer Encoder在Multi-Head Self-Attention基础上包括残差连接(Residual Connection)和Layer Normalization和线性转换。将多个Transformer Encoer堆叠起来,就是Bert模型。
Bert模型是双向语言模型,借鉴双向Transformer,同时利用当前词的上下文信息做特征提取,根据上下文信息的不同动态调整词向量,可以解决一词多义的问题。并且具有并行运算能力,Transformer中使用多头注意力机制,能同时并行提取输入序列中每个词的特征,在加载预训练好的模型作为当前任务词的词嵌入层或者直接做任务,不需要对代码作大量修改或优化。
4 实验分析
4.1 实验数据
本文使用的训练集和测试集是中医临床文本数据,从中医网站和经典中医书籍中收集了包含三个类别的中医数据,分别为病因病机、治则治法、方药。
4.2 实验结果
文本数据进行数据预处理之后,对模型进行训练和测试。实验结果证明,对比经典模型TextCNN,Bert模型在各个评测标准上都有提升。使用Bert模型进行中医文本分类任务,可以取得比较理想的效果。
5 结语
本文探索了深度学习模型Bert模型在中医领域的使用,Bert模型是基于双向编码器表征的语言模型,它基于所有层中左右语境进行联合调整,预训练深层双向表征。只需要增加一個输出层,可以对预训练的Bert表征进行微调,可以为更多的任务创建当前的最优模型,而不需要对特定任务进行实质性的架构修改。实验结果表明预训练Bert模型具有较强的普适性,在中医文本分类的任务上也有比较好的效果。
参考文献:
[1] 于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8.
[2] 王育林,樊经洋.试论中医学与中国传统文化的关系[J].中华中医药杂志,2014,29(6):1777-1781.
[3] 顾铮.基于文本分类技术计算中医方剂相似度[J].微计算机信息,2010,26(12):199-201.
[4] 王华珍,胡雪琴.中医“内生五邪”的智能证型分类[J].计算机工程与应用,2011,47(6):156-160,163.
[5] 付钊.基于文本语义分块的中医病情分类问题研究[D].杭州:浙江大学,2018.
[6] 陈广.基于关键语义信息的中医肾病病情文本分类问题研究[D].杭州:浙江大学,2019.
【通联编辑:代影】