基于BERT模型的中医文本分类研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:vsrabbithhf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:文本分类是自然语言领域一个重要的研究方向和技术核心,一直受到研究者的热切关注。在医学领域,中医源远流长,在人类历史发展中发挥着不可磨灭的作用。中医语言包含了大量中医领域术语,且多为表述严谨和富含辩证思维的古文,上下文词语关联性较强,且大多是结构化、半结构化或非结构化数据的形式,这些特点给中医病案的智能分析分类造成了很大地困难。该文基于注意力机制的深度学习模型Bert模型实现中医深层全局语义的特征表示,并进行中医临床文本的分类研究。最后通过对中医临床文本分类实验的验证,该模型达到了非常可观的分类效果。
  关键词:文本分类;深度学习;中医文本;注意力机制
  中图分类号:TP311        文献标识码:A
  文章编号:1009-3044(2021)27-0013-02
  Abstract: Text classification is an important research direction and technical core in the field of natural language, and it has always received eager attention from researchers. In the field of medicine, Chinese medicine has a long history and has played an indelible role in the development of human history. The language of Chinese medicine contains a large number of terms in the field of Chinese medicine, and most of them are ancient texts with rigorous expressions and rich dialectical thinking. The contextual words are strongly related, and most of them are in the form of structured, semi-structured or unstructured data. These characteristics give Chinese medicine The intelligent analysis and classification of medical records caused great difficulties. In this paper, the Bert model, a deep learning model based on the attention mechanism, realizes the feature representation of the deep global semantics of TCM, and conducts the classification research of TCM clinical text. Finally, through the verification of the TCM clinical text classification experiment, the model achieved a very considerable classification effect.
  Key words: text categorization; deep learning; TCM text; attention mechanism
  1 引言
  文本分类是按照一定的分类规则对文本进行自动划分类别的过程,在很多领域它都有着非常广泛的应用场景[1]。文本分类分为基于传统机器学习的文本分类和基于深度学习的文本分类。文本分类的核心是文本的处理分类,它有着非常广的应用前景。
  在中医领域对于文本分类技术的使用和探索从未停止,常被用于中医药文本分类、中医方剂相似度计算等多项任务之中。中医是以古时候的“天人合一”为指导思想,以阴阳五行理论为工具,研究人体生命变化规律的一门学问[2]。中医临床文本承载了名老中医的临床经验,也是为病人临床决策的重要依据。中医临床文本的正确分类对于中医的蓬勃发展有着重要的意义。本文使用Bert模型对中医临床文本进行文本分类研究,该模型的向量表示会随着上下文的不同而变动,解决了传统词向量无法处理的一词多义的问题。通过Bert预训练模型可以生成融合中医深层全局语义的特征表示,并且进行中医临床文本的分类工作,最后输出分类的结果。
  2相关研究
  文本分类属于人工智能技術领域,是自然处理领域一个重要的应用,也是文本处理中一个很重要的模块。文本分类算法的研究就从未停止,在中医领域的研究者也进行了深入的研究。
  顾铮等人[3]将文本分类相关技术运用到中医方剂相似度的计算上,为中医药研究开辟了新的发展道路。王华珍等人[4]使用传统分类算法针对数据库中疾病和症状的相关知识进行文本挖掘研究,并在此基础上构建智能诊疗模型用于智能证型的分类,该模型为中医辅助诊疗决策提供了支持。付钊等人[5]研究了基于语义分块的中医病情分类问题,实现基于TF-IDF特征的随机森林病情分类模型和SVM病情分类模型。陈广等人[6]研究基于关键语义信息的中医肾病病情文本分类问题,使用N-Grams片段的信息熵和关键词提取算法以及文本关键语义信息提取方法应用到中医肾病病情文本分类上。
  3 研究方法
  语言模型的研究经历了one-hot、Word2vec、ELMO、GPT再到Bert模型。Word2vec模型训练出来的词向量属于静态的词向量,无法表示一词多义。GPT属于单向语言模型,无法获取一个字或者词的上下文。ELMO为一词多义提供了一个很好的解决方案,会考虑更多的文本信息,基于给定的上下文动态的生成每个词的嵌入。Bert模型是综合ELMO和GPT两者的优势,是一个多层双向Transformer编码器语言模型,Transformer可以并行训练所有的字,不仅计算效率很快,而且通过位置嵌入,模型的语言顺序的理解能力也比较好。BERT模型具有很多特点:真正的双向、解决一词多义、并行运算、泛化能力强等。Bert是一个两阶段模型:第一阶段双向语言模型预训练,预训练过程中,可以学习到每个词对应的上下文信息。第二阶段针对具体的任务进行fine-tine模型,使其学到新特征,因此可以在具体任务上打造一个比较好的效果。   1)模型的输入
  输入中医医案文本的初始词向量,输出为融合了中医语义信息后的词向量表示。Bert模型的输入表示主要包括三部分:字向量、段向量和位置向量。字向量是以字为粒度获得词向量,Bert通过将原始词向量转化为一维字向量。段向量的主要作用是将两个句子区分开,[SEP]结尾符是将输入的两个句子拼接,因为预训练会有判断两个句子先后顺序的分类任务。
  位置向量是为了表征不同位置的文本语义。Bert模型的输入是字向量和文本向量和位置向量的叠加和。
  2)模型结构
  Transformer是组成Bert模型的核心模块,Bert模型是由多层Transformer组装而成。使用Transformer特征抽取器可以抽取词语,并行化获取句子、语义等各层次信息。因为一个词在不同的上下文环境中,产生了不同的含义,例如:“肝脏”代表了人体的一个器官,而“肝不藏血”则是代表了肝脏的一种状态。Bert模型使用多层Transformer结构抽取一个词的不同的语义,解决中医中一词多义的问题。Attention机制又是Transformer中最关键的部分。Attention机制的中文名叫“注意力机制”,它表示了词语之间的关联程度。Self-Attention机制,对于输入的文本,每个字都融合了注意力。Multi-head Self-Attention,利用不同的自注意力模块,获得文本中每个字基于不同中医场景的丰富语义向量,然后将自注意力机制得到的向量将其进行线性组合后,最后获得和输入向量相同长度的特征向量。因为Attention机制,在不同的中医语境下,Bert模型可以很容易分清差别巨大的词向量是否相同词。Transformer Encoder在Multi-Head Self-Attention基础上包括残差连接(Residual Connection)和Layer Normalization和线性转换。将多个Transformer Encoer堆叠起来,就是Bert模型。
  Bert模型是双向语言模型,借鉴双向Transformer,同时利用当前词的上下文信息做特征提取,根据上下文信息的不同动态调整词向量,可以解决一词多义的问题。并且具有并行运算能力,Transformer中使用多头注意力机制,能同时并行提取输入序列中每个词的特征,在加载预训练好的模型作为当前任务词的词嵌入层或者直接做任务,不需要对代码作大量修改或优化。
  4 实验分析
  4.1 实验数据
  本文使用的训练集和测试集是中医临床文本数据,从中医网站和经典中医书籍中收集了包含三个类别的中医数据,分别为病因病机、治则治法、方药。
  4.2 实验结果
  文本数据进行数据预处理之后,对模型进行训练和测试。实验结果证明,对比经典模型TextCNN,Bert模型在各个评测标准上都有提升。使用Bert模型进行中医文本分类任务,可以取得比较理想的效果。
  5 结语
  本文探索了深度学习模型Bert模型在中医领域的使用,Bert模型是基于双向编码器表征的语言模型,它基于所有层中左右语境进行联合调整,预训练深层双向表征。只需要增加一個输出层,可以对预训练的Bert表征进行微调,可以为更多的任务创建当前的最优模型,而不需要对特定任务进行实质性的架构修改。实验结果表明预训练Bert模型具有较强的普适性,在中医文本分类的任务上也有比较好的效果。
  参考文献:
  [1] 于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8.
  [2] 王育林,樊经洋.试论中医学与中国传统文化的关系[J].中华中医药杂志,2014,29(6):1777-1781.
  [3] 顾铮.基于文本分类技术计算中医方剂相似度[J].微计算机信息,2010,26(12):199-201.
  [4] 王华珍,胡雪琴.中医“内生五邪”的智能证型分类[J].计算机工程与应用,2011,47(6):156-160,163.
  [5] 付钊.基于文本语义分块的中医病情分类问题研究[D].杭州:浙江大学,2018.
  [6] 陈广.基于关键语义信息的中医肾病病情文本分类问题研究[D].杭州:浙江大学,2019.
  【通联编辑:代影】
其他文献
在化工仿真中,为了贴近真实,可以将实物图片贴于所绘化工单元设备、管道、框架、厂房等结构体表面.BMP图像可被用作纹理图.依据图像颜色点阵数据(WinHex),编写相关程序可对位图进行像素级编辑,实现如颜色拾取、图片移动、旋转、翻转、镜像、抠图等变换操作.作者编写了位图旋转变换操作程序(Visual C++,OpenGL),为将计算机图形学编程用于化工仿真、虚拟现实进行了应用基础研究;在程序for循环主代码中,用“fread(&pixVal,sizeof(BYTE),1,fp);”读数据,用“fwrite(
1设备概况目前,国内大多数6 kV配电装置均采用金属铠装全隔离手车中置式真空开关柜与中置式F-C开关柜组成的混合式配电装置手车,手车上装配真空断路器(或F-C的熔断器座、熔体、接触器)、电缆和摇进机构等设备。柜体前中部是手车室,在手车室内安装特定的手车导轨,如图1所示。操作手车操作手柄(摇把),带动螺旋机构移动,使手车在柜体内可靠滑行,将手车移动到工作或试验位置。
针对图书馆中存在的学生代签以及离馆后久不退座的现象,设计并开发了一款基于GPS定位的图书馆座位管理系统。该系统实现了用户预约选座、签到、暂离、退座等功能,引入了上周情况反馈模块、排行榜模块,方便学生合理安排预约时间,实现了数据可视化。系统通过获取用户的GPS定位信息,结合点和面的拓扑关系算法——射线法,判断学生是否在图书馆内签到或者长时间离开图书馆,提高图书馆座位使用率。
1故障现象我公司2号给煤机在运行中出现煤流量降为0、电机电流降为0的情况。控制室查看DCS(分散控制系统)界面,给煤机仍处于运行状态。现场检查,ABB880变频器已正常停车,无电流输出,无转速输出。4台给煤机均不定期出现煤流量、电机电流波动,甚至煤流量、电机电流瞬间变为0的情况。
Somachine软件基于Codesys平台,支持施耐德M218、M238、M258#M241#M262等系列小型PLC,支持6种IEC编程语言,有文本化的语言:指令表(I)、结构化文本(ST);图形化的语言:梯形图(LD)、功能模块图(FBD)、顺序功能流程图(SFC)、连续功能图(CFC)。它支持一维、二维、三维数组,属于基本数据类型。数组定义的语法规则如下。
继前几篇连载介绍了三菱梯形图编程软件GX Developer、梯形图转单片机HEX软件后,本文介绍烧录软件STC-ISP.1烧录软件界面在连载三图3-1界面上点击“STC烧录软件”按键,弹出烧录软件STC-ISP的界面,如图4-1所示。虽然该界面看上去比较复杂,但这里用到的仅有单片机型号、串口号、打开程序文件、下载/编程(烧录代码)等几项.
电梯常常是1台设备单独运行,由于只有1台设备,有效台数小于4,所以求它的计算电流,既不能用需要系数法,也不能用苏联导则的利用系数法[1],本文采用新需要系数法求电梯的计算电流,计算结果比较接近实际,并提出电流功率比的概念,使设计计算过程变得非常简单。
摘要:悬臂式掘进机掘进系统为复杂的液压时滞系统且负载突变,其控制器PID参数采用传统的算法易早熟收敛而导致控制系统动静态性能不佳等问题。针对上述问题采取混合算法的思想,提出了一种Chaos-PSO混合优化算法,并应用在掘进液压控制系统PID参数的优化上。结合控制系统的传递函数,采用Matlab进行仿真分析,结果表明Chaos-PSO混合优化算法与经验整定法及模糊控制法比较,其算法实现简单,上升时间
摘要:近年来,随着公共交通领域大数据、云计算、移动支付等新兴科技的应用,城市公交、轨道交通等公共交通行业都推出了二维码App实现了“刷手机”乘车。在为用户出行带来便捷的同时,出现了各App平台的信息数据不互联互通和二维码规范不一等问题。这给用户换乘交通工具时带来了不便,同时增加了交通部门的管理成本。本文基于HTTPS(Hyper Text Transfer Protocol over Secure
近年来,随着金融一体化进程的推进,保险公司经营与金融市场发展联系日益密切,在这种纷繁复杂的金融环境中,保险公司却屡屡出现“退保风潮”,“客户大规模挤兑退保”等许多群体事件.为探究其原因并得到有效的解决方案,现利用SPSS(“统计产品与服务解决方案”软件)对保险公司客户退保数据进行分析,探索各个指标之间是否存在关联及主要退保因素.通过类似的分析,保险公司可以在设置保险方案时综合考量各类险种的退保情况及退保影响因素,做出合理调整;也可以对具有典型特征的客户推荐符合其实际情况的险种,减少非正常原因的退保情况.