【摘 要】
:
随着Internet的迅速发展,网络中的文本信息也在持续增加。文本信息作为最常见的表达形式,自然成为研究热点。而文本分类则是自然语言处理中的一项重要任务,它可以有效地识别和整合信息并实现自动分类。文本分类技术作为数据挖掘的基础技术,已广泛应用于信息检索,信息管理,语义理解等领域,并取得了良好的效果。而医疗领域作为文本分类的特定领域,由于医疗文本中可能包含较多复杂且专业的医学词汇,使得数据稀疏和维度
论文部分内容阅读
随着Internet的迅速发展,网络中的文本信息也在持续增加。文本信息作为最常见的表达形式,自然成为研究热点。而文本分类则是自然语言处理中的一项重要任务,它可以有效地识别和整合信息并实现自动分类。文本分类技术作为数据挖掘的基础技术,已广泛应用于信息检索,信息管理,语义理解等领域,并取得了良好的效果。而医疗领域作为文本分类的特定领域,由于医疗文本中可能包含较多复杂且专业的医学词汇,使得数据稀疏和维度变高。从而导致医疗领域中文本分类存在较大的困难和挑战。其中医生对患者的临床诊断,在线诊断和患者病历的活动过程,都是重要的医疗文本资源。随着互联网技术的发展以及电子病历的普及,已经积累了大量的电子病历和相关记录,为医疗领域的信息挖掘和分类提供了宝贵的数据资源。近年来,深度学习已在自然语言处理中得到广泛应用,并取得了突破性的成就。递归神经网络(RNN)和卷积神经网络(CNN)已成为自然语言处理中的两个主流模型。目前,医疗文本的分类任务分为不同类别,例如电子病历的医疗文本分类,医学文献分类等。由于RNN在自然语言处理中的出色表现以及在阅读理解和关系推理方面的良好成就,本文主要研究和比较与RNN相关的网络模型。在文本分类模型中,上下文相关表示的质量直接影响后续的自然语言处理任务,丰富的上下文相关表示对文本分类的影响也更加明显。针对LSTM(长短期记忆网络)只能获取单向信息的缺点,本文使用BI-LSTM(双向长短期记忆网络)来获取文本的上下文相关表示,并对传统的BI-LSTM进行了改进。本文提出一种新型神经网络模型,用于医疗文本分类。该模型将医疗文本分为句子并构造与上下文相关的句子来表示。在句子的上下文表示中,改进的BI-LSTM用于获取句子的上下文特征,而注意力机制用于获取具有重要词权重的上下文表示。即,BI-LSTM用于提取特征并包含句子信息,注意力机制用于获得不同的句子权重,使用改进的BI-LSTM对句子进行编码,然后使用注意力机制对句子进行解码。最后,通过Soft Max分类器获得医疗文本类别并输出。为验证本文提出及构建的模型的有效性,本文选择在THUCNews、online_shopping_10_cats、SogouCA、waimai_10k、simplifyweibo_4_moods这五个公开数据集以及本文在“好大夫”网站爬取的患者问诊输入数据集进行实验对比分析。实验结果表明,改进的LSTM+Attention在THUCNews数据集上的文本分类准确率相对于HAN、Text-CNN、Text-RNN三类文本分类模型有较大地提升,相对于效果最好的Text-CNN基线模型,其分类准确率由92%提升到93.13%,在online_shopping_10_cats数据集上分类准确率由87.42%提升到90.99%,同时在本文构建的医疗数据集上分类准确率由84.37%提升到91.35%。同时为验证该分类模型是否具有较好的泛化性能,本文又在混合数据集上进行测试实验。实验结果表明,改进的LSTM+Attention在混合数据集上的文本分类准确率相对于效果最好的HAN基线模型,其分类准确率由85.41%提升到92.54%。以上实验结果都证明了在与其他高级文本分类模型相比中,本文使用的模型用于文本分类取得的效果是最好的。本文的主要贡献如下:1.由于医疗文本中存在大量的复杂词和独特的句子表示形式,本文提出了一种新的医疗文本分类模型来解决此问题。2.通过增加两条LSTM逻辑行的交互传输来改进传统的BI-LSTM模型,以增强文本的交互性。3.分类模型引入注意力机制,通过多头机制获取和整合原始文本不同部分的重要信息,增强原始文本的可解释性。4.设计开发了基于深度学习的医疗分诊系统。
其他文献
自20世纪90年代起,核心素养引领并推动了教育课程改革、教育方式变革、教育评价改革等关键性活动,其目的是建立以学生为主导的课堂,同时培养和提高学生探究精神、创新能力及终身学习的能力。为此,遵义市第二中学在教学理论的基础上,综合多个学校的实践经验,摸索出了适合本校的“331”高效课堂教学模式,笔者以高一年级(18)班和高一年级(19)班分别开展了传统教学和“331”高效课堂教学来进行探究,结果如下:
普通高中生物学教材内容的设计思路和课程标准对教学的要求都体现了以问题引导学习的教学理念。如普通高中生物学必修1《分子与细胞》中每一节都有问题探讨栏目、12个探究·实践栏目、22个思考·讨论栏目,这些栏目以问题的形式呈现生物学知识,说明普通高中生物学的教材内容设计注重以问题引导学习。《普通高中生物学课程标准(2017年版)》凝练了生物学核心素养目标体系:生命观念、科学思维、科学探究和社会责任。其侧重
近年来,随着社会经济发展的全球化、信息化,各行各业都面临着巨大的挑战和竞争,为适应社会变革的需求,我国教育行业也迎来了翻天覆地的改革,教师队伍承受着巨大的压力,教师职业倦怠已成为21世纪危害教师身心健康的“隐形杀手”。教师队伍的综合素质和能力将直接影响着未来社会创建者和接班人的培养,甚至会影响社会经济的长远发展。因此,研究教师职业倦怠的现状、产生的原因、以及探究有效的干预机制尤为重要而且迫切。高中
作为最具潜力的柔性透明电极材料,银纳米线(AgNW)在过去十多年中备受瞩目。到目前为止,基于AgNW的透明电极已在许多领域中得到广泛应用,并表现出优异的性能。AgNW相比于传统的透明导电材料——氧化铟锡有多种优势,如优异的机械柔韧性,可通过低成本工艺大规模制备透明导电薄膜,更重要的是AgNW大规模合成方法已经相当成熟。但是,所制备的AgNW导电网络由于高分子残留或交叉点处的不良接触而存在极高的接触
目前,我国的公办义务教育招生录取工作所采用的是就近入学和多校划片、电脑随机派位的政策,该政策的本质是为每一个孩子提供平等的受教育的条件和权利,确保教育的公正性。但是在实际的操作过程中,却衍生出了许多问题,损害了学生的效用和分配结果的公平性。因此本文基于对双边匹配理论中学生录取问题的研究,将匹配机制应用于我国的公办义务教育招生录取过程中以解决这一问题。在双边匹配理论中,延迟接收机制(Deferred
阿尔法狗打败李世乭之后,人工智能再一次在社会各界中得到广泛关注,人工智能教育也在如火如荼的进行。我国对人工智能教育的重视程度逐渐增强,人工智能、大数据处理等内容已被划入新课标中。《普通高中信息技术课程标准(2017年版)》修订说明中强调要“渗透项目学习设计,凸显信息技术课程的实践性特征”(1)。可以看出,高中信息技术课程的目标已不仅仅是要求学生掌握理论知识,更希望能提高学生的信息素养,以更好的适应
近年来,在高性能计算设备的加持下,深度学习在目标检测方向取得了大量突破。当下成熟的深度学习目标检测算法相较传统算法在准确度和检测效率方面均有显著提高,逐渐应用于新零售、智慧农业、服务机器人等领域。然而,这些成熟的目标检测算法模型均基于大量标注图片训练产生,在具体工业应用中,学术界常使用的MS COCO、VOC、Image Net等开源数据集因图像类别不匹配、数据稀疏等原因无法满足训练需要,众包标注
推荐系统在互联网的数据海洋中主动搜寻用户需要的信息,推荐系统的核心是推荐模型,研究推荐模型具有重大的工程意义。矩阵分解推荐模型具有较高推荐精度和容易实现等优点,至今被广泛应用。但矩阵式分解推荐模型使用点积预测用户偏好,点积只是简单的线性乘积,且不满足三角形不等式,这些限制了矩阵分解推荐模型的推荐效果。有研究者提出基于度量学习的推荐模型,使用满足三角形不等式的距离度量代替矩阵分解中的点积度量,训练低
教育事业是我国综合国力快速提升和持续发展的重要支柱。如今,传统的教育模式已无法满足社会对教育资源和教育方式的需求。随着互联网的爆炸式发展,教育事业与互联网技术相互碰撞、相互融合,在线教育的方式应运而生。2017年,直播、短视频等新型传播方式进入教育系统,人工智能等新科技的接入,使在线教育蓬勃发展。2020年中国互联网教育市场规模达到4000亿人民币,并且从长远来看该市场会保持高速增长。k12段在线
2013年教育部开始实施对普通高中课程的修改工作,2017年发布了修订之后的各学科课程标准。各学科的课程标准中都强调了要落实学科核心素养,要在全面贯彻党的教育方针和发展素质教育以及落实立德树人根本任务方面,充分发挥各学科的作用。在新的高中化学课程标准发布之后,笔者参加了所在市区教研员主持的“高中化学核心素养解读”的培训。通过培训学习,笔者认识到化学核心素养的培育和养成,关键在于如何将这些素养和理念