文本挖掘技术在药品评论中的应用

来源 :苏州大学 | 被引量 : 1次 | 上传用户:yuxi123450
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的快速发展使得涉及医疗健康的社交网站也应运而生,越来越多的患者通过网络对药品的相关内容(治疗效果、副作用等)发表评论、分享用药经历。用户评论内容的爆炸式增长,产生了海量的文本数据。若仅依靠人工分析这些文本数据耗时耗力,因此人们开始尝试运用情感分析技术,通过对药品评论的情感分析能够帮助我们了解药物的终端去向(消费者)对药物的真实情感倾向。然而分析药品评论数据存在单词拼写错误、书写习惯个性化、表达情感比较隐晦间接等难点。目前,针对评论数据的研究一般集中在电子商务、电影影评等领域,对药品评论数据的研究相对较少,因此本文尝试将己有的情感分析技术跨领域应用于药品评论中,旨在找出预测效果最佳的模型。本文首先利用爬虫技术获取到国外健康网站上对应抑郁症的药品评论数据,然后对数据进行了去重、缺失值处理、消除标点符号、大小写转换、缩略词扩展、词形还原、过滤停用词等预处理操作。然后使用基于词典的情感分析和基于机器学习的情感分析这两种方法对数据进行分析研究。针对基于词典的情感分析,由于已有的词典并不适用于医药健康领域,所以本文首先去重合并了 WordNet词典、GI词典和知网HowNet的英文词典形成基础词典,然后将药品领域中特殊的情感词汇补充进基础词典。考虑到否定词的存在能逆转情感,对情感极性的判断具有重要影响,于是本文构建了否定词词典。此外,本文标记了积极词、消极词和否定词在文本中的位置索引,在传统的基于词典情感分析的基础上,建立了基于情感词和否定词之间的位置关系的情感分数计算规则。通过实证,发现基于本文改进的算法准确率高于传统的算法。针对基于机器学习的情感分析,本文首先利用网格搜索找出n元分词的最佳设置,然后通过交叉验证比较了逻辑回归模型、支持向量机、朴素贝叶斯和随机森林这四种单一方法的预测效果,利用准确率、召回率等指标进行模型评估,发现朴素贝叶斯的预测效果最好。为了进一步提升模型效果,本文尝试了 stacking算法。首先选择朴素贝叶斯和支持向量机这两个“好而不同”的单一模型作为stacking算法第一层的基模型,然后以逻辑斯蒂回归模型作为第二层模型,发现基于stacking算法的融合模型能够提高模型预测效果,精确率能达到90%左右。
其他文献
随着通信技术的发展,5G时代即将来临。作为5G技术中的关键技术之一,多用户多输入多输出系统(Multiuser Multiple Input Multiple Output,MU-MIMO)在提高系统吞吐量的同时还会
现代信息技术有着快、便捷、突破时空限制,直观动感,易激发兴趣等优势。本文在新型冠状疫情背景下思考如何将"停课不停学"的精神落实,如何利用现代信息技术手段的优势将科学
反射面天线由于波束覆盖范围广、增益高、结构简单等优点常用在卫星通信中。本文主要研究了基于反射面天线的波束赋形,包括反射面天线形面优化和反射面天线馈源阵列优化两种
蛋白质或者多肽在某些条件下可产生淀粉样变性形成纤维,沉积于机体组织,造成器官及其功能损害。蛋白质淀粉样沉积是很多人类疾病的重要特征之一,大约有20多种疾病与相关的蛋
大容量火电机组的协调系统具有强非线性、大延迟等特点,传统控制算法在机组大工况范围内运行时的控制效果不理想,需要以精确表征机组运行动态特性的模型为基础,设计先进的控制器。本文以某超超临界机组协调系统为研究对象,对系统建模以及控制仿真进行了研究,主要的研究成果包括以下几个方面:1.针对传统粒子群优化算法,对惯性权重、学习因子等参数变化策略进行改进,并引入界限划分及粒子变异的思想,提出一种界限划分变异粒
图像作为当今重要的载体承载了大量的信息,对其中的文字信息提取能推动对图像的理解。相比特定场景的文字信息提取问题,自然场景下文字定位的难度较大。同时由于文档、报纸和
目的子痫前期血清中胎盘缺氧滋养细胞来源的sFlt-1增加与尿蛋白的产生相关,但是,滋养细胞缺氧分泌sFlt-1导致尿蛋白的上下游分子调控机制不明。HIF1α/2 α是滋养细胞缺氧的主要应激因子,有研究发现,Flt-1为HIF1α/2 α的靶基因;本课题组前期研究发现,子痫前期血清可通过增加CAV1表达促进肾小球血管内皮细胞(humanrenal glomerular vascular endoth
在现代工业生产中,电机转子产量需求巨大。针对其换向器与漆包线缠绕形态合格性检测目前以人工为主,效率低且易受干扰的问题,本文致力于研究一种基于对抗神经网络和注意力机制的转子绕线在线合格性检测算法。主要的研究内容如下:(1)设计了一套针对转子绕线合格性在线检测流程。通过对待测部位形态学分析,结合控制系统与传动系统精确配准,对旋转件转子绕线图像进行挂钩模板定位分割,得到受偏转角影响较小的转子绕线部分,利
目的:探讨纤维蛋白Bβ15-42模拟肽和蚓激酶EFEa对纤维蛋白活化后巨噬细胞穿经内皮细胞的影响及对NF-KB/VE-cadherin途径可能的作用机制。方法:以人脐静脉内皮细胞系为基础,使用慢病毒对其感染,建立高表达VE-cadherin的人脐静脉内皮细胞系。使用高浓度纤维蛋白Fb(6mg/ml)、和同时加入Bβ15-42模拟肽(0.6 mg/ml)与EFEa(2μg/ml)处理细胞,通过蛋白免
听觉作为人们感知环境的重要通道,在视线障碍、不利光照条件等情况中可作为视觉的重要补充。在监控领域,音频监听可以作为视频监控的重要补充。现有的音频监听方法应用在不同场景时需要根据不同场景提供大量有标签数据用于训练。如何自动构建不同场景的背景训练数据以达到场景自适应目的,节省人工标注成本,成为一个值得研究的问题。本文旨在研究一套能够适应不同声场景的音频监听系统方案。监听系统自动录制并构建当前场景的背景