论文部分内容阅读
近年来,抑郁症已经成为了威胁人类健康的主要疾病之一,影响着成千上万人的身心健康,对他们的家庭以及社会都造成了沉重的负担。目前抑郁症的诊断手段主要是依靠病人通过问卷自评配合医生对病人的临床诊断来判断病人是否患有抑郁症。这种诊断方式存在着主观偏差以及病人配合度不高等问题,而且对医生临床经验依赖程度也很高且需要耗费大量人力资源。目前许多研究致力于使用一些人体生理指标如脑电,眼动信号等来实现抑郁诊断的自动化。这些生理指标都具有客观,非侵入和容易采集等特点。这些生理指标数据再配合着数据挖掘中的分类方法,使抑郁症的自动诊断在理论上成为现实。为了提高抑郁症自动诊断系统的准确性,本文进一步提出了一种组合分类模型,通过将原始数据分为不同的数据子集,然后分别在这些数据子集上对每个被试进行诊断,最后汇总这些诊断结果来提高现有抑郁症自动诊断系统的准确率。为了验证文中所提出组合分类模型的有效性,本文选取了三组经典的实验范式来采集抑郁被试和健康被试的生理数据,分别包含静息态脑电实验,任务态脑电实验以及眼动实验,这三组实验包含被试数量分别为36,34,40共计110人。下面将阐述本文主要工作:(1)本文首先根据前人的研究的基础上,对数据进行了降噪、残缺值填充、孤立点消除、数据归一化等操作,并在两个脑电数据集上提取了常用的特征。并使用这些数据在贝叶斯信念网络(BayesNet)、逻辑回归(Logistic)、随机森林(RandomForest)、J48、简单贝叶斯(NaiveBayes)、支持向量机(SupportVectorMachine)、最邻近分类器(KNN)等分类算法上训练分类模型并在这些模型上进行分类操作。在传统认知实验中,单个被试往往含有多条数据元组,这样的数据在本文中称为非合并数据。而在本文提出的组合分类模型中,同一被试的所有数据元组都通过求均值的形式合并为一条,这样的数据在本文中被称为合并数据。为了观察数据合并操作对分类准确率的影响,本文使用了传统的分类方法分别在合并数据和非合并数据上进行了分类。传统分类方法在三个实验数据集的非合并数据中所取得最好分类结果分别是73.89%,75.02%,78.19%,在合并数据上取得最好分类结果分别为70.28%,78.24%,77.32%,通过使用威尔科克森符号秩检验(Wilcoxon Signed-rank Test)来比较两者差异性,发现传统分类方法在合并数据和非合并数据上不存在显著的差异。(2)在本文所提出的CBEM模型中会根据实验范式的内容,将数据划分为若干个数据子集,例如在本文的眼动实验中使用了5种类型的刺激,因此将眼动数据划分为5个数据子集。每个数据子集包含所有的被试在该类型刺激下的数据,并对这些相同类型刺激数据按照被试分别进行合并操作。然后动态地选择部分表现较好的数据子集训练多个分类模型。最后让测试集中的数据在这些分类模型上进行分类。每一个被试都会得到多个判别结果(结果只能为抑郁或者正常),然后本文根据少数服从多数原则将多数判别结果作为当前被试的最终诊断结果。经过本文提出的模型处理,在三个数据集上所得到的分类准确率分别为78.50%,85.00%,89.50%。分类准确率得到了不同程度的提高。经过威尔科克森符号秩检验,CBEM与传统分类方法的结果上具有显著性差异,证明了此模型的有效性。(3)在实际操作中,本文发现不同数据子集在分类准确率上是有所差异的,例如在眼动数据集中,负向情绪数据子集的分类准确率明显优于正向情绪数据子集。在静息态脑电数据集中相对靠前的时间片段子集要明显优于靠后时间片的数据子集。在任务态脑电数据集中,负向情绪数据集同样表现出了较好区分性,因此本文对原来的模型进行了改进,原来动态选择数据子集进行投票的模型改进为数据子集固定的模型,本文将之命名为静态模型(Static Model)。分类准确率从原来的78.50%,85.00%,89.50%上升到了82.50%,92.65%,92.73%。与原来的Dynamic Model相比Static Model的分类准确率更高,标准差更小,计算时间更短更加符合实际应用需求。最后,综合本文得出结论,在抑郁侦测实验中,根据实验内容将数据划分成不同数据子集在分类上是有应用价值的,再结合上投票的策略得到的组合模型在抑郁区分上可以得到较高的准确率。