论文部分内容阅读
近几十年来,数据库技术和大容量存储器等硬件的快速发展,使得人们收集数据的能力得到进一步的提高。传统数据分析技术在应对新型数据集提出的挑战时存在种种局限性,而数据挖掘技术突破了这些局限。医疗信息化的发展,诊断数据量的激增,需要结合数据挖掘技术进行深入分析,提取有潜在意义的知识。吸毒严重危害人体健康,破坏人的中枢神经系统,致使人体其他器官功能失调和组织病理变化。根据中医诊断学理论,脉象信号中包含着极为丰富的心血管系统等生理病理信息,对人体重要信息病变的诊断具有重要的临床价值。本文以在重庆戒毒所采集的15例健康正常人和15例海洛因吸毒者脉象信号的实测数据为研究对象,选用SAS/EM数据挖掘工具,建立C4.5决策树和LMBP神经网络分类模型对脉象信号进行识别。为更好地从大量冗杂数据中挖掘出有用知识,首先要对数据进行预处理。小波变换在时频域具有良好的局域化特性,非常适合脉象这种非平稳信号的分析。除了采用时域信号作为特征输入,进行两种脉象信号的初步划分,本文还采用以db4为小波的Mallat多分辨率算法,对30例脉象信号进行三层分解提取细节系数作为第二类特征输入,从而达到数据转换目的,为进一步的分类作准备。C4.5决策树方法是基于机器学习的数据挖掘方法,它形式简单,分类速度快,可以较好地解决小样本的学习问题。本文建立了C4.5决策树分类器对吸毒者进行检测识别,它以信息增益率进行属性选择。实验结果表明:当以时间域属性作为特征参量,输入C4.5决策树模型时,识别率达到93.3%。当选用提取的各层细节系数作为特征输入时,最优识别率为93.3%,虽识别率一致,但提高了稳定性。BP人工神经网络,具有很高的容错性和可靠性,其自组织性和自适应学习能力大大放松了传统识别方法所需的约束条件,非常适合用于研究生物医学信号。为进一步提高分类性能,本文还着重研究了Levenberg-Marquardt BP算法,并建立单隐层(H1)和双隐层(H2)的BP网络分类模型。将第三层细节系数作为特征参量,分别训练和测试单隐层BP网络(H1)和双隐层BP网络(H2),实验结果表明:H1和H2分类准确率均为96.67%,但H1的平均误差较低。最后,本文对几种方法在ROC曲线下面积、误判率、可解释性等方面一一进行对比。综合分析得出:以提取的第三层细节系数作为特征向量,选用单隐层LMBP网络模型分类时,识别效果最佳。