机器学习算法在不同领域数据分析中的应用

被引量 : 0次 | 上传用户:fanmw960
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了机器学习算法在癌症治疗和橡胶混炼过程质量控制这两个领域数据分析中的应用,其中癌症治疗领域应用涉及肿瘤细胞辐射敏感性预测和癌症分类两个方面。在两个研究领域用到的数据中,均含有大量的噪声信息,而且数据内部呈现很强的非线性影响关系。为提高癌症病人的个性化临床治疗效果,本文借助机器学习算法及NCI-60细胞系基因表达数据,提出了一种新的细胞辐射敏感性预测模型。先用显著性微阵列分析算法选择那些表达水平与细胞系辐射敏感性变化紧密相关的基因,得到辐射敏感性基因集,大大降低了数据维度。然后用偏最小二乘算法对辐射敏感性基因集提取互相正交的潜变量,移除基因表达数据之间的强相关性。最后将得到的潜变量作为支持向量机回归算法的输入,构建辐射敏感性预测模型。另外,对辐射敏感性基因集,用三类癌症病例的生存分析验证了它们的临床应用价值;用基因功能富集分析给出了它们参与的主要生物学过程及具有的主要功能。在基于基因表达数据的癌症分类间题中,基因表达数据具有的高维、小样本及变量强相关等特性使得常规分析方法很难获得满意的分类效果。为提高癌症分类准确率,本文提出一种新的SPDF分类模型。通过偏最小二乘算法提取潜变量来克服基因表达数据的强相关性,然后将潜变量作为决策森林算法的输入来构建癌症分类模型。橡胶混炼过程中,混料胶硬度参数测量存在严重的滞后性。本文提出用混炼胶流变参数作为变量并借助偏最小二乘及其改进算法,对混炼胶硬度进行在线预测。同时,针对混炼过程具有时变性及易受噪声影响等特点,引入Q统计量实现对预测模型的在线更新和更新过程样本的筛选。Q统计量不仅能选择到包含最多模型变异信息的样本点,而且可以显著地减少模型更新所需时间与数据存储量。实际应用表明,基于流变参数的硬度预测模型具有很好的预测精度和时变跟踪能力。
其他文献
作文批改一要用语文明,忌尖刻;二要突出重点,忌面面俱到;三要具体,忌空洞;四要一语中的, 忌隔靴搔痒;五要多就少改,忌面目全非。
本研究以海德格尔和唐·伊德(Don Ihde)的技术现象学取径考察地图的演化,认为地图的演化史是人对世界的理解在地图中展开并复返于人的理解的历史。通过对地图史上有重要影响
本文从关联论的认知语境观出发,探讨了在认知语境下,跨文化交际中利用文化图式作为语篇理解的参照框架,使语篇和读者记忆中不同层次的文化图式结合起来,相互作用,相互验证,对
随着我国土地资源的日益紧张,高层建筑在城市建设中倍受欢迎。针对高层建筑较具有施工周期长、工程量大、高空作业等特点,不仅要注意测量、裂缝和强度等方面的质量管理,还要
<正>虽然参加工作没几个年头,但是每堂课下来,自己的感受还是非常丰富的,因为每堂课给我带来的都是内心的极大冲击。在进行相似三角形性质这一课的教学设计时,我本着放手让学
战时共产主义政策在帮助苏维埃渡过艰难的国内战争时期后,其历史局限性也日益突出。在严峻的政治、经济危机面前,列宁进行了深刻的分析和总结,推行了新经济政策。这一政策对
公务员考核制度是国家公务员制度的重要组成部分,当前我国公务员考核制度中还存在许多弊端,在分析我国公务员考核存在的问题的基础上,提出切实可行的完善公务员考核制度的对
农产品物流成本控制评价是农产品物流成本控制的重要内容,其实质是对农产品物流成本控制的有效性进行分析。基于价值链理论对评价指标进行选择可以将农产品物流成本控制凝聚
从农药种类、涉及的蔬菜种类、农药残留限量指标数和农药残留限量指标值四方面对中国和俄罗斯联邦蔬菜上制定的农药残留标准进行对比分析,指出我国目前蔬菜农药残留标准存在
本文概述了养兔的规模化发展过程及发展的必然趋势 ,同时指出了规模化养兔要求的基本条件 ,对于我国肉兔规模化养殖发展具有一定的参考意义。