【摘 要】
:
数据分类是机器学习领域中一种重要的数据处理方法,其主要任务是通过归纳和学习一系列带有类标签的数据样本,去建立一个能反映样本和标签之间映射关系的模型。在当今信息化的时代,数据通常会包含多层次、多视角的知识和信息,因此关于如何从人类处理复杂问题的思路出发去解决分类问题是值得深入研究的。粒计算作为一种新兴的信息处理方法,能够模拟人类认知、分析和处理问题的方式去处理分类问题,且可以帮助用户探索数据中隐藏的
论文部分内容阅读
数据分类是机器学习领域中一种重要的数据处理方法,其主要任务是通过归纳和学习一系列带有类标签的数据样本,去建立一个能反映样本和标签之间映射关系的模型。在当今信息化的时代,数据通常会包含多层次、多视角的知识和信息,因此关于如何从人类处理复杂问题的思路出发去解决分类问题是值得深入研究的。粒计算作为一种新兴的信息处理方法,能够模拟人类认知、分析和处理问题的方式去处理分类问题,且可以帮助用户探索数据中隐藏的一些多层次和多视角的知识。因此,本文基于粒计算的框架对数据分类展开了研究,主要的贡献如下:(1)针对传统的信息粒化方法通常只能在单一信息粒度下进行粒分类建模的问题,本文提出了一种多信息粒度下的分类建模方法。当面对多样化分布的数据时,单一信息粒度下所构造的信息粒可能无法捕获到数据的本质特征。为解决上述问题,本文通过引入信息粒的覆盖性(Coverage)和特殊性(Specificity)的概念,把分类建模过程中多信息粒度下的信息粒化问题转换成一个受信息粒度水平变量约束的粒边界优化问题。在不同信息粒度取值下对优化问题进行求解就可以获得在对应粒度水平下的信息粒。随后本文将这种信息粒化方法和基于规则的分类方法进行结合,在多信息粒度下构造了基于信息粒表达的数据分类模型。数值实验结果表明,基于信息粒表达的分类模型可以在拥有简洁分类规则的同时保持较高的分类准确度。(2)针对在多维数据分类中数据的整体特征容易被忽视的问题,本文提出了基于联合超球信息粒的数据分类算法。人类在面对多维数据时,会参考数据在直观视角下的整体分布特征(如样本在几何空间中的分布形状等)去进行分类决策,但是一些常见的分类算法往往忽视了这种建模思路而只关注如何去提升模型的分类准确度。为了解决这个问题,本文设计了“超球信息粒”和“联合超球信息粒”这类针对多维数据的信息粒表达形式,并提出了基于联合超球信息粒的数据分类方法。在多信息粒度思路下,围绕多维数据的每个类别去构造相应的联合超球信息粒,并把构造的联合超球信息粒和相应的类标签分别当作对应分类规则的条件部分和结论部分,实现了分类建模。数值实验结果表明,在建模过程中所构造的每一个联合超球信息粒均能够描述其对应类别样本的整体分布特征,既保证了模型能拥有优于一些经典分类算法的分类准确度,又使得模型拥有直观且便于用户理解的结构。(3)针对不平衡数据分类,本文提出了基于粒描述的数据分类算法。常见的不平衡数据分类方法在建模前往往会根据不平衡数据的不平衡率(即多数类和少数类样本的比例)对数据进行预处理,这在一定程度上造成了对原始数据的破坏,忽视了数据的本质特征。为解决上述问题,本文首先对数据的粒描述进行了研究,然后以粒描述为基础提出了一种自下而上的融合式信息粒化方法,在不平衡数据的多数类样本和少数类样本上构造出两个规模悬殊的联合信息粒,实现对数据样本(尤其是少数类样本)分布信息的描述和捕获。此外,本文还在不同的闵可夫斯基距离参数下计算了信息粒融合过程中所涉及的距离度量,以探索不平衡数据样本更细节的特征。数值实验结果表明,所提出的分类算法可以在无需数据重采样、特征选择的等预处理方法辅助的情况下构造出性能优秀的不平衡数据粒分类模型。
其他文献
语文学科中蕴含着丰富的内容,在塑造高尚人格、提升生活品质、增加情感体验、传承优秀文化与精神等方面发挥着重要的作用。尤其是小学低段课程不仅是学生向更深、更广的语文世界探索的奠基石,还是学好其他课程的基础。基于此,本文以小学语文课程为例,探究提升语文教学质量的有效途径。
随着社会对学生美育素养的要求越来越高,初中语文诗歌语言的美育价值得到了广泛重视。研究诗歌语言教学中的美育发展变迁,能够得知初中语文诗歌语言教学的情境创设及其可持续性发展对学生美育培养的意义。以初中语文诗歌语言教学为中心开展美育,非常具有现实意义。
目的筛查北京市初中学生学习困难发生率及分布情况,为后续相关研究和政策制定提供参考。方法于2019年10月到2020年1月,采用分层随机整群抽样方法,选取北京市城乡12所公立普通初中的初一、初二年级6 365名全体学生作为研究对象。使用联合型瑞文智力测验、主课成绩收集、教师判定等方法筛查学习困难学生。结果由教师对研究对象进行学习困难判定发现,文字阅读、阅读理解、文字书写、书面表达、数字计算、数学推理
心理社会肿瘤学始于20世纪70年代中期,是一门新兴的交叉学科,研究恶性肿瘤患者及其家属在疾病发生、发展各阶段所承受的压力和心理反应,以及心理、社会、行为因素在恶性肿瘤的发生、发展及转归中的作用[1]。心理社会肿瘤学的产生,为恶性肿瘤的整合治疗和护理开拓了新视野,心理社会因素在恶性肿瘤的发生发展及诊疗、护理过程中起到了非常重要的作用。历经半个多世纪,心理社会肿瘤学在国际上已发展成为一门日臻成熟
毕节市某羊场发生疫病,经病原核酸检测,病羊为羊口疮与支原体混合感染所致。通过2017-2020年对羊场的净化处置,成年羊、育成羊、羔羊的羊口疮发病率分别从2017年的6.28%、9.38%、27.97%下降到2020年的3.39%、5.63%、10.48%;流产、死胎母羊占比分别从2017年的12.36%、10.11%下降到2020年的4.46%、3.18%;羔羊死亡率从2017年的54.25%下
化学计算是初中化学教学的难点。经过分析,笔者发现,在河南省近五年的中招化学考试中,学生在化学计算方面得分率偏低。分析这类得分较低的化学试题发现,学生主要存在数据处理错误、搞不清数据之间的关系、利用化学方程式计算时格式错误等问题。针对这些问题,教师要引导学生理解化学概念、原理,掌握化学计算方法,培养分析解决问题能力。
针对城市中宠物饲养管理普遍存在登记信息和卫生疫苗管理情况混乱、宠物走失事件频发等问题。提出一种新型物联网(IoT)宠物项圈设计。智能宠物项圈核心使用STM32L151C6T6超低功耗单片机作为主控模块,包含窄带物联网(NB-IoT)、NFC、GPS、墨水屏等重要功能与部件,并具有防盗报警功能。软件部分使用C语言进行程序设计,实现了NB-IoT数据上传下载、NFC数据读取写入、丢失报警等功能。
燃料电池是一种极具前景的清洁能源转换装置。其中,阴离子交换膜燃料电池(AEMFCs)因其氧还原活性高,可使用非贵金属催化剂,成为研究热点。作为AEMFCs的核心部件,阴离子交换膜(AEMs)的OH-传导率和碱稳定性是决定AEMFCs性能和寿命的关键。然而,常用主链型聚芳醚类AEMs结构中的吸电基(例如C=O和O=S=O)和邻位苄基阳离子会加速主链的芳醚裂解,成为制约聚芳醚在AEMs中应用的关键问题
现代工农业生产过程,会造成过量的镉(Cd)和铅(Pb)排放,污染土壤。Cd/Pb属于毒性金属,会对动植物的生长发育产生危害。土壤中过量的Cd/Pb会通过食物链传递和富集,对人类健康造成威胁。治理土壤Cd/Pb污染迫在眉睫。植物修复技术是一种绿色、经济、无二次污染的重金属污染土壤治理方法,具有广阔的发展前景和利用空间。杨树生长迅速、生物量大、适应力强,在修复Cd/Pb等重金属污染土壤中具有巨大潜力。
在我国实现工业化的过程中,涌现出了一大批资源型城市,其对自然资源的大规模开发利用极大地促进了我国社会经济的发展,为我国的经济腾飞做出了难以磨灭的贡献。然而随着对资源持续地高强度开发,相当多的城市面临着资源枯竭或已经枯竭的困境。而且这些城市在早期发展过程中,缺乏环保意识与可持续发展意识,生态环境已遭到严重破坏,同时城市对资源型产业存在严重的路径依赖,缺乏接替产业,城市转型面临巨大的挑战和困难。资源型