【摘 要】
:
随着计算机科学与技术不断发展,我们在生活中面对着各式各样的数据。其中许多数据是同时被多个标记所描述的,这样的数据被称为多标记数据,也是多标记学习任务的研究对象。多标记学习是根据大量已有的多标记数据建立一个分类模型。经过训练,模型能够给未知的数据打上一组标记。多标记学习在许多现实场景中发挥着作用,如图像识别、文本分类、音频识别等等。然而多标记数据往往拥有大量的特征,特征的高维性易导致“维数灾难”。维
【基金项目】
:
国家自然科学基金(No.61672272):基于粒计算的多模态多标记数据分类建模研究; 福建省自然科学基金(No.2018J01548):面向多标记数据的邻域粒化分类建模研究; 福建省教育厅科技项目(No.JAT180318):面向高维小样本数据的特征选择算法研究;
论文部分内容阅读
随着计算机科学与技术不断发展,我们在生活中面对着各式各样的数据。其中许多数据是同时被多个标记所描述的,这样的数据被称为多标记数据,也是多标记学习任务的研究对象。多标记学习是根据大量已有的多标记数据建立一个分类模型。经过训练,模型能够给未知的数据打上一组标记。多标记学习在许多现实场景中发挥着作用,如图像识别、文本分类、音频识别等等。然而多标记数据往往拥有大量的特征,特征的高维性易导致“维数灾难”。维数灾难会降低模型的分类性能。因此,特征选择作为一个提升模型性能的有效技术而被学者们重视。本文主要针对多标记学习以及多标记特征选择展开研究,主要研究内容包括:(1)在特定的应用场景中,特征是按照时间顺序进入模型(称为流特征)。为了有效处理流特征场景下的多标记特征选择问题,提出了基于邻域交互增益信息的多标记流特征选择算法。首先,基于邻域互信息定义了邻域交互增益信息,用于衡量特征与已选子集的关系。其次,使用在线相关性分析和在线冗余性分析两段策略来评估流特征。然后,根据多标记邻域交互增益信息构建了在线多标记流特征选择的目标函数并制定特征选择策略。最后,在6个多标记数据集和4个评价指标上,实验结果证明了该算法的有效性和稳定性。(2)利用类属属性知识,提出了基于互信息的多标记类属属性选择算法。首先,构建了基础优化框架来学习特征的权重矩阵。其次,利用互信息和皮尔逊相关系数定义特征重要度指标,并指导学习权重矩阵与标记的正负相关关系。然后,假设两个强相关的标记可以比两个不相关或弱相关的标记共享更多的特征。该优化框架不仅能直接作为分类器使用还可以将权重矩阵当作一个特征选择的基础。最后,实验验证了该算法的有效性和稳定性。
其他文献
由拉格朗日方程所描述的机械臂系统同步控制问题的研究吸引了来自科学与工程领域学者们的广泛兴趣。人们越来越多地将机械臂应用于需要极高精度和性能稳定性的实用任务。本文以实际工程中的应用背景为驱动,设计了在关节空间和任务空间上机械臂系统的不连续控制与同步问题,主要内容如下:首先,构造主-从拉格朗日系统,所考虑的系统允许存在参数失配,设计间歇控制使得具有参数失配的机械臂系统达到实用同步。同时基于Lyapun
近年来,随着我国教育强国政策的推进,愈来愈多的研究生层次人才加入小学教师队伍,初任小学教师队伍结构正在发生改变。学历层次对教师产生的影响是深刻的,作为研究生学历初任小学教师,在面临社会身份转变、生活场域转换、文化场域更迭时,他们当下的专业发展现状如何?在发展过程中产生了哪些需求?影响需求满足的因素有哪些?本研究结合勒温场论,从个体与环境出发,针对具体情境、具体场域中的教师专业发展需求进行研究。本研
自1982年德国数学家Wille提出形式概念分析以来,该理论已经成为有效的知识发现工具,并且被广泛应用于机器学习、模式识别及数据挖掘等领域.为了拓展经典概念格模型的应用范围,许多扩展模型被提出,包括模糊概念格、变精度概念格、多粒度概念格等.基于不同的模型可以处理不同的问题,包括但不限于概念知识获取、属性约简、决策规则等.矩阵视角下,研究属性约简不仅可以获取更加简洁的知识,而且时间效率高,有利于决策
特征选择作为重要的数据预处理手段,有效地改善了模型的训练时间与学习精度。然而随着大数据时代数据产生与收集速度的急剧提升,传统特征选择算法面临着严峻挑战:(1)特征空间存在高维性的同时,通常伴随着未知性与演化性;(2)标记类别之间往往不是相互独立的,通常存在复杂的层次结构关系。这导致传统的特征选择算法表现不佳,甚至无法应对现实的应用环境。为此本文针对流特征下,充分挖掘和利用类别的层次结构进行特征选择
腰椎间盘退变诊断对预防腰椎疾病意义重大,但目前对其诊断主要依赖于影像医师的主观评价,易因个人经验不足产生误判。本文基于核磁共振(NMR,Nuclear Magnetic Resonance)检测的椎间盘代谢组学数据,应用机器学习方法建立自动识别腰椎间盘退变(LDD,lumbar disc degeneration)等级的计算机辅助诊断方法,为影像医师提供参考。首先,本文对Spearman相关分析、
青少年处于人格塑造关键期,易产生强烈相对剥夺感,若得不到及时的宣泄与指导,则容易对个人、家庭乃至社会产生不良影响。目前较少研究关注青少年的父母关爱相对剥夺感,本论文旨在通过三个研究对其进行初步的探讨。研究一,经过理论维度构建、深度访谈(74名被试)、项目编制、试测(30名被试)、初测(600名被试)和复测(863名被试)等一序列严格的程序,编制《青少年父母关爱相对剥夺感量表》,结果发现:所编量表信
随着信息技术的发展和信息系统的不断更新,处理复杂而庞大的动态数据面临着严重的计算效率低的问题。动态计算为解决这一问题提供了有效途径。在完备的信息系统中,大多数近似动态更新方法主要是针对经典粗糙集及其扩展模型。而在多粒度的环境下,目前的研究方法较少且时间效率不高。此外,在许多的实际应用中,需要处理的数据不是单一的,而是数值型和符号型相混合的复杂数据。同时,信息系统往往不一定是完备的信息系统(即数据会
加强课程思政教育体系建设,是高职院校适应新时期课程思政建设新要求、全面落实立德树人根本任务的必然要求和重要举措。通过对课程思政教育体系的概念界定,结合当前高职院校课程思政建设现状,从构建多层次多维度目标体系、分层分类分段内容及实施体系、多元化多样化评价体系、多方协同推进保障体系等方面入手,有针对性地提出了构建高职院校课程思政教育体系的对策与建议。
物联网技术加速了“万物互联时代”的到来,传统的工业控制系统与信息网络系统的结合,提高了工厂生产效率和增强了工业控制系统管理机制,但同时也带来了安全隐患,暴露在互联网中的工业内网很容易遭受“五花八门”的黑客攻击。此外,随着IPv6协议不断发展,未来将广泛应用于工业控制系统领域中,新的技术融合可能会带来诸多新的安全问题。然而,在传统的入侵检测系统中,异常检测存在较高的误报率,误用检测存在较高的漏报率,
手指在日常生活和工作中与外界环境接触的最多,因此容易受外伤,往往影响手指的正常运动,此外神经系统疾病、脑卒中等也会造成手指运动功能的缺失。经过手术或治疗后,需对其康复程度进行测评,传统的方法多基于手工测量其运动范围,然后根据数值进行伤情判定,进而在屈伸这一平面制定单个手指的康复训练方案。这些方法大多只关注单个手指独立运动的范围,缺乏对相邻指间约束关系的考虑,且没有对其建立可视化模型;同时获取的测评