论文部分内容阅读
在实际工作场景中,数据的特征和标签往往会不同程度缺失,这种情况被称为数据具有不同的浓度。例如文本分类的数据中包含着大量未标记的文本,临床信息预测实验中包含很多缺失特征和标签的受试者。考虑到在实际应用中,未标记的示例也会包含数据分布的隐藏信息,低浓度数据的样本可以通过已有信息之间的内在联系和高度相关性来对其进行补充,因此对不同浓度数据包含的先验信息进行挖掘可以对实验结果进行有效的提高。本文的具体研究工作如下:(1)半监督学习使用大量的未标记示例和已标记示例,来进行模式识别工作。现有的基于图的半监督学习方法在本质上是属于模拟各种传播机制的标签传播方法。与现有的传播机制不同,尝试采用一种新的基于弹力的传播方法来实现半监督学习。基本思想是假设图中的每个节点以一定的弹性系数都接受其相邻节点的弹性力,并以另一个弹性系数将弹性力传递给相邻的节点。因此,两种类型的弹性力之间的差异可以度量每个节点的传播量。在此想法基础上,推导出图中所有节点的更新方程,并将这些方程表示为矩阵形式,进一步推导出其解析解。换句话说,该方法具有可靠的物理学基础。并从优化相应的目标函数角度出发,论证了该方法的基本原理,从而保证了该方法的收敛性。大量的实验结果验证了该方法在半监督学习中的有效性。(2)医学慢性病—阿尔茨海默病研究中示例数据丢失问题极其普遍。为了提高学习性能,首先采用矩阵分解的方式填充低浓度数据,其次为了充分利用低浓度数据中的特征和标签,本文从多个视角数据源和多个时间点对疾病状态预测进行联合建模。现有的预测慢性疾病在未来的时间点的表现状态的机器学习方法都是从单一任务和视角出发,没有充分考虑到慢性疾病发展过程中存在的双重异质性。特别是每个时间点中出现的预测任务,多个时间序列上任务也存在信息相关特性。这些任务的表现受到多个因素制约,从多个来源角度和时间点进行分析。对当下状况进行准确的判断预测,能够让患者积极主动地接受医学治疗。本文在考虑源的一致性和时间平滑性前提下建立了一种新颖在低浓度数据情况下的疾病预测模型。并且从理论上证明所提出的模型是一个线性模型,论证了该方法的基本原理,保证了该方法的收敛性。通过大量的实验验证之后,能够看到该模型在阿尔茨海默病临床分数预测中的有效性。