论文部分内容阅读
在很多实际应用中,数据的类别之间存在一种自然的序关系。例如,我们用1~5星去评价一部电影,3星评价高于2星评价,而4星评价低于5星评价。和标称数据不同,我们称这样一类数据为有序数据。有序数据的类别之间可以排序,但类别之间的差异却没有精确的定义。例如,对电影的3星评价通常被认为优于2星评价,但是3星究竟比2星好多少却难以度量。预测有序数据的序的学习问题,称之为序回归。序回归有着广泛的实际应用场景,例如情感分析、信息检索、推荐系统、信用评价、医学等。序回归问题作为机器学习、数据挖掘领域重要的问题之一,越来越受到研究者们的关注。已有的工作主要集中在研究有监督序回归问题。然而,当缺少足够的有标签数据时,该问题变得难以处理。在很多实际应用中,有标签数据往往难以获取并且校对起来代价很高。而无标签数据通常大量存在,并且易于获得。因此,同时考虑有标签数据和无标签数据的半监督序回归问题具有重要的研究意义和实际价值。本文以此为动机,对半监督序回归问题做了一定的研究和讨论。本文提出了一种基于加权核判别分析的半监督序回归技术。该算法通过一个加权策略来引入无标签数据,而权重体现了不同训练数据对于类分布的贡献大小。通过同时使用有标签数据和无标签数据,可以更准确地估计类的分布信息,从而获得更好的投影向量和阈值。该投影向量将原始数据映射到一个一维的空间,使得相邻类别之间可以分隔开、相同类别的数据可以聚合紧,同时保持正确的序关系;阈值用来预测新样例的序。该算法使用一种标签传播的方法来计算权重。然而,由于标签传播算法没有考虑数据中的序信息,导致估计的权重有时不是很准确。为了更准确地估计类的分布信息并进一步提升性能,我们提出了改进的算法——基于演化算法的半监督序回归技术。该算法通过使用演化算法来优化无标签数据的权重,优化目标是使学习器拥有良好的学习性能和泛化能力。由于同时引入了无标签数据和序信息,所以该问题是一个非凸且不可导的优化问题。演化算法适用于处理这类问题,我们在本文使用差分进化算法。为了降低优化问题的维度,本文提出了一种权重更新规则和个体表示方法,用来间接地演化权重。通过该方法,问题维度从无标签样例个数量级下降到序个数量级。在多个数据集上的实验结果,证明了本文提出的两个半监督序回归算法的有效性。