基于演化算法的序回归技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiomantou_3737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多实际应用中,数据的类别之间存在一种自然的序关系。例如,我们用1~5星去评价一部电影,3星评价高于2星评价,而4星评价低于5星评价。和标称数据不同,我们称这样一类数据为有序数据。有序数据的类别之间可以排序,但类别之间的差异却没有精确的定义。例如,对电影的3星评价通常被认为优于2星评价,但是3星究竟比2星好多少却难以度量。预测有序数据的序的学习问题,称之为序回归。序回归有着广泛的实际应用场景,例如情感分析、信息检索、推荐系统、信用评价、医学等。序回归问题作为机器学习、数据挖掘领域重要的问题之一,越来越受到研究者们的关注。已有的工作主要集中在研究有监督序回归问题。然而,当缺少足够的有标签数据时,该问题变得难以处理。在很多实际应用中,有标签数据往往难以获取并且校对起来代价很高。而无标签数据通常大量存在,并且易于获得。因此,同时考虑有标签数据和无标签数据的半监督序回归问题具有重要的研究意义和实际价值。本文以此为动机,对半监督序回归问题做了一定的研究和讨论。本文提出了一种基于加权核判别分析的半监督序回归技术。该算法通过一个加权策略来引入无标签数据,而权重体现了不同训练数据对于类分布的贡献大小。通过同时使用有标签数据和无标签数据,可以更准确地估计类的分布信息,从而获得更好的投影向量和阈值。该投影向量将原始数据映射到一个一维的空间,使得相邻类别之间可以分隔开、相同类别的数据可以聚合紧,同时保持正确的序关系;阈值用来预测新样例的序。该算法使用一种标签传播的方法来计算权重。然而,由于标签传播算法没有考虑数据中的序信息,导致估计的权重有时不是很准确。为了更准确地估计类的分布信息并进一步提升性能,我们提出了改进的算法——基于演化算法的半监督序回归技术。该算法通过使用演化算法来优化无标签数据的权重,优化目标是使学习器拥有良好的学习性能和泛化能力。由于同时引入了无标签数据和序信息,所以该问题是一个非凸且不可导的优化问题。演化算法适用于处理这类问题,我们在本文使用差分进化算法。为了降低优化问题的维度,本文提出了一种权重更新规则和个体表示方法,用来间接地演化权重。通过该方法,问题维度从无标签样例个数量级下降到序个数量级。在多个数据集上的实验结果,证明了本文提出的两个半监督序回归算法的有效性。
其他文献
近年来,Internet迅猛发展,并逐渐成为一种面向数据、语音、视频和多媒体应用等多种业务的综合载体。而各种新的多媒体业务的出现又对网络的服务质量提出了新的要求。但是,传
随着高速公路网建设的日臻完善,利用较为完备的视频监控系统对路面状况进行实时监控成为提高道路运营质量的一种重要手段。基于视频图像的目标检测和数据采集分析为更大程度
在低辐射航天环境下,由于空间粒子辐射等因素的影响,除引发处理器发生瞬时故障外,还会引起频发的、更加致命的间歇故障。传统单核处理器无法采用纯软件的手段实现容错,而多核
多源图像融合技术是将来自同一场景的不同图像传感器的多幅图像进行综合处理,得到一幅融合后的图像。与单一图像传感器所获得的图像相比,融合后的图像对场景提供更全面、精准、
基于位置的服务极大地方便了我们的生活,寻找附近的好友、推荐附近的热门餐馆等应用无一不包含了基于位置的服务。用户在享受基于位置服务的同时,会不经意地泄露敏感的位置隐
随着互联网的快速发展,当前每天都将产生海量的数据。为了存储这些数据,独立磁盘冗余阵列(RAID)利用多个磁盘提升系统容量和读写性能。在大规模RAID系统中,由于磁盘数较多,磁
由于其灵活性和可扩展性,XML成为越来越多互联网上数据的表示标准。在一类应用中,XML数据表现为源源不断到来的数据片断,在这类应用中的XML数据称为XML数据流。XML数据流的应
音频分割是指根据说话人特征、环境、信道条件,将音频流“自动”切分成若干同质区域的方法。由于其在音频检索、语音识别等应用中具有潜在价值,近年来受到了广泛关注。在各种音
很久以来中医一直依靠指面感觉来体会患者桡动脉搏动处的脉象信息,因此诊断时需借助医师的经验,这样使得其应用和发展都受到了很大的限制。所以,利用现代科技对脉诊进行客观
整个网络中的信息按深度可分成两个层次,表层和深层。表层主要包括“静态网页”,是指以文件形式静态存放在服务器上的数据信息。深层则主要包括“动态网页”,是指隐藏在表单