基于半监督和噪声弱监督分类方法研究及应用

来源 :天津财经大学 | 被引量 : 0次 | 上传用户:wwling_girl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天,机器学习的方法被运用在各行各业,取得了很多的成果。但是,在很多现实的机器学习场景中,大量样本数据缺少标记,甚至会出现许多错误标记的情况。对这种样本数据标记不完整的数据情况进行学习,就是弱监督学习。弱监督学习按照样本标记情况可以分为不完全监督、不准确监督和不明确监督。上述缺少标记和标记错误的情况分别被划归为不完全监督和不准确监督的学习范畴。本文针对这两种弱监督学习问题进行了研究,主要的工作包括:1.不完全监督下的学习问题。对数据集中仅有少量样本拥有完整标记的情况,本文结合了半监督学习流形假设的思想和主动学习的方法,提出了一种结合流形假设的主动学习方法,将样本特征和标记关系共同用于恢复缺失标记。从理论上具体分析了提出方法的有效性和可行性,最后通过实验进行了验证。2.不准确监督下的学习问题。对数据集中样本标记含有噪声,准确性难以保证的情况,本文提出了一种结合聚类的解决方法,在学习机的训练过程中,能够利用聚类一定程度上地减少噪声传递和累加。从理论上具体分析了提出方法的有效性和可行性,最后通过实验进行了验证。3.电子商城评论情感分类应用研究。情感分类技术有助于电子商务平台提高服务水平。但是,从电子商务平台直接获得的数据质量不高,存在很多信息缺失、信息错误的情况。因此,本文将上述提出的针对不完全监督和不准确监督的学习方法应用到实践当中,使用天猫商城用户评论文本数据集开展实验,经预处理后,使用组合模型的方式进行学习,实验结果验证了本文方法的有效性,能够解决实际应用问题。
其他文献
《经典释文》是爲包括《周易》、《论語》在内的十四部經典著作注音釋義的音義書,《老子音義》作為《經典釋文》中的第二十五篇,對於《老子》的校勘以及傳播都具有重要的意義
全球化促进了世界人物传记文化的交流,对于异国读者来说,他们既希望了解异国人物事迹,也希望增进对异域本土文化的认识。然而众多文学翻译作品中,人物传记翻译作品少之又少,
合成孔径雷达(SAR)因其产生高分辨率图像而备受关注。在实际工作中,SAR受多种复杂因素的影响,比如相干斑噪声、传输过程中噪声干扰、人为损坏等,会使SAR图像出现不同程度的破损,导致接收到的SAR图像分辨率和清晰度不高,影响使用效果。为了增强SAR有损图像的分辨率,提高其清晰度,使之恢复到更接近原始图像,需要对SAR有损图像进行有效恢复。本文提出了联合低秩稀疏的SAR有损图像恢复,主要内容如下:(
教材插图分类作为在线交互学习的先验技术手段,对于教材理解及插图问答至关重要。插图通常是被有意设计用来表达信息,很难用几个文字或者用一幅自然图像来描述。它们通常会抑制不相关的信息,比如杂乱的背景,复杂的纹理以及阴影的细微差别。这就使得对教材插图的分类与自然图像的分类有本质上的不同。鉴于插图应用广泛且涵盖信息较多,本文对教材插图的分类算法进行初步探索及研究优化。对于插图数据集中存在的特征相似性问题,使
俄语插入语通常是指句子中插入的词、词组或句子成分,它们统称为插入成分。在现代俄语中,尤其是口语中,插入语的使用非常常见。纵观俄语插入语研究历史,语言学家们主要从语法
在我国市场经济的快速发展下,企业内部的薪酬差距逐年增大,在社会普遍接受“按劳分配”思想的同时,近些年高管的天价薪酬事件却纷纷引起了公众、政府与相关学者的关注。在学术层面,薪酬差距与企业绩效之间的关系问题则成为了争论焦点,自从Lazear和Rosen提出了锦标赛理论以来,学者们对二者关系的研究主要有正相关、负相关、倒U型相关和正U型相关等几种观点。行为经济学显示,个体除了自利也有着公平偏好,相关学者
近年来,文化传承与创新已经成为了国际社会的热点话题。随着中外交往日益频繁,各城市间外事和文化交流活动也在不断增多,中国也开展了一系列文化活动促进文化交流,传承与创新
近半个世纪以来,语言学研究发展迅速。语言学家们逐渐意识到,很多时候,单个句子往往不能表达一个完整的信息。句子所表达的思想通常受到上下文或语境的制约。于是他们把研究
控制项目的成本对一项工程来说至关重要,因为从项目的开始到结束都需要对成本的限制,能否很好的把控成本与项目最终盈利还是亏损有密切的联系,因此控制好成本是整个项目必不
无人机由于具有体积小、造价低、灵活方便等特点,在军用和民用领域中都得到了飞速的发展。无人机数据链系统是连接无人机与地面站之间的纽带,其包括地面站到无人机终端的上行