基于专家的特征选择及缺省多标记学习策略

来源 :安庆师范大学 | 被引量 : 0次 | 上传用户:tsmkgszcd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习是机器学习中的一个研究热点,在个性化推荐、文本分类、生物学等领域引起了广泛关注。较之传统的单标记学习中的一个实例只能局限于单个标记,对于多标记学习,每个实例可以同时具有多个标记。多标记学习的目的是得到一个高性能的分类模型,它可以对于任何新实例预测出其可能的标记集。在多标记学习问题中,对于特征空间,由于海量数据中维度过高等问题,经常发生维数灾难,从而导致分类精度的降低。然而,可通过特征选择方法实现特征空间的降维,进而提升分类精度和泛化性能。对于标记空间,由于数据获取中其方法和成本限制等原因,部分数据丢失等现象经常出现,从而导致标记的部分缺省。基于此,本文针对这两个问题提出两种处理算法,主要内容如下:(1)对于特征空间的维度过高的问题,多数特征选择算法主要利用最大相关性最小冗余性准则在全部特征集中进行特征选择,没有考虑专家特征,因此多标记特征选择算法运行时间较长,复杂度较高。实际上,在现实生活中专家依据几个或者多个关键特征就能够直接决定整体的预测方向。如果提取关注这些信息,必将减少特征选择计算时间,甚至提升分类器性能。基于此,提出一种基于专家特征的条件互信息多标记特征选择算法。该算法考虑先将专家特征与剩余的特征相联合,再利用条件互信息得出一个与标记集合相关性由强到弱的特征序列,最后通过划分子空间去除冗余性较大的特征。(2)对于标记空间的标记缺省的问题,大多数多标记学习算法默认其标记集是完整的。但是,在现实世界中,每个实例的数据信息并不一定完整。目前,针对缺省标记补全算法较少,且这些算法忽略了特征空间中的噪声干扰。同时,当人们标注未知实例时,其判别函数的阈值大小的选择往往会影响其标注质量,特别在阈值附近的标注最明显。所有这些因素使得在缺省标记的情况下使用标记相关性变得更加困难。针对上述问题,提出了一种基于两级自编码的非平衡化缺省多标记学习算法。首先,利用标记密度来扩大标记空间的分类间隔面。在此基础上,利用非平衡标记补全方法对缺失的标记矩阵进行补全,得到一个新的补全标记矩阵。最后,考虑到特征空间的噪声问题,构造二级核极限学习机自编码器来实现特征和标记的信息融合。最后针对实际数据集,通过本文提出的两种算法进行应用,其分类结果较为优异,进一步说明本文算法的合理性和有效性。
其他文献
蒙古包是颇具民族特色的传统房屋结构,是草原文明的图腾与象征。草原地区旅游业发展迅猛,对大跨度、大空间新型草原房屋结构的需求与日俱增,传统的蒙古包结构由于在各个方面的制约,已不满足当前发展的需求。结合当前国家绿色发展的政策导向和冷弯薄壁型钢在低层房屋建筑上的性能特点,在保持草原房屋外形特点和房屋用途的基础上,首次提出并构建了这种装配式的冷弯型钢新型蒙古包结构,其截面形式是采用内插垫板的冷弯薄壁双肢C
市政污泥具有有机质含量高、物理力学性质差和含有重金属等特点,如果处理处置不当,不仅会占用大量土地资源,污泥中的污染物还会对人们的身体和生产生活造成威胁。污泥固化的传统固化剂主要为水泥和石灰,用于污泥固化时存在资源消耗大、回收利用率低、成本高等缺点。碱渣为工业制碱厂排放的固体废弃材料,主要采用地表堆存的方式进行处置,不仅占用大量土地资源,还造成污染环境和抑制经济发展等问题。污泥的固化/稳定化技术已经
随着教育信息化1.0到教育信息化2.0的转变,越来越多的教育教学产品涌现,社会逐渐对信息技术产生广泛的关注,国家政府也出台了一系列课程改革措施,提高信息技术教学效率。信息技术课程的培养方向从注重学生实际的操作水平转向培养学生思维能力和提高信息素养等方面,但在各学段的信息技术课堂教学中,学习效果普遍一般。大多数信息技术课程教学内容陈旧,教学过程存在诸多问题,如信息技术学科得不到应有的重视、课堂纪律差
本论文试图全面考察蒙古族著名散文家哈达(1908-1972)的传记以及他的作品。审视有关哈达及其他的作品研究情况,虽然已出现较多的研究成果,但他的传记研究还存在一些没提到他的人生经历的细节。作品研究主要以研究他作品里表现的启蒙思想为主的较多。其他作品的研究则尚未深入展开。该论文的目的在于在前人研究生成果的基础上对哈达的传记和作品进行全面的研究,进一步完善和充实哈达研究。通过研究哈达的传略及主要经历
基于φ-OTDR原理的振动传感系统在结构监测、地质勘探、安防和国防等领域的需求下得到了广泛的研究。而弱光栅阵列传感技术作为光纤传感领域的新兴领域,克服了传统单纯以光纤和强光栅作为传感单元的系统的缺陷,已经在石油石化厂、桥梁隧道、楼宇厂房及电站等场所大量应用。将φ-OTDR和弱光栅阵列结合应用于周界安防系统,以其分覆盖范围广、敷设简单和信噪比高等优势逐渐在DAS、水听器、VSP和大长周界等领域占据一
车辆自组织网络(Vehicular Ad Hoc Network,简称VANET),即车联网,作为智能交通管理的核心,对于解决交通拥堵、交通安全等问题有着极其重要的作用和意义。然而,车联网技术面临着诸多的挑战和困难。一方面,车联网采用无线通信方式,不法分子可以通过散布虚假信息、截获通信或窃取用户隐私等方式达到自己的目的,威胁车联网安全;另一方面,快速的网络拓扑变化和复杂多变的应用环境可能会使车辆与
论文试图全面考察民国时期蒙古族著名教育家、文学家克兴额(18891950)及其作品。纵观至今有关克兴额的研究虽然取得了不错的成果,但仍有较多值得继续研究的问题。例如:关于他的传记还有很多不明确的问题。因此该论文基于前人的研究成果上对克兴额的作品进行全面地研究,从而进一步推进克兴额研究。通过研究克兴额传记按时间大致可分为清末民初、伪满洲国时期及民国末期至新中国初期等三个阶段,思想可大致概括为维护人民
目的研究青蒿琥酯增强β-内酰胺类药物的抗菌作用,以PBP2a为靶点研究青蒿琥酯增强氨苄西林抗菌作用的机制。方法MIC法检测青蒿琥酯增强β-内酰胺类药物苯唑西林对MRSA(WHO-2和
对于新建高速公路而言,道路选线至关重要,尤其对于山区而言,其建设环境复杂,选线的合理性不仅直接影响工程量和工程造价的高低,而且还严重影响着行车的安全性、舒适性等。本文以南充至潼南(川渝界)高速公路的选线工程为研究对象,在分析其建设条件、道路总体设计的基础上,采用论述性比选、同精度比选的方式进行了选线方案的比选,最终选出推荐路线,并对选出的推荐路线进行了综合评价研究。本文首先对南充至潼南(川渝界)高
钱良择,清代虞山诗派诗人。著有《唐音审体》二十卷、《抚云集》十卷及《出塞纪略》一部。本文运用接受美学的方法,探析钱良择的唐诗接受问题。文章分四个部分:首先,探究钱良择家学、师承、交游对他宗唐倾向形成的影响。钱良择自小家学深厚,师承钱陆灿、冯班,受虞山诗派诗教影响巨大。与查慎行为金石之交。广泛的交游,为钱良择的诗学道路奠定了基础。其次,从《唐音审体》的创作背景、编选情况及特点、宗唐的诗学倾向三个方面