【摘 要】
:
近年来,随着社会和科技的发展,多模态数据正在爆炸式迅速增长,例如社交媒体数据,通常在机器学习领域的研究任务中,有时候需要多视图学习,即从原始数据集派生成多个视图进行统
论文部分内容阅读
近年来,随着社会和科技的发展,多模态数据正在爆炸式迅速增长,例如社交媒体数据,通常在机器学习领域的研究任务中,有时候需要多视图学习,即从原始数据集派生成多个视图进行统计分析,有时候需要进行度量学习,因为学习一个好的距离度量函数在信息检索,聚类,分类中是极其关键的,但是现有的研究成果很少有将这两个领域结合起来的,即多视图度量学习。考虑到多模态数据的特殊结构,如果从单一视图考虑,可能没有办法充分挖掘数据的价值,而且在度量学习过程中,使用传统的欧式距离或者马氏距离是不合适的,因为属性变量之间可能会存在相应的相关系数约束,这样看来多视图度量学习是一个很好的解决方案。本文基于双翼簧风琴(Dual Wing Harmonium,DWH)模型对多模态数据进行多视图度量学习方法研究,将多视图学习和度量学习结合起来,主要工作包含以下两个方面:1)提出了一种基于DWH模型的多视图度量学习算法MVDML,该算法通过从多模态数据中提取不同的信息,试图将多个视图嵌入在一个单一的低维隐变量空间,通过最小化相似数据对之间的距离并且最大化非相似数据对之间的距离,在接下来的监督学习的过程中学习最合适的距离度量,针对数据模态超过两个的情形,本文将DWH模型扩展为三翼簧风琴(Triple Wing Harmonium,TWH)模型,并且对成对约束条件的生成进行了优化,使用Dask和Numba进行数据预处理来实现并行加速的目的,实验结果表明该算法是有效并且可扩展的,通过对代码级别的并行加速可以大幅减少算法的运行时间。2)通过特征工程,提取多模态数据中的关键信息,将原始数据转化为特征向量作为算法模型的输入,希望提高模型的准确率,得到更好的结果。本文主要针对IMDb数据集从用户数据、电影数据、评论数据三个模态提取信息,为了得到模型参数,本文在算法里通过在低维隐变量空间模型里使用联合概率密度和损失函数,在解释数据和提供一个有效的距离度量之间找到平衡同时避免过拟合,并和主流的模型和算法进行对比,实验结果表明该算法模型在分类和检索效率上是最优的,计算时间上是有效的。
其他文献
转折复句在句法系统中占有重要地位,使用频率高,是语言学习中的重点也是难点。本文根据关联标记在句中出现的位置分别对汉、维转折复句进行分类,从标记模式的角度出发,根据语义考察了转折句、让步句、假转句在不同标记模式中的分布。之后,对汉语转折复句在维吾尔语中的对应情况进行探析,并试图将标记模式与转折复句类型结合起来,探讨现代汉语转折复句在维吾尔语中对应的基本情况,找出翻译时现代汉语转折复句在维吾尔语中的对
利率市场化是发展社会主义市场经济必不可少的组成部分。我国在2013年7月19日全面放开贷款利率,并且在2015年10月24日解除对存款利率的政策管制,宣告我国利率市场化改革基本完成。这一重大进程的完成将对稳固金融市场、丰富金融产品种类、推动银行发展有着深远意义;再往下看,上游环境的改变必然会影响企业,而大规模企业具有规模优势,势必与小规模企业所受利率市场化的影响不尽相同;从地域角度来看,不同地区的
城市供电中电缆线路所占比例越来越高,随着电缆电压等级及输送容量的提高,由线芯感应产生的护层电流增大,过大的护层电流不仅影响电缆安全运行,也增大了电缆无功功率。本文从现有电缆护层电流等效计算模型出发,指出其计算过程中的缺陷并提出新的分布式等效电路模型,研究了电缆护层电流及无功功率影响因素。论文围绕以下几个方面展开:理论分析现有单芯电缆等效电路模型的基础上,指出了现有模型存在的问题;采用现有模型计算了
十八届三中全会提出要进行领导干部自然资源离任审计,党的十九大在党章修正案中把奋斗目标加入“美丽”内容,国家从顶层设计开始,加大对环境保护和污染治理力度。对生态环境管理治理体制进行改革,这是国家“四个全面”中全面深化改革的重要组成部分,改革的成功与否决定是否全面彻底。我国在土地资源资产离任审计领域有序开展试点工作,发表了不少研究文献。本文对国内外自然资源离任审计相关文献进行梳理总结,理清研究发展脉络
在反垄断法的法律规范中,对于垄断协议的法律规制一直是理论与实践中的重要问题,垄断协议一般有横向与纵向垄断两类的划分,相比较而言,纵向垄断协议相当于一个链条上的无直接竞争关系的不同经营者达成的排除、限制竞争的行为,也可以表述为不同生产或经营环节中的经营者与相对交易人之间达成的统一定价、对销售区域进行限制、搭售及其他附条件交易的协议或协同行为,这些行为造成了市场不正当竞争的蔓延,严重影响了市场经济秩序
目的:本研究通过随机对照试验,观察任脉长蛇灸治疗寒凝血瘀型原发性痛经的临床疗效,以期为临床治疗原发性痛经提供一种疗效良好、毒副作用较小、无痛的中医特色治疗方案,为本病患者选择安全有效的针灸疗法提供更多的参考。方法:选取2018年12月—2019年12月期间至广东省中医院珠海医院针灸科门诊就诊,临床诊断为寒凝血瘀型原发性痛经的72例患者(两组分别为36例,治疗过程中,治疗组脱落4例,对照组脱落6例)
随着Internet技术的飞速发展,企业越来越多的将其业务以网络服务的形式发布出来,这使得网络服务的数量快速增多,其中很多网络服务具有相同或者相似的功能。在这种情况下,面对
随着公众环保意识的增强以及环境和全球变暖问题的日益严峻,消费者对其所购买的产品提出了越来越多的问题。大多数公司将不得不对以下问题提出疑问:制造过程和供应链的绿色程度,碳排放量大小以及回收的方式等等。同时,中小企业在市场上面临着愈发激烈的竞争,在面对来自资金和市场双重压力的同时,中小企业融资难早已不是新话题。而在绿色产业中亦然,为了实现绿色产业中资源的高效利用及市场价值最大化,催生了绿色供应链及绿色
随着我国公共服务行业的不断发展,自然语言文本信息呈指数级增长。命名实体识别是自然语言处理研究中的一项重要子任务,是学术界和工业界研究的重点,命名实体识别是指从自然语言文本中识别出具有特定意义的实体词。在新闻、微博等开放领域命名实体识别技术取得了较好的成果,但是针对特定的旅游、体育领域中文命名实体识别方法研究还存在着一些不足之处。目前,随着深度学习技术的快速发展,基于神经网络的层级命名实体识别方法在
近年来,中国对外开放的程度不断加深,受“一带一路”政策的鼓励,越来越多的中国企业开始向国外寻求合适的标的企业,跨国并购案例的数量逐渐增多。企业跨国并购是一把“双刃剑”:一方面,跨国并购可以使企业在较短时间之内实现规模扩张,内部资源配置优化,资金使用效率提高,企业承担风险的能力和在国际市场上的竞争力也会随之增强;另一方面,若企业并购失败,将有可能面临资金链断裂甚至破产的风险。然而,由于跨国并购风险较