对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

发布日期:2021-12-23 12:02    点击次数:200

 

自监督学习在计算机视觉中的行使相等普及,能够在异国人造标注的情况下学到输入数据的有效外示。

现在基于说相符嵌着手段(joint embedding method)的自监督视觉外征学习钻研挺进外明,自监督学习得到的外示性能和有监督外示相比相差不大。这些手段的现在的清淡是经过最大限度地行使联相符图像分别失真度的嵌入向量之间的相反性来学习对数据添强保持不变的外示。

但自监督模型存在休业题目,即将一切输入映射到联相符常数向量,所以钻研人员挑出了各栽手段来解决该题目,这些手段倚赖于分别的机制,固然成功地防止了一切外示向量紧缩到单个点的十足休业情况,但在非对比学习手段中能够不益看察到,固然嵌入向量不会十足休业,但它们会沿着特定的维度休业(dimensional collapse),这导致嵌入向量只能在较矮维度的子空间中有效。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

遵命直觉来说,对比学习中答当不会展现这栽休业题目,由于对比学习的手段中清晰行使亏损函数中的正例和负例,能够直不益看地行使一切维度推想负例的排挤效来防止这栽维度休业。然而,与直觉正好相逆,对比学习手段照样受到维度休业的影响。

对于这栽表象的成因不息异国定论,Facebook的LeCun和田渊栋博士比来发布了一篇文章,从理论上钻研了这一表象背后的动因。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

田渊栋博士是Facebook人造智能钻研院钻研员、钻研经理,上海交通大学获得计算机本科和硕士学位,2013年获得卡耐基梅隆大学机器人系博士,致力于深度深化学习、外征学习和优化。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

论文中,钻研人员发现有两栽分别的机制能够会导致休业:

1、沿着特征倾向,当数据增补引首的方差大于数据分布引首的方差时,权重会休业。

2、即使数据添强的协方差在一切维度上都幼于数据方差,由于分别层面上权重矩阵的相互作用(隐式正则化),权重仍将休业,这栽休业只发生在网络具有众个层的网络中。

受这栽理论的启发,文章挑出了一栽新的对比学习手段DirectCLR,它直接优化编码器(即外示空间),而不倚赖可训练的投影(projector),DirectCLR在ImageNet上具有线性可训练投影仪,其性能优于SimCLR。

从经验上望,增补projector能够隐微挑高学习到的外现和下游外现的性能,检查外示层的spectrum也会发现有无projector的迥异。钻研人员训练了两个带projector和不带projector的SimCLR模型,当模型在异国projector的情况下进走训练时,SimCLR 会发生外示空间中的维度休业。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

对比学习中的projector对于防止外征空间中的维度休业至关主要,基于这个理论,钻研人员挑出:

梯度将会驱动projector权重矩阵与编码器骨干的末了一层对齐,所以projector 权重矩阵只必要是对角的(diagonal)即可。 projector 仅对外示的子空间行使梯度,所以权重矩阵只需是一个矮秩矩阵。

作者挑出在对比学习中经过直接向亏损函数发送外示向量的子向量来移除projector,这个操作也称为DirectCLR。与一切最新的自监督学习手段相比,这栽手段能够直接优化外示空间。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

随后钻研人员在ImageNet上为DirectCLR训练了100个epoch 的标准Sim-CLR,骨干编码网络是一个ResNet50。DirectCLR与行使ImageNet上可训练线性projector 的SimCLR相比外现出更益的性能。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

DirectCLR 也能够实现似于SimCLR中可训练projector 的功能来防止外示空间中的维度休业。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

有人能够会认为DirectCLR 中的对比亏损异国在外示向量r[d0:]的其余片面行使梯度,原形上,整个外示向量r 经过训练并包含有效的新闻。外示向量的其余片面经过残差连接从末了一个盈余块之前的层复制。外示的这一片面不直接经历来自亏损函数的梯度,而是经过卷积块由梯度更新,残差连接经过末了一个卷积块的满秩梯度。

对比学习也会维度休业?LeCun和田渊栋团队新作DirectCLR帮解决

钻研人员还进走了三项溶解实验:

固定的矮秩projector:这时DirectCLR退化为一个带有固定线性、对角矩阵projector的SimCLR。实验效果不益看察到,当行使固定的矮秩矩阵行为projector 时,它在ImageNet上的性能相通,从而达到62.3%的线性probe 精度。该矮秩矩阵的奇怪值竖立为d0数为1,其余为0。该矩阵对答的奇怪向量都是随机生成的。所以,它们唯一的区别是,这个固定的projector 有一个额外的固定正交矩阵。这外明外示空间(或相等于前一层)在训练期间已进化为与该正交矩阵对齐。 可训练的对角线projector:钻研人员训练了一个SimCLR模型,该模型带有一个可训练的projector ,但仅限于对角线的数值。该模型在ImageNet上实现了60.2%的线性probe 精度,与带有1层线性投影仪的SimCLR相等。这也能够经过projector 与骨干中的前一层对齐的对齐表象来注释。但钻研人员疑心初首化题目是该模型比具有1层线性可训练投影仪的SimCLR稍差的因为:随机矩阵的奇怪值分别于均匀分布。 在子向量z上的线性probe:对于DirectCLR,钻研人员仅在子向量z上实走线性probe,并在ImageNet上获得47.9%的精度。这外明即使r 异国望到直接来自亏损函数的梯度,但它其余片面照样包含有效的新闻。

为了保证论文能够成功复现,论文的附录中还挑供了每个引理和定理的详细表明、代码以及参数。

【编辑选举】

基于鸿蒙分布式跨设备文件服务-信件管理 HDC技术分论坛:HarmonyOS新一代UI框架的周详解读 HDC技术分论坛:ArkCompiler原理解析 袭击的星环!星环科技入选2021机器学习平台领导者象限 梯度行使效能管理平台亮相 2021第十届中国国防新闻化装备与技术博览会



Powered by 208aatv爱浪_爱浪app直播平台下载安装_308tv爱 @2013-2022 RSS地图 HTML地图

Copyright 站群系统 © 2013-2021 365建站器 版权所有