0%

『论文笔记』MeteNorm - Learning to Normalize Few-Shot Batches Across Domains

Information

  • Title: MetaNorm: Learning to Normalize Few-Shot Batches Across Domains
  • Author: Yingjun Du, XianTong Zhen, Ling Shao, Cees G. M. Snoek
  • Institution: AIM Lab, University of Amsterdam
  • Year: 2021
  • Journal: ICLR
  • Source: OpenReview, Offical Code(PS: 截止 2022.12.21 仓库还是空的)
  • Cite: Du, Yingjun, et al. "Metanorm: Learning to normalize few-shot batches across domains." International Conference on Learning Representations. 2020.
  • Idea: 提出了元归一化用于少样本学习和域泛化
1
2
3
4
5
6
7
@inproceedings{du2021metanorm,
title={MetaNorm: Learning to Normalize Few-Shot Batches Across Domains},
author={Yingjun Du and Xiantong Zhen and Ling Shao and Cees G. M. Snoek},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=9z_dNsC4B5t}
}

Abstract

提出了元学习Normalization,用于解决 BatchNorm 在小批量时不稳定和不适应域偏移的问题。在小样本学习和域泛化中取得了较好的效果。

Introduction

BN 是基于独立同分布的假设的,但在小样本学习和域泛化中这个假设并不成立,在这篇文章中针对 BN 在小批量和源域与目标域存在域偏移的问题上进行了改进。作者提出的 MetaNorm 是利用元学习是模型学会从数据中推断 normalization 的统计值而不是直接计算。

所谓元学习即学会学习,按照个人对元学习的理解,常规的模型训练的其实就是一个函数 f,而元学习就是学习训练这个 f,至于元学习是如何优化的这个没有弄得很明白,但我们可以学习初始化、学习 超参数,同样也可以学习 Batch Normalization,而对于少样本学习和域泛化任务,传统的 BN 可能效果没那么好了,通过元学习学出的 BatchNorm 效果可能会更好

Method

MetaNorm 的基本思想是利用元学习设置并从数据中学习生成自适应规范化的统计数据,通过最小化 KL 散度来解决不同数据分布下的 batch normalization,其中 KL 散度是衡量两个不同概率分布之间差异的度量: \[ D_{\mathrm{KL}}\left[q_{\phi}(m) \mid p_{\theta}(m)\right] \] 其中 \(p, q\) 是高斯分布,\(m\) 是激活分布的随机变量。通过使用多层感知机(作者称其为超网络)对每个卷积层中的每个单独通道使用 \(f_\mu^\ell(\cdot), f_\sigma^\ell(\cdot)\) 来推断 \(\mu, \sigma\). 将交叉熵损失和 KL 散度进行结合得到一般的损失函数: \[ \mathcal{L}=\mathcal{L}_{\mathrm{CE}}-\lambda D_{\mathrm{KL}}\left[q_{\phi}(m) \mid p_{\theta}(m)\right] \]

接下来是针对小与样本学习和域泛化以及小样本域泛化进行了广泛的说明,但总论述还是上面这个式子

Experiment

主要有如下实验:

  1. KL 项的消融实验,小样本学习使用 MAML 在 mini ImageNet 上进行实验,域泛化使用 ResNet-18 在 PACS 上进行实验,证明了 KL 项的有效性。
  2. 目标集的大小,MetaNorm性能随着目标集大小的增加而增加,并在合理的大小处趋于稳定。在few-shot设置中,性能在125左右达到峰值,略大于75的标准大小,而在domain generalization设置中,性能在128左右达到瓶颈。
  3. 算法敏感性:与不同算法合用效果均不错,包括 ProtoNets,MAML, VERSA
  4. 数据集敏感性:在 Meta-Dataset 进行了实验,这个没太懂,可能是专门验证元学习好坏的一个数据集
  5. 域敏感性:是一些跨域的实验
  6. 小样本域泛化实验:在 DomainNet 上的实验

Conclusion

作者提出了MetaNorm,一种基于元学习的批处理归一化。MetaNorm解决了具有挑战性的场景,例如批大小太小而不能产生足够的统计数据,或者由于域转移而导致训练统计数据不能直接适用于测试数据。MetaNorm学习学习特定于任务或领域的自适应统计数据。它是通用的和模型不可知的,这使得它可以与不同应用程序的各种元学习算法一起使用。在两个已知的现有任务上评估MetaNorm,即小样本分类和域泛化,还介绍了同时解决小批量和分布偏移问题的具有挑战性的小样本域泛化评估场景。对17个数据集的广泛实验表明,与其他归一化方法相比,MetaNorm始终能够获得更好的结果,或至少具有竞争力,验证了其作为一种新的基于元学习的批处理归一化方法的有效性。

Others

对元学习有了进一步的深入了解

References


如果对你有帮助的话,请给我点个赞吧~

欢迎前往 我的博客 查看更多笔记

--- ♥ end ♥ ---

欢迎关注我呀~