0%

『论文笔记』Domain Generalization via Frequency-domain-based FeatureDisentanglement and Interaction

Information

  • Title: Domain Generalization via Frequency-domain-based Feature Disentanglement and Interaction
  • Author: Wang, Jingye and Du, Ruoyi and Chang, Dongliang and Liang, KongMing and Ma, Zhanyu
  • Institution: 北京大学
  • Year: 2022
  • Journal: ACM International Conference on Multimedia (ACM MM 2022)
  • Source: ACM, Offical Code, ArXiv
  • Cite: Jingye Wang, Ruoyi Du, Dongliang Chang, Kongming Liang, and Zhanyu Ma. 2022. Domain Generalization via Frequency-domain-based Feature Disentanglement and Interaction. In Proceedings of the 30th ACM International Conference on Multimedia (MM '22). Association for Computing Machinery, New York, NY, USA, 4821–4829. https://doi.org/10.1145/3503161.3548267
  • Idea: 将图像在频域上进行分解得到低频特征和高频特征再进行交互用于提高域泛化
1
2
3
4
5
6
@inproceedings{wang2022domain,
title={Domain Generalization via Frequency-domain-based Feature Disentanglement and Interaction},
author={Wang, Jingye and Du, Ruoyi and Chang, Dongliang and Liang, KongMing and Ma, Zhanyu},
booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
year={2022}
}

Abstract

在这篇文章中,作者研究了图像的频域,得出了两个关键的结论:

  1. 图像的高频信息描述了对象的边缘结构,保持了对象在不同域之间高维信息的一致性
  2. 图像的低频信息包含了对象的平滑信息,这部分信息容易受到域偏移的影响

据此作者提出

  1. 一种 encoder-decoder 结构来分离图像的低频信息和高频信息
  2. 一种信息交互机制来使得这两部分的信息能有效的协助
  3. 一种新的数据增强,作用与频域,用于使频域特征解耦更具有鲁棒性

Introduction

image-20230123163707339

上图展示了 PACS 的四个域使用傅里叶变换分离得到的低频图像和高频图像,从左到右分别是原图、低频图像、高频图像,可见高频图像更多的保留了对象的边缘信息,不同域之间的域偏移较小,即不容易收到域偏移的影响,而低频图像保留了对象的平滑纹理信息,对于分类是有帮助的。

作者针对观察得到的两个结论:

  1. 图像的高频信息描述了对象的边缘结构,保持了对象在不同域之间高维信息的一致性,更具有域不变性
  2. 图像的低频信息包含了对象的平滑信息,这部分信息容易受到域偏移的影响,更具有域特异性

作者给出了实验的证明,在PACS上计算不同域之间低频图像和高频图像之间的A-距离

Frequency A-Distance(Ave.)
L 1.97
H 1.87

这表明不同域之间高频图像比低频图像更相似,更具备域无关的特征,但高频图像反应的是图像灰度值变化大的位置,图像的大部分信息都丢失了,容易受到背景边缘结构的噪声影响,即难以区分前景和背景,而低频图像虽然更具有域特异性,但保留了图像的大多数语言信息,因此作者认为低频图像可以补充高频信息帮助图像识别。

基于上述分析,作者提出了基于频域的特征解耦和交互框架(frequency-domainbased feature disentanglement and interaction, FFDI),该框架由三个部分组成:一个编码器-解码器结构、特征交互机制(the information interaction mechanism, IIM), 基于频域的数据增强(the frequencydomain-based data augmentation technique, FDAG)。

image-20230125140110862

首先,作者设计了双分支编码器-解码器结构,利用特征解耦的思路来分离得到图像的低频和高频特征,其次,为了有效的将高频特征的语义信息和低频特征的能量信息(纹理特征),作者提出使用双线性池化的方法,如图所示,双线性池化包含两个路径(或称为“流”):

  • 腹侧流(The ventral stream, what pathway): 包含语义信息
  • 背侧流(The dorsal stream, where pathway): 包含空间信息

但双线性池化的方法用于高维特征融合存在时空开销大的问题,因此基于双线性池化的思路作者引入了一种简单有效的特征交互技术 IIM。在实验中,作者发现即使是加法、拼接等简单的特征交互方法也能取得不错的效果,这说明不同频率分量之间的特征融合是有效的。

最后,为了提高网络提取高频和低频特征的鲁棒性,作者提出了一种基于频域的数据增强方法。

该论文的贡献:

  • 提出了一种新的网络结构 FFDI,用于解耦图像的高频和低频特征并通过信息融合机制将两种特征进行融合,利用不同频率中的有用信息提高模型的表达能力
  • 通过在频域添加噪声干扰的方法做数据增强来提高模型解耦不同频率特征的鲁棒性
  • 通过在域泛化数据集上的实验结果证明了方法的有效性

Method

首先,输入图片通过基于频域的数据增强方法 FDAG 进行数据增强,随后使用特征提取器提取特征,再使用由两个并行卷积构成的特征解耦模块解耦得到高频特征和低频特征,对这两种特征使用重构器恢复成原始的高频图像和低频图像与通过傅里叶变换得到的高频图像和低频图像作为监督图像优化(这里解耦模块和重构模块可以视为 CAE 中的 encoder-decoder 结构),高频特征与低频特征都输入到一个单独的分类器中进行分类,以优化提取到的特征,这部分仅用于优化网络而推理中不执行,除此之外,高频特征和低频特征还会输入到 IIM 中得到融合特征再用于分类。下面是分模块介绍

特征解耦

首先使用 CAE 来提取图像的高频特征和低频特征,先通过傅里叶变换将图像变换到频域 \[ F(u, v)=\sum_{a=0}^{A-1} \sum_{b=0}^{B-1} x(a, b) e^{-j 2 \pi(a u / A+b v / B)} \] 给出一个掩模矩阵 \(M\) \[ M=\left\{\begin{array}{l} 1,(u, v) \in\left[c_{x}-r: c_{x}+r, c_{y}-r: c_{y}+r\right] \\ 0, \text { others } \end{array}\right. \] 其中 \((c_x, c_y)\) 是图像的中心,\(r\) 是低频图像和高频图像的频率阈值。低通滤波图像(LFI)和高通滤波图像(HFI) 使用下式得到: \[ \begin{aligned} L F I & =F^{-}(F(I) \circ M), \\ H F I & =I-L F I, \end{aligned} \] 其中 \(F^-\) 是逆傅里叶变换。LFI 和 HFI 用作 CAE 的优化目标(监督图像),重构损失为 \[ \mathcal{L}_{\text {cae }}=\frac{1}{K} \sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{i}}\left\|X_{f_{j}}^{i}-\hat{X}_{f_{j}}^{i}\right\|_{2}^{2} \] 其中 \(X_f \in \{LFI, HFI\}\)\(\hat{X}_f\) 是重构图像,通过使用高通滤波图像和低通滤波图像作为重构图像的监督标签,可以使得提取到的嵌入特征分别具备高频和低频特征,与此同时,使用提取的特征作为输入分别训练一个分类器,预测样本标签,用于使提取的特征包含更多与对应频率相关的语义信息,这部分使用交叉熵损失作为目标函数 \[ \mathcal{L}_{c a}=-\frac{1}{K} \sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{i}} y_{j}^{i} \log \left(C_{A}\left(\operatorname{AvgPool}\left(f_{F_{j}}^{i}\right)\right)\right) \] 其中 \(f_F\) 是提取的高频、低频特征,\(C_A\) 是对应的分类器。

信息交互机制

信息交互机制(IIM)利用上一节中提取到的低频特征生成空间掩码,并与高频特征相乘来抑制或加强对应位置的特征。具体如上面结构图中右边部分IIM所示,先在通道维度对低频特征执行平均池化和最大池化操作,对结果进行拼接得到低频特征中包含的空间信息,随后送入标准卷积层得到空间掩码,如下式所示: \[ f_{\text {mask }}=\sigma\left(\operatorname{Conv}\left(\left[\operatorname{AvgPool}\left(f_{L}\right), \operatorname{MaxPool}\left(f_{L}\right)\right]\right)\right) \] 其中 \(\sigma\) 表示 sigmoid 激活函数,随后将得到的掩码矩阵 \(f_{mask}\) 与高频特征相乘(哈达玛积,即对应位置相乘),得到混合特征 \(f_Z\), 将其送入分类器,对分类结果使用交叉熵损失最小化进行优化: \[ \mathcal{L}_{c i}=-\frac{1}{K} \sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{i}} y_{j}^{i} \log \left(C_{I}\left(\operatorname{AvgPool}\left(f_{Z_{j}}^{i}\right)\right)\right) \] 作者的出发点在于利用高频特征和低频特征之间的交互使得网络在高频特征中学习到边缘特征和低频特征中有用的信息。

基于频域的数据增强

上面的方法能提高网络的泛化性能,但仍然存在一个问题是,无法确保网络能在未见过的域上提取图像的不同频率的特征,因此作者提出基于频域的数据增强方法来提高模型的鲁棒性。

image-20230127135720972

首先使用傅里叶变换将图像转换到频域,再将其转换到极坐标形式 \[ F(u, v)=|F(u, v)| e^{-j \phi(u, v)} \] 随后获取其振幅和相位 \[ \begin{array}{l} A(u, v)=|F(u, v)| \\ P(u, v)=\phi(u, v) . \end{array} \] 对振幅和相位都添加噪音扰动 \[ \hat{A_g} = \alpha \circ A_g + \beta \] 其中 \(A_g\) 是振幅和相位,\(\alpha \in R^{C \times H \times W}\) 是服从均匀分布的随机噪声,\(\beta \in R^{C \times H \times W}\) 是服从高斯分布的随机噪声。

将变换后的频域图像进行逆傅里叶变换得到数据增强后的图像。

算法流程

对于输入图像,先使用 FDAG 的方法进行数据增强,随后送入网络中,总的损失函数为 \[ \mathcal{L}_{all} = \mathcal{L}_{ci} + \lambda (\mathcal{L}_{ca_L} + \mathcal{L}_{ca_H} + \mathcal{L}_{cae_L} + \mathcal{L}_{cae_H}) \]

Experiment

在 Digits-DG, PACS, Office-Home 上进行测试,遵循 leave-one-domain-out (即选择一个域作为目标域,其余作为源域)的方法

Conclusion

该研究从图像频域的角度处理域泛化问题,即使用低频信息来辅助高频信息进行识别。作者提出了三个模块组成的网络,用于提取图像的高频和低频特征,将其交互融合,为了提高解耦高频低频特征的鲁棒性,还提出了一种基于频域的数据增强技术,最后通过实验证明了方法的有效性

Others

一些想法:

  1. 针对跨域小样本学习,学习一个源域的低频信息,然后将目标域提取高频信息,与源域学习的低频信息融合得到一个从目标域迁移到源域的新的图像,再用于分类

References


如果对你有帮助的话,请给我点个赞吧~

欢迎前往 我的博客 查看更多笔记

--- ♥ end ♥ ---

欢迎关注我呀~