0%

『论文笔记』Domain Generalization for Activity Recognition via Adaptive Feature Fusion

Information

  • Title: Domain Generalization for Activity Recognition via Adaptive Feature Fusion
  • Author: XIN QIN, JINDONG WANG, YIQIANG CHEN
  • Institution: 国科大、微软亚研院
  • Year: 2022
  • Journal: TIST
  • Source: Arxiv, ACM
  • Cite: Qin X, Wang J, Chen Y, et al. Domain Generalization for Activity Recognition via Adaptive Feature Fusion[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2022.
  • Idea: 在域不变特征和域特定特征直接寻找平衡,其中域特定特征采用融合加权多源域特征提取器提取的特征获得
1
2
3
4
5
6
7
@article{qin2022domain,
title={Domain Generalization for Activity Recognition via Adaptive Feature Fusion},
author={Qin, Xin and Wang, Jindong and Chen, Yiqiang and Lu, Wang and Jiang, Xinlong},
journal={ACM Transactions on Intelligent Systems and Technology (TIST)},
year={2022},
publisher={ACM New York, NY}
}

Abstract

人类活动识别(Human activity recognition, HAR)常常面临身体形状、活动风格、习惯的影响,这要求模型具备良好的泛化性能,而传统的域适应方法要求测试数据可用,这在很多实际应用中不现实。作者提出了一项新的挑战:域泛化活动识别(domain-generalized activity recognition, DGAR),并提出了 AFFAR(Adaptive Feature Fusion for Activity Recognition)的方法,AFFAR 融合了域不变和域特定的特征以提高模型的泛化性能,域不变的特征具备良好的迁移性能,而域特定的特征能提高各个域的分类性能。

Introduction

如下图所示,在没见过的数据集模型性能可能会严重下降

fig-motiv

常见的解决方法有迁移学习和域适应方法,但迁移学习需要在目标域进行微调,而域适应也需要用到目标域的数据进行学习。而我们最想要的其实是在源域上进行训练后可以在各个域都通用的模型,即域泛化活动识别。

向着这个目标,作者提出了 AFFAR 来提高 HAR 模型的泛化能力。AFFAR 的关键在于学习动态融合域不变的特征和域特定的特征,域不变的特具备良好的迁移性,域特定的特征能帮助模型在各个域提高泛化性能。

论文的主要贡献有以下几点:

  1. 提出了一项新的挑战:域泛化活动识别 DGAR
  2. 提出了 AFFAR 来解决 DGAR 问题
  3. 在 HAR 数据集上验证了 AFFAR,效果很好
  4. 应用 AFFAR 解决实际问题 ADHD,效果很好

Method

作者认为,已有的域泛化算法虽然可以用在 DGAR,但没有充分利用 DGAR 的特点。因此作者提出了 AFFAR 的方法。其基本的想法是,虽然无法访问到测试数据,但可以使用已有的训练数据来表示测试数据,即将训练域加权聚合用于表示测试域。同时因为不同域有不同的概率分布,所以也需要模型学习到域不变的特征。

framework

AFFAR 包含四个子模块:特征提取模块、活动分类模块、域特定表示学习模块和域不变学习模块。目标函数可以表示为: \[ \mathcal{L} = \mathcal{L}_{cls} + \lambda\mathcal{L}_{dsr} + \beta\mathcal{L}_{dir} \] 其中 \(\mathcal{L}_{cls}\) 表示分类损失,\(\mathcal{L}_{drs}\) 表示域特定特征的学习的损失函数,\(\mathcal{L}_{dir}\) 表示域不变的特征学习损失函数,分类损失使用交叉熵损失: \[ \mathcal{L}_{cls}=-\frac{1}{N} \sum_{i=1}^{N} y_{i} \log P\left(y_{i} \mid x_{i}\right) \] 其中 \(N\) 表示所有训练域。

域特定特征

域特定特征模块的主要目的是学习到域特定的特征然后对齐加权融合来表示未见过的目标域的特征。如下式: \[ \mathbf{z} = \sum_{k=1}^{K} w_k f_k(f_e(\mathbf{x})), \text{~where~}w_k > 0 \text{~and~} \sum_{k=1}^K w_k=1 \] 给定测试数据 \(x\) 其特征可以表示为 \(z\) , \(w\) 表示源域特征的权重,具体含义为与目标域的相似度。这个过程类似集成学习,集合多个模型的共同结果使得模型能在所有方面都能表现的很好,一个基本模型包含两个部分:共享的CNN特征提取器 \(f_e\) 和针对每个域 \(\mathcal{D}^k\) 的特定特征提取器 \(f_k\),其基本依据是模型浅层倾向于学习到低级和通用的特征而高层更倾向于学习到域特定的特征。

对每个域 \(\mathcal{D}_k\) 的权重 \(\mathcal{w}_k\) 是通过一个域分类器 \(f_d\),将 CNN 提取的特征作为输入,然后对输出添加 softmax 函数计算得到权重 \[ \mathcal{L}^k_{dsr} = \frac{1}{n_k} \sum_{i=1}^{n_k} \ell(f_d(f_e(\mathbf{x}_i)), d_k) \] 最后对 \(K\) 个域取平均。通过这样的方法,模型能通过融合多个源域的域特定特征来表征任意未见过的目标域的域特定特征。

域不变特征

只是学习域特定特征的话会使得特征分布间距变大,因此要在域不变和域特定之间寻找一个平衡。在这篇论文中,通过最小化域间距 \(dist(\mathcal{D}^i, \mathcal{D}^j)\) 来学习域不变特征。距离度量函数使用了 MMD (Maximum Mean Discrepancy):

\[ \mathcal{L}_{dir}^{ij} = \left \Vert \frac{1}{n_i}\sum_{\mathbf{x}\in \mathcal{D}^i}{\phi}(\mathbf{x}) -\frac{1}{ {n}_j}\sum_{\mathbf{x}\in \mathcal{D}^j}{\phi}(\mathbf{x}) \right \Vert_{\mathcal{H} }^{2} \]

最后总的距离取平均值:

\[ \mathcal{L}_{dir}=\frac{2}{K(K-1)} \sum_{i,j} \mathcal{L}^{ij}_{dir} \]

这里也可以用其他度量函数来替代 MMD

训练流程

image-20221123162127799

讨论

也可以用域对抗(DANN)来替代域不变损失的MMD,但在 DGAR 效果不好: \[ \mathcal{L}^{dann}_{dir} = \mathbb{E}_{1 \le i \ne j \le K} \mathbb{E}_{\mathbf{x}^i \in \mathcal{D}^i, \mathbf{x}^j \in \mathcal{D}^j}\log [D(f_i(f_e(\mathbf{x}^i)))] + \log [1- D(f_j(f_e(\mathbf{x}^j)))] \] 其中 \(D\) 表示域分类器

也可以用 CORAL 损失来替代 MMD: \[ \mathcal{L}^{coral}_{dir} = \frac{1}{4d^2}||C^i-C^j||^2_F \] 其中 \(d\) 表示特征维度,\(C\) 表示两个域的协方差矩阵,\(F\) 表示 \(F\) 范数

Detail

理论推导,不想看,下面是原文

定理:Risk upper bound on unseen domain

Let \(\gamma=d_\mathcal{H}(\mathcal{D}^{te}, \bar{\mathcal{D} }^{te})\) denote the \(\mathcal{H}\)-divergence between target domain and its nearest neighbor in source domain convex hull, then, the risk on unseen domain \(\mathcal{D}^{te}\) of hypothesis \(h\) is upper-bounded by the weighted risk on source set \(S\): \[ R_{te}[h] \leq \sum_{i=1}^{N_{S} } \pi_{i} R_{S}^{i}[h]+\gamma+\epsilon+\min \left\{\mathbb{E}_{\bar{\mathcal{D} }^{te} }\left[\left|f_{S_{\pi} }-f^{te}\right|\right], \mathbb{E}_{\mathcal{D}^{te} }\left[\left|f^{te}-f_{S_{\pi} }\right|\right]\right\} \] where \(\epsilon\) is the largest distribution divergence between unseen target domain and any source domain and \(\min \left\{\mathbb{E}_{\bar{\mathcal{D} }^{te} }\left[\left|f_{S_{\pi} }-f^{te}\right|\right], \mathbb{E}_{\mathcal{D}^{te} }\left[\left|f^{te}-f_{S_{\pi} }\right|\right]\right\}\) denotes the difference between labeling functions.

In our problem, the categories between training and testing are the same, the main distribution difference between training and testing data is the activity patterns (i.e., \(P(\mathbf{x})\)). So it is close to the covariate shift assumption: the labeling function error (\(\min \{\cdot, \cdot\}\)) and \(\gamma\) are both relatively small .

In this way, the risk on unseen domain is bounded by two terms: the weighted source risk \(\sum_{i=1}^{N_{S} } \pi_{i} R_{S}^{i}[h]\) and the source-target distribution divergence \(\epsilon\). Obviously, our domain-specific learning module corresponds to minimizing the weighted source risk and the domain-invariant learning module minimizes the risk \(\epsilon\). Thus, our algorithm can also be interpreted from the theory.

Experiment

不看,反正就说效果还不错

Conclusion

AFFAR 通过融合学习域特定特征和域不变特征使模型具备泛化到未见过的域的能力。

后续的改进工作:

  1. 更多应用
  2. 引入其他域不变学习模块

如果对你有帮助的话,请给我点个赞吧~

欢迎前往 我的博客 查看更多笔记

--- ♥ end ♥ ---

欢迎关注我呀~