0%

『论文笔记』When Facial Expression Recognition Meets Few-Shot Learning - A Joint and Alternate Learning Framework

Information

  • Title: When Facial Expression Recognition Meets Few-Shot Learning: A Joint and Alternate Learning Framework
  • Author: Xinyi Zou, Yan Yan, Jing-Hao Xue, Si Chen, Hanzi Wang
  • Institution: 厦门大学
  • Year: 2022
  • Journal: AAAI
  • Source: Arxiv, PDF
  • Idea: 利用少样本学习中的孪生网络来解决多源域单表情到多表情的跨域任务,并提出两阶段训练框架提高其泛化性能
1
2
3
4
5
6
@article{zou2022facial,
title={When Facial Expression Recognition Meets Few-Shot Learning: A Joint and Alternate Learning Framework},
author={Zou, Xinyi and Yan, Yan and Xue, Jing-Hao and Chen, Si and Wang, Hanzi},
journal={arXiv preprint arXiv:2201.06781},
year={2022}
}

Abstract

来自厦门大学模式分析与机器智能研究中心的原文语录[1]

本文由我中心独立完成,第一作者是2020级硕士邹心怡同学,该论文由严严副教授、王菡子教授、伦敦大学学院薛景浩教授和厦门理工学院陈思副教授共同指导。本工作首创性地基于跨域小样本学习范式解决人脸复合表情识别问题。针对人脸表情类别有限的问题,构造情感-相似度双分支网络(EGS-Net),并设计基于联合和交替学习的训练框架,缓解对重复采样任务的过拟合问题。实验结果表明,本工作研究成果在室内的CFEE和室外的EmotioNet数据集上都取得了良好的性能。

这篇文章的方向是复合表情识别中的跨域少样本学习,即只需要少量目标域的新类图像用做训练。作者提出了一个新的表情引导相似性网络(Emotion Guided Network, EGS-Net),其中包含了表情分支和相似性分支两个部分。网络基于两阶段的训练框架,第一阶段两个分支以多任务的方式联合训练,通过对表情分支的正则化防止相似性分支过拟合到基类表情;在第二阶段,表情分支和相似性分支进行一个“双学生博弈”来相互学习。

Introduction

作者提出,因为表情的基类太少,传统 FSL (Few-shot learning) 方法很容易过拟合,不容易从基本表情中学会推理复合的表情,作者针对这个问题提出了一种 CD-FSL 方法即 EGS-Net,其中包含了表情和相似性两个分支,表情分支主要捕捉基本表情的全局信息并对其做正则化操作,相似性分支则学习两种表情之间的可迁移相似性度量。该网络是用两阶段训练框架:

  1. 两个分支以多任务的方法联合学习;
  2. 两个分支交替学习

作者认为该论文的主要贡献有:

  • 提出 EGS-Net 方法用于 CD-FSL 的复合面部表情识别,能从简单的基本表情数据集中学习到复合表情模式且只需少量目标域样本
  • 提出了两阶段的学习框架用于训练 EGS-Net 用于缓解 基类数量有限的问题
  • 效果很好

作者提出的方法属于基于元学习的方法并使用了 L2M (Learn-to-measure)

Method

image-20221030223542073

作者提出了一个新的表情引导相似性网络(Emotion Guided Network, EGS-Net),其中包含了表情分支和相似性分支两个部分,表情分支主要捕捉基本表情的全局特征学习来做基本表情分类,相似性分支则学习两种表情之间的可迁移相似性度量。在训练阶段,表情分支使用小批量训练,同时相似度分支使用 L2M 设置进行间断式训练,每个片段会从源域采集支持集合和查询集合来执行元任务,然后模型参数使用查询集合中的分类损失进行更新,而训练阶段会使用复合表情数据集构建相似的元任务片段。在每个元任务中,基于相似度分支,每个查询图像会分类到支持集合中最接近的类别中。 两阶段训练,第一阶段量个分支用多任务的方式共同训练,二阶段则分离交替训练。

Detail

联合学习

损失函数为 \[ \mathcal{L}_{joint} = \mathcal{L}_{sim} + \lambda_{emo}\mathcal{L}_{emo} \] 右边两项分别表示两个分支的分类损失,\(\lambda\) 是一个平衡参数

表情分支包含一个编码器 \(E_e\) 和分类器,其给出了全局的表情特征,具体计算方式为 \[ \mathcal{L}_{emo} = -\sum_{c=1}^{C_r}\mathbb{1}_{[c=y_i^{r}]}\log(f(E_e(x_{i}^{r}))) \] \(r\) 表示随机采样,\(D_r\) 表示从多个源域中随机选择的一个源域,\(C_r\) 表示 \(D_r\) 的分类数量,\(\mathbb{1}_{[c=y_i^{r}]}\) 是指 01 的布尔值即 \(c=y_i^{r}\) 时为 1 否则 0

相似性分支包含相似性编码器 \(E_s\) 和度量模块 \(M\)\(E_s\)\(E_e\) 是当前阶段是共享参数的。在原训练片段中,从一个随机源域中随机划分为支持集合和查询集合,少样本分类任务的目标是接枝支持集合的参考来预测查询集合中的图像。将支持集合和查询集合中的图像都送的相似度分支来预测两者之间的相似度,然后根据相似程度给出与最相近支持集合图像的类别,整个过程可以表示为 \[ \hat{Y_{q}^{r}} = g(M(E_{s}(X_{s}^{r}),E_s(X_{q}^{r})),Y_{s}^{r}) \] \(q\) 表示查询集合(query), \(s\) 表示支持集合(support),\(g\) 表示根据相似度指标将查询图像分配到其最近的类别的操作,目标损失函数为 \[ \mathcal{L}_{sim} = -\sum_{n=1}^{N}\mathbb{1}_{[n=y_q^{r}]}\log(\hat{y}_{q}^{r}) \] 通过对不同元任务的训练,相似度分支能很容易泛化到看不见的任务中。

交替学习

经过联合训练相似度分支对基本表情的识别已经很不错了,但对复合表情的识别还是比较糟糕,因为缺乏对新类的推理能力,因此作者设计了交替学习阶段,将其称为“两学生博弈”,即每个分支轮流的向另一个分支学习。

首先先让表情分支在固定相似度分支的情况下学习,目标函数是 \[ \mathcal{L}_{emo}^{al} = \mathcal{L}_{emo}+\theta_{n_e}||E_{s}({x}_{i}^{r}) -E_{e}({x}_{i}^{r})||^{2}_{2} \] \(\theta_{n_e}\) 是根据阶段 \(n_e\) 确定的动态权重,这里采用了权重衰减的策略。而 \(||E_{s}({x}_{i}^{r}) -E_{e}({x}_{i}^{r})||^{2}_{2}\) 是正则项,约束表情分支和相似度分支尽可能的靠近,这样表情分支就能获得前一段看不见任务的知识

接下来固定表情分支让相似度分支学习,相似度分支可以提高在未见过的与在基本表情和复合表情的性能,其目标函数是 \[ \mathcal{L}_{sim}^{al} = \mathcal{L}_{sim}+\theta_{n_e}||E_{e}({x}_{i}^{r}) -E_{s}({x}_{i}^{r})||^{2}_{2} \] 这里同样使用了动态权重 \(\theta_{n_e}\)

循环上述的两个过程,通过交换两个分支的知识可能让相似度分支具有迁移到未见过的复合FER任务的能力。

Experiment

  • 数据集:CK+, Oulu-CASIA, MMI, RAF-DB, SFEW 单表情数据集作为源域,CFEE, EmotionNet 复合表情数据集用作测试(复合表情数据集划分为单表情部分 _B 和复合表情部分 _C)
  • backbone:都是 ResNet18
  • 优化器:adam, 学习率 0.001, \(\beta = [0.5, 0.999]\)
  • 共同训练阶段权重为 \(\lambda_{emo} = 1\)
  • 表情分支 batch size 128 相似度分支类别数 \(N=5\), 支持集合每类样本数量 \(K=1, 5\) ,查询图像数量为16
  • 共同训练 200 轮然后 5 轮交替训练每次交替都训练 20 次,\(N_e\) 设为 100
  • 最后取 1000 元测试任务的平均值

image-20221031171821821

image-20221031171830628

image-20221031171848681

image-20221031171856798

image-20221031185242692

Conclusion

在 CD-FSL 提出了用于 复合人脸表情识别的 EGS-Net 用于避免复合表情数据集收集数据和标记困难的问题并提供了良好的拓展性,为了解决基本类型数量有限的问题,作者提出了两阶段训练流程,在共同学习可以防止模型过度拟合高度重叠的基本类型,而在交替学习阶段会进一步提高模型的推理能力,使其推广到未见过的任务中。

Others

好像没开源代码orz

References


如果对你有帮助的话,请给我点个赞吧~

欢迎前往 我的博客 查看更多笔记

--- ♥ end ♥ ---

欢迎关注我呀~