基于深度学习的表情动作单元识别综述

news/2025/2/21 5:06:12/
  1. 论文标题:基于深度学习的表情动作单元识别综述

  2. 作者:邵志文1,2,周 勇1,2,谭 鑫3,马利庄3,4,刘 兵1,2,姚 睿1,2

  3. 发表日期:2022 年8 月

  4. 阅读日期 :2023 年 11 月 30

  5. 研究背景:
    基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题 . 每个动作单元描述了一种人脸局部表情动作,其组合可定量地表示任意表情. 当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此,本文将已有的研究分为基于迁移学习、基于区域学习和基于关联学习的方法,对各类代表性方法进行评述和总结 . 最后,本文对不同方法进行了比较和分析,并在此基础上探讨了未来动作单元识别的研究方向.
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  6. 方法和性质
    基于迁移学习、基于区域学习和基于关联学习的方法

  7. 研究结果

  8. 创新点

  9. 数据
    在这里插入图片描述

  10. 结论

  11. 挑战
    标签稀缺、特征难捕捉和标签不均衡3个挑战因素

  12. 研究展望
    (1)已有基于迁移学习的工作尚无法有效地解决标签稀缺性挑战. 未来可以采取融合多种策略的方式:①将具有AU标签的样本作为源样本,利用GAN将无标签目标样本的表情编辑为源表情,则其具有源样本的AU标签,这些新生成的目标样本提高了训练数据的多样性;②利用最新的人脸配准开源库对样本标注特征点,同时结合具有整体表情标签的数据集,挖掘特征点、整体表情与 AU 间关联性,促进 AU 识别;③将自监督学习、有监督学习、域适应多种方法综合起来,利用自监督学习从无标签样本中学习 AU 本质属性的特征表示,利用有监督学习从具有 AU 标签的样本中学习AU识别模型,利用域适应使得其他域训练的模型可以被应用于当前域.
    (2)当前的 AU 识别模型在对多个 AU 同时预测时仍易于偏向提升出现频率较高AU的精度,以及偏向将AU预测为不出现,标签不均衡性依然严重限制着AU识别的精度. 可选的解决方案为:①利用GAN进行数据扩增,尽量使所生成的数据集在每个AU的出现与不出现频率、不同AU间的出现频率方面保持均衡;②借鉴已有的处理长尾分布等不均衡数据的方法,对不均衡的 AU标签分布进行建模,充分挖掘不同AU间的关联关系.
    (3)现有的工作主要关注受控环境,更接近实际应用场景的非受控AU识别的相关研究仍较少. 未来可从以下角度切入非受控环境的研究:①研究受控域到非受控域的AU迁移方法,利用具有AU标签的受控域数据集生成新的非受控域样本,扩增非受控域训练数据;②提高方法对不同头部姿态的鲁棒性,可以定位3D的人脸特征点、构造UV 映射、计算3D人脸表面的测地距离,这些辅助信息都可以加到深度神经网络中,在输入、中间的特征提取或者后置处理环节提升 AU识别的精度;③利用特征解耦方法将光照、姿态、遮挡等信息从 AU 特征中分离,实现光照无关、姿态无关、遮挡无关的AU识别.
    (4)当前的 AU 数据集具有样本规模小且多样性低、标签稀缺且不均衡、缺乏非受控样本等不足 . 未来可以构建一个规模大、样本多样性丰富、AU 标注全面的非受控环境数据集. 由于对AU进行人工标注的成本很高,在标注的过程中,可以基于主动学习(ActiveLearning)[94~96],从一个具有人工标注的小训练集开始,训练模型并对未标注样本进行预测,然后基于预测结果选择信息最丰富、存在出现频率较低AU的未标注样本进行人工标注,再将新标注的样本加入训练集并更新模型,重复上述步骤直至被训练的模型在测试集上的性能已收敛或已满足精度要求,这样可以保证有限的标注成本用在最需要的样本上.

  13. 重要性

  14. 写作方法:

  • 多模态:多种数据结合
  • 传统和深度学习方法各 3 个
    在这里插入图片描述
  • 换式降重
  • 为什么没有采取啥啥啥,因为…
  • GAN生成对抗网络🌟
  • 图,加分
    在这里插入图片描述
  • 自适应也很火,感受野,EMD,
  • 经典套话
    在这里插入图片描述

http://www.ppmy.cn/news/1259688.html

相关文章

基于深度学习CRNN的水表读数识别系统

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义 随着科技的不断发展,深度学习技术在各个领域都取得了显著的成果。其中,基于深度学习的图像识别技术在计算机视觉领域具有重要的应用价值。…

Qt/C++音视频开发57-切换音视频轨道/切换节目流/分别切换音频视频轨道

一、前言 对各种音视频文件格式的支持,是一个播放器的基础功能。一般的音视频文件只有1路流,比如音频文件只有1路音频流,视频文件只有1路音频1路视频流,实践过程中发现,还有一种ts格式的文件,可能有多路流…

记录一个困难(python)

在从一个网页跳转另一个网页(该网页是登录页面) 采用python的selenium库对网页进行自动化登录 import time from selenium import webdriver path chromedriver.exe driver webdriver.Chrome(path) driver.get("url") time.sleep(2) driver.f…

JavaScript中处理时间差

ES6版本 function countdown(endTime, includeSeconds true) {// 获取当前时间let now new Date();// 将传入的结束时间字符串转换为日期对象let endDateTime new Date(endTime);// 检查传入的时间字符串是否只包含日期(不包含时分秒)if (endTime.tr…

js 将后端返回的对象转换为数组

在实际开发中,后端返回的数据结构可能不是我们想要的,这个时候就需要转换了 类似于: 想要的数组,这个时候就需要转换一下了 // 获取通告类型async getTypesIncident() {const res await getTypes()const data res.data// 转换为数组const dataArray Object.entries(data).m…

数据结构与算法编程题44

有向无权图邻接矩阵表示 //参考博客&#xff1a;https://blog.csdn.net/qq_54162207/article/details/117414707#include <iostream> using namespace std;#define Maxsize 100 #define VertexmMaxNum 20 #define ERROR 0 #define OK 1 typedef string VertexType; …

阿里云生态离线数仓

1. 大数据开发治理平台 DataWorks 功能齐全&#xff1a;10多年大数据建设沉淀完整的平台&#xff0c;覆盖数据开发治理的全生命周期 简单易用&#xff1a;全图形化界面&#xff0c;SQL为主的数据开发方式 安全稳定&#xff1a;双11日千万级任务稳定调度&#x…

Centos图形化界面封装OpenStack Ubuntu镜像

目录 背景 环境 搭建kvm环境 安装ubuntu虚机 虚机设置 系统安装 登录虚机 安装cloud-init 安装cloud-utils-growpart 关闭实例 删除细节信息 删除网卡细节 使虚机脱离libvirt纳管 结束与验证 压缩与转移 验证是否能够正常运行 背景 一般的镜像文件在上传OpenSt…