Logo
热心市民王先生

PixelSmile: 细粒度面部表情编辑论文深度解读

论文概览

属性内容
标题PixelSmile: Toward Fine-Grained Facial Expression Editing
作者Jiabin Hua, Hengyuan Xu, Aojie Li, Wei Cheng, Gang Yu, Xingjun Ma, Yu-Gang Jiang
机构Fudan University, StepFun
发表日期2026年3月
arXiv2603.25728
Hugging Facepapers/2603.25728
项目主页ammmob.github.io/PixelSmile
开源代码github.com/Ammmob/PixelSmile

核心贡献

本文针对细粒度面部表情编辑中的语义重叠问题提出了系统性解决方案,主要贡献包括:

  1. 语义重叠的系统分析:首次形式化揭示了面部表情间的结构化语义重叠现象,证明这是导致生成编辑失败的核心原因
  2. FFE数据集与基准:构建包含60,000张图像的跨域数据集(真实+动漫),配备连续情感标注和多维评估基准FFE-Bench
  3. PixelSmile框架:基于全对称联合训练和文本潜在插值的扩散模型,实现解耦且线性可控的表情编辑

技术亮点

  • 连续可控性:通过文本潜在插值参数α∈[0,1]实现表情强度的精确线性控制,支持α>1外推
  • 语义解耦:对称对比学习机制有效分离易混淆表情对(恐惧-惊讶、愤怒-厌恶)
  • 身份保持:多模型融合的调和编辑分数(HES)平衡表情准确性与身份一致性

实验成果

在FFE-Bench基准测试中,PixelSmile在以下指标取得领先:

  • mSCR(结构混淆率):显著降低跨类别混淆
  • HES(调和编辑分数):最优的表情-身份平衡
  • CLS(控制线性分数):高度线性的强度响应

应用前景

  • 数字内容创作(影视、虚拟主播)
  • 游戏开发(动态NPC表情)
  • 社交媒体(照片美化、表情包)
  • 情感计算研究

目录

  1. 研究背景与文献综述
  2. 研究方法
  3. 核心发现
  4. 批判性分析
  5. 意义与展望

参考资料

  1. arXiv: PixelSmile Paper
  2. Hugging Face Papers
  3. Project Page
  4. GitHub Repository
  5. Hugging Face Model
  6. FFE-Bench Dataset