PixelSmile: 细粒度面部表情编辑论文深度解读
论文概览
| 属性 | 内容 |
|---|---|
| 标题 | PixelSmile: Toward Fine-Grained Facial Expression Editing |
| 作者 | Jiabin Hua, Hengyuan Xu, Aojie Li, Wei Cheng, Gang Yu, Xingjun Ma, Yu-Gang Jiang |
| 机构 | Fudan University, StepFun |
| 发表日期 | 2026年3月 |
| arXiv | 2603.25728 |
| Hugging Face | papers/2603.25728 |
| 项目主页 | ammmob.github.io/PixelSmile |
| 开源代码 | github.com/Ammmob/PixelSmile |
核心贡献
本文针对细粒度面部表情编辑中的语义重叠问题提出了系统性解决方案,主要贡献包括:
- 语义重叠的系统分析:首次形式化揭示了面部表情间的结构化语义重叠现象,证明这是导致生成编辑失败的核心原因
- FFE数据集与基准:构建包含60,000张图像的跨域数据集(真实+动漫),配备连续情感标注和多维评估基准FFE-Bench
- PixelSmile框架:基于全对称联合训练和文本潜在插值的扩散模型,实现解耦且线性可控的表情编辑
技术亮点
- 连续可控性:通过文本潜在插值参数α∈[0,1]实现表情强度的精确线性控制,支持α>1外推
- 语义解耦:对称对比学习机制有效分离易混淆表情对(恐惧-惊讶、愤怒-厌恶)
- 身份保持:多模型融合的调和编辑分数(HES)平衡表情准确性与身份一致性
实验成果
在FFE-Bench基准测试中,PixelSmile在以下指标取得领先:
- mSCR(结构混淆率):显著降低跨类别混淆
- HES(调和编辑分数):最优的表情-身份平衡
- CLS(控制线性分数):高度线性的强度响应
应用前景
- 数字内容创作(影视、虚拟主播)
- 游戏开发(动态NPC表情)
- 社交媒体(照片美化、表情包)
- 情感计算研究