EMO – 阿里推出的AI肖像视频生成框架

0 15

EMO是什么

EMO（Emote Portrait Alive）是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架，一个音频驱动的AI肖像视频生成系统，能够通过输入单一的参考图像和语音音频，生成具有表现力的面部表情和各种头部姿势的视频。该系统能够捕捉到人类表情的细微差别和个体面部风格的多样性，从而生成高度逼真和富有表现力的动画。

EMO的官网入口

官方项目主页：https://humanaigc.github.io/emote-portrait-alive/
arXiv研究论文：https://arxiv.org/abs/2402.17485
GitHub：https://github.com/HumanAIGC/EMO（模型和源码待开源）

EMO的主要特点

音频驱动的视频生成：EMO能够根据输入的音频（如说话或唱歌）直接生成视频，无需依赖于预先录制的视频片段或3D面部模型。
高表现力和逼真度：EMO生成的视频具有高度的表现力，能够捕捉并再现人类面部表情的细微差别，包括微妙的微表情，以及与音频节奏相匹配的头部运动。
无缝帧过渡：EMO确保视频帧之间的过渡自然流畅，避免了面部扭曲或帧间抖动的问题，从而提高了视频的整体质量。
身份保持：通过FrameEncoding模块，EMO能够在视频生成过程中保持角色身份的一致性，确保角色的外观与输入的参考图像保持一致。
稳定的控制机制：EMO采用了速度控制器和面部区域控制器等稳定控制机制，以增强视频生成过程中的稳定性，避免视频崩溃等问题。
灵活的视频时长：EMO可以根据输入音频的长度生成任意时长的视频，为用户提供了灵活的创作空间。
跨语言和跨风格：EMO的训练数据集涵盖了多种语言和风格，包括中文和英文，以及现实主义、动漫和3D风格，这使得EMO能够适应不同的文化和艺术风格。

EMO的工作原理

输入准备：用户提供一个参考图像（通常是目标角色的静态肖像）和相应的音频输入（如说话或唱歌的声音）。这些输入将作为生成视频的基础。
特征提取：使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络（Backbone Network）结构相似的网络，它专注于从输入图像中提取详细的特征。
音频处理：音频输入通过预训练的音频编码器处理，以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息，这些信息将用来驱动视频中角色的面部表情和头部动作。
扩散过程：在扩散过程中，主网络接收多帧噪声作为输入，并尝试在每个时间步骤中将这些噪声去噪成连续的视频帧。这个过程涉及到两个主要的注意力机制：Reference-Attention和Audio-Attention。Reference-Attention用于保持角色身份的一致性，而Audio-Attention则用于调制角色的动作。
时间模块：为了处理时间维度并调整动作的速度，EMO使用了时间模块。这些模块通过自注意力机制在帧内的特征上操作，以捕捉视频的动态内容，并确保连续帧之间的连贯性和一致性。
面部定位和速度控制：为了确保生成的角色动作的稳定性和可控性，EMO使用了面部定位器（Face Locator）和速度层（Speed Layers）。面部定位器通过轻量级卷积层编码面部边界框区域，而速度层则通过将头部旋转速度嵌入到生成过程中来控制动作的速度和频率。
训练策略：EMO的训练分为三个阶段：图像预训练、视频训练和速度层集成。在图像预训练阶段，主网络和ReferenceNet从单帧图像中学习。在视频训练阶段，引入时间模块和音频层，以处理连续帧。最后，在速度层集成阶段，只训练时间模块和速度层，以确保音频对角色动作的驱动能力。
生成视频：在推理阶段，EMO使用DDIM采样算法生成视频片段。通过迭代去噪过程，最终生成与输入音频同步的肖像视频。