大家好,我是龙傲天
今天给大家分享一下:重磅消息,EMO正式发布了,官方测试
什么是EMO
EMO(Emote Portrait Alive)的系统,它由阿重巴巴集团智能计算研究院的研究人员开发。这个系统是一个音频驱动的人工智能肖像视频生成框架,它能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。该系统能够捕捉到人类表情的细微差别和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。
EMO官方入口:
官方项目入口:https://humanaigc.github.io/emote-portrait-alive/
Arxiv 研究论文:https://arxiv.org/abs/2402.17485
Github网址:https://github.com/HumanAIGC/EMO
EMO主要特点
EMO(Emote Portrait Alive)主要特点:
音频驱动的视频生成:EMO能够根据输入的音频(如说话或唱歌)直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。
高表现力和逼真度:EMO生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。
无缝过渡:EMO确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。
身份保持:通过FrameEncoding模块,EMO能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。
稳定的控制机制:EMO采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。
灵活的视频时长:EMO可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。
跨语言和跨风格:EMO的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和3D风格,这使得EMO能够适应不同的文化和艺术风格。
EMO的工作原理:
EMO(Emote Portrait Alive)系统的工作流程,具体步骤如下:
输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络(BackboneNetwork)结构相似的网络,它专注于从输入图像中摄取详细的特征。
音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
扩散过程:在扩散过程中,主网络接收多帧噪声作为输入,并尝试在每个时间步骤中将这些噪声去噪成连续的视频帧。这个过程涉及到两个主要的注意力机制:Reference-Attention和Audio-Attention。Reference-Attention用于保持角色身份的一致性,而Audio-Attention则用于调制角色的动作。
时间模块:为了处理时间维度并调整动作的速度,EMO采用了时间模块。这些模块通过自注意力机制在内的特征上操作,以捕捉视频的动态内容,并确保帧之间的连贯性和一致性。
面部定位和速度控制:为了确保生成的角色动作的稳定性和可控性,EMO采用了面部定位器(FaceLocator)和速度层(Speed Layers)。面部定位器通过轻量级卷积层编码面部边界框区域,而速度层则通过将头部旋转速度嵌入到生成过程中来控制动作的速度和频率。
训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层集成。在图像预训练阶段,主网络和ReferenceNet从单帧图像中学习。在视频训练阶段,引入时间模块和音频层,以处理连续帧。最后,在速度层集成阶段,只训练时间模块和速度层,以确保音频对角色动作的驱动能力。
生成视频:在推理阶段,EMO使用DDIM采样算法生成视频片段。通过迭代去噪过程,最终生成与输入音频同步的肖像视频。
EMO官方的视频:
EMO如何使用:
1.0 下载通义千问的APP。官方的WEB端没有办法使用EMO,需要下载APP使用
2.0 输入EMO
在官方APP输入EMO,就会帮你直接跳转到EMO的功能,他的名字在APP叫做:全民舞台
或者直接选择频道,下面正在推广这个功能,全民舞台很明显,点击就OK了
选择歌曲,上传头像或者选择一个模板,就可以生成一个唱歌视频了。
通义 App 首批上线了 80 多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗“钵钵鸡”“回手掏”等
唯一遗憾的是:不能够上传自己的歌曲。每一首歌都需要训练脸部、口型的模型,训练模型需要一段时间。可能后期阿里会开放给到用户自己来训练模型。
EMO功能很强大!!!
最后的分割线
一直以来,我们所宣扬的是:人必须得自己有能力从那些散乱的信息、书籍、个人经历中淬炼真正可以复用终生的思维框架和认知系统,否则你根本不知道到底是什么牛鬼蛇神一次次的指引你跳入同一个坑。
我们知道所有成功的企业家或投资者,在遭遇生意失败后,都能东山再起,那是因为他们掌握着了解他人需求并提供解决方案的能力。他们知道这种能力是人类迄今为止最佳的工作保障。
不断的充实自己的知识与能力,才能像成功的企业家那样,活的从容与不惊
在这个瞬息万变的时代,知识的海洋浩瀚无垠,每一天都有新的发现和创新。
我们是必须有一个终生学习的心态,致力于追求终身学习的理念,不断探索、成长和突破自我。我们相信,每个人都有无限的潜能,每个梦想都值得被追求。最近我建立了一个免费的知识星球,主要分享与记录在跨境独立站与AIGC应用方面的知识与内容。
在这里,我们不仅分享知识,更点燃激情,激发创造力,共同面对挑战,庆祝每一个小小的进步和成功。
我们邀请您加入我们的行列,无论您是刚刚踏上学习之旅的新手,还是已经拥有丰富经验的探索者,这里都有您的一席之地。让我们携手并进,共同创造一个充满智慧、热情和同理心的社群。
在这里,您将找到志同道合的伙伴,一起分享学习的喜怒哀乐,一起在知识的星空下翱翔。我们不仅是学习者,更是彼此生命中的贵人,相互激励,共同成长。让我们在这个不止步的学习旅程中,点燃希望的火炬,照亮前行的道路。加入我们,让我们共同书写终身学习的新篇章,让激情和智慧的火花点亮我们的人生!
微信扫码加入我们,终生免费学习星球