数智人视频合成平台操作手册

感谢您选择A2E数字人视频合成平台。A2E数字人技术经过数年研发,致力于成为最简单易用的在这里您可以创建自己的AI形象和声音,然后通过打字生成您数字分身的视频。您也可以选择公版形象和声音,通过配置文案生成您想要的视频。

用您注册的手机号/邮箱,登录网址 https://video.a2e.com.cn 。如果您在海外,也可访问海外站点 https://video.a2e.ai。 建议您使用电脑端的Microsoft Edge 或Chrome浏览器。使用您的已有账号登录,或点击“注册”注册新账号。如果您有邀请码,请参考Q&A了解输入邀请码的方式。

手机端操作请访问 https://m.a2e.com.cn 。手机端功能比电脑端少,如有条件建议通过电脑端使用。

登录后,先试试创建一个数字人视频吧!点击“视频创建”模块,给视频起个名称,然后输入您希望数字人口播的文字,记得选择恰当的语言和音色。点击预览音频。

点击预览音频后,会触发弹窗,可以预览音频,或者内容不满意可以重新编辑。

预览音频后,可以看到此音频生成视频需消耗的金币数量。如果音频没有问题,也认可消耗的金币数量,则可以点击“合成视频”来生成视频。点击后,会自动跳转合成结果页面,稍等片刻,您就可以下载数字人视频了。

您可以选择自己创建的形象,或者公版数字人形象进行视频合成。关于如何创建“我的形象”,请点击这里了解。

如果您选择“我的形象”,请注意每个形象左上角的标识,分为钻石💠或闪电⚡️。💠代表“继续训练”的形象,嘴型效果往往优于⚡️。⚡️代表“快速训练”的形象,嘴型效果比较一般。但是如果您只有一张图片创作数字人,或者您的训练视频素材没有声音(或音画不同步),则您只能使用⚡️快速训练的方式创作数字人。

公版数字人为平台提供的样例数字人形象,仅做学习参考,平台不保证版权和商用性。

在创建视频的时候,记得选择适合您文案的声音。我们提供数十种语言和上百种音色。您还可以使用自己克隆的语音进行配音。点击了解如何创建自己的声音克隆。

首先点选数字人画面下方的“字幕”开关,再点击“字幕”功能配置。就可以对字幕的字体、颜色、背景进行配置。字幕仅支持通过“使用文本”创建的数字人视频,不支持“音频驱动”的数字人视频。

首先,并不是所有的形象都支持更换背景。如果您把鼠标放到“背景”上,提示”当前形象不支持”,则您需选择其他形象。对于您自己创建的形象,你需要在创建形象时同时选择背景色,才能获得支持更换“背景”的形象。

对于支持更换背景的形象,您可以选择下方提供的公版图片,或上传使用自己的图片/视频作为背景。

您可以使用线下真实人物拍摄的一小段视频,生成个性化克隆形象的基础视频模型,后续可基于此基础视频模型生成短视频,短视频中人物的形象、声音、唇形、动作、服装道具则与拍摄那小段视频一致。

我们称这一小段原始的视频和音频为基础视频。同一个人,可能因为使用场景发生改变而拍摄的动作需要变化(比如坐姿改为站姿)、表情需要变化(微笑改为严肃)、衣着需要变化(正装改为休闲等)等等,拍摄处的不同的小视频,被定义为不同的基础视频。

基础视频的拍摄有特定要求,具体要求请见Q&A2.

第一次训练默认为瞬时模式形象克隆,一分钟完成数字人形象创建(免费不消耗钻石)。如对瞬时模式训练效果不满意,可点击“继续训练”消耗一个钻石等待两小时得到超逼真数字人模型!

具体操作步骤如下:

拍摄基础视频后,选择“视频生成形象”模块

按照页面信息“视频生成形象操作流程”和“原始素材要求”的内容去上传对应视频和操作。

按步骤:

①形象名称:给您的形象输入一个名称

②形象性别: 根据您基础视频里的人物进行与之对应的性别选择

④原始背景:如您希望生成后的克隆形象可以抠图,需要上传原始背景图片

⑤如上步骤都操作好后,就可以点击“快速创建⚡️”了(瞬时模式),瞬时模式的数字人形象生成成功后,您可以在页面右侧我的形象里查看。回到”创建“模块下找到”我的形象“里面去进行视频生成使用。

⑦如您瞬时模式生成的数字人形象不满意,可在”视频生成形象”模块查看”我的形象”下点击“🔧”对应的数字人形象消耗钻石选择”继续训练”

⑧训练成功后您将得到一个超逼真的数字人模型!

某些情况下,在上传基础视频时,会显示“上传文件类型不确定”,解决方法见Q&A3.

最终可在“创建”模块,点击“”我的形象”,找到您新生成的基础视频模型。选择您自己的人物模型后,参考“使用公版形象生成视频”的步骤,使用此基础视频模型形象生成短视频。

可以利用线下真实人物的一小段音频,通过系统训练,生成音频模型。

音频的录制有特定要求,具体要求请见Q&A4.

选择“声音克隆”模块,按照“如何使用”的要求,上传音频后点击“开始训练”即可,生成的音频模型会在页面右部显示。

生成的结果可在“创建”模块中使用,在生成短视频选择音色时,在“声音克隆”部分可以看到克隆的音色。

目前克隆声音算法还处于持续迭代中。如果您克隆的声音有杂音或者漏字

  • (1)您上传的音频没有背景噪音,没有背景音乐
  • (2)您上传的音频是高清音质wav格式。上传音频的质量比长度更重要。高质量的30秒音频就足够做出高质量的克隆声音
  • 3)您上传的音频需要包含带语气的完整的一段话,避免“123123”这种重复没有意义的话术。如果以上要求您都满足,或者您需要克隆的原始音频无法修改,则您在合成时候需要输入少于100个字的文案,把长文案拆成多段合成。文字个数少于100个的时候,语音合成效果明显优于长文本

可以通过换脸功能,将基础视频中的形象与上传照片中的形象进行脸型、五官等方面的替换。

上传需要进行换脸的视频和替换人脸图片,操作流程和要求可点击信息查看,点击效果预览,预览展示图满意的话,点击开始换脸,进行处理。

点击开始换脸后,会触发弹窗进行肖像授权,确认后系统进行处理

换脸视频生成成功后可以从页面右侧历史记录里查看

通过上述操作,可以生成您想要的换脸视频了。

可以通过视频去字幕功能,将带有字幕的视频进行上传。算法会自动识别移除该区域的文字,并且完美保持画面的完整性。处理完成后您将获得一个没有任何文字痕迹的视频!

时长要求:30s以内 (如果上传的视频时长超过30秒,结果会被自动截断)

点击问号logo查看上传符合 “视频去字幕要求” 的视频,随后点击“AI去字幕”

生成成功后您可以在页面右侧查看结果视频

通过下单时留下的邮箱/手机号进行登录,如果未注册,可先自行注册。

环境建议:

(1) 灯光建议:

影棚人像灯光组,至少需要有前景光源,和背光(轮廓)光源,人物离绿幕尽量远(2米及以上)便于达到比较好的绿幕抠图效果,注意避免衣物或道具反射绿光;

(2)声音建议:环境背景噪音需小于45db,无回声,无混响,建议录制前做好检测;

设备建议:

(1)专业录像与录音设备:录像设备建议索尼A7S3或A7M4,录音设备建议小蜜蜂,40mm或者50mm大光圈镜头(建议50mm F1.8 定焦镜头),光圈F2.8~F4,快门不高于1/100,ISO不高于800(具体参数需根据实际灯光环境调试);

(2)其他设备(电脑、视频采集卡、提词器等):根据实际情况而定,能满足需求即可;

录制参数:建议2k/30帧(如需高清可设定更高参数),非HDR格式;

拍摄建议:

(1)视频中要有声音,要保持音画同步;

(2)动作建议:相机需正对面部。讲话时,眼睛可以看提词器,提词器需要和相机处于同一方位,声音洪亮清晰,说错跳过下一句,动作幅度不超过相机采集框,不遮挡脸部。可以根据讲话习惯做一些轻微动作(例如:手势比划、头部晃动之类,但不要用有意义的动作——赞美/否定性动作等),需使用通用动作,动作幅度不宜过大,且动作频率不能过高,不能遮挡面部。嘴唇开合可以适度明显一些,可以比日常生活中稍夸张一些。

讲话的内容可以由被拍摄者准备,也可根据被拍摄者的情况,简化素材为背诵熟悉的诗词、数字、字母等。

(3)抠图需求:如后期需更换背景,以上视频均需采集1-2秒空镜头;

特别说明:

(1)视频中出现的动作会在最终生成视频时按照拍摄时的动作顺序播放;

(2)需避开绿色或蓝色服装(避免抠图误识别)等,不支持AI更换服饰;

(3)可佩戴框架眼镜。

时长要求:30秒-5分钟;

音画同步要求:视频中需要讲话,且必须音画同步,音频和嘴唇运动必须同步。

其他要求:视频中只能包含一张脸;不允许环境噪音或其他声音(除了您的讲话);保持适度的语速(语速过慢可能会降低嘴唇同步精度;语速过快可能会导致嘴唇同步抖动)

当遇到显示“上传文件类型不确定”时,可以使用“剪映”刷一下格式(如原文件是MP4模式,但因为是相机里导出的原始视频等原因,系统无法确定文件类型,用“剪映”刷一下格式即可,格式可同样还是MP4格式)。

先查看一下原始视频的参数,右键点击视频的属性-详细信息,主要关注”帧宽/高度”、”总比特率”和“帧速率”,在剪映中选/填的参数要符合原始视频的参数。

例如,下图为原始视频的参数。

打开剪映,“导入”原始视频后,在“导出”时,选择如下参数(注意是选择CBR而不是VBR),导出后的视频文件即可被视频合成平台使用。

素材时长:15秒 – 60秒;

环境要求:环境背景噪音需小于45db,无回声,无混响,录制前需做好检测;

设备要求:指向性电容麦克(例如心形指向);

录制要求:使用麦克风录制符合客户使用场景语气语调的声音(该语气即交付后合成音频的语气),不要把设备放在嘴边,避免有喷麦的声音,说错可跳过继续下一句。注意关闭混响,无需对原始音频文件进行任何后期调整;

录制参数:48k,16bit,单声道,标准化后增益应该在0.4以上;

推荐软件:Adobe Audition;

1.2 结果要求

语音文件支持mp3和wav格式,音频数量最多1条,时长为1-5分钟,优质模式时长需要5分钟及以上。

单人清晰人声,无背景噪音,房间混响,音量音调均匀,没有极长的沉默间隙。

目前克隆声音算法还处于持续迭代中。如果您克隆的声音有杂音或者漏字

请首先检查

  • (1)您上传的音频没有背景噪音,没有背景音乐
  • (2)您上传的音频是高清音质wav格式。上传音频的质量比长度更重要。高质量的30秒音频就足够做出高质量的克隆声音
  • (3)您上传的音频需要包含带语气的完整的一段话,避免“123123”这种重复没有意义的话术。如果以上要求您都满足,或者您需要克隆的原始音频无法修改,则您在合成时候需要输入少于100个字的文案,把长文案拆成多段合成。文字个数少于100个的时候,语音合成效果明显优于长文本

如果您有朋友的邀请码,请在注册窗口输入邀请码(通常是4位数字或字母)。请勿使用临时邮箱(指临时注册的非常用邮箱)或虚拟手机号(如171网段)注册。系统会自动检测滥用邀请奖励的行为,并进行扣除金币或封禁账号的处罚。