SadTalker 安装
地址:
https://github.com/OpenTalker/SadTalker

1.插件安装,打开SD-webui 【扩展插】件 -> 【从网址安装】,将下面地址复制到网址栏:
https://github.com/OpenTalker/SadTalker.git

点击【安装】等待一会儿,安装按钮下面出现 Installed into … 的英文小字即是安装成功:

如果出现Error…字样,请到 extensions 文件下删除对应名称的文件夹,再安装。

2.下载 SadTalker 模型
打开地址:
https://github.com/OpenTalker/SadTalker/releases
找到最新版本Release,带【Latest】字样:

下拉再到 Assets,然后点击打开,下载红色框住的所有文件(大概3个G):

3.存放 SadTalker 模型
打开主目录下的 models 文件夹,新建文件夹 SadTalker:

把下载好的文件放到 SadTalker 文件夹下,并解压 BFM_Fitting.zip 和 hub.zip 这两个压缩文件到当前目录:

至此,模型下载存放完成。
SadTalker 使用
重启webui终端。
SadTalker 再 Tab目录里可以找到:

参数介绍:
1.preprocess
preprocess 下有3个模式:crop、resize、full
(1) crop 通过面部关键信息生成裁剪图,并生成动画头像,可配合 Remove head motion (works better with preprocess `full`) 参数使用,效果如下(借用官方栗子):
(w/still) 同 Remove head motion (works better with preprocess `full`) 一个意思
不使用 Remove head motion (works better with preprocess `full`) 参数的情况下,动画会出现明显的抖动,偏移大(中间那张),适合在说话情绪波动较大的时候,生动。使用 Remove head motion (works better with preprocess `full`) 之后,动画变得更稳,适合说话平稳的语气。
(2) resize 适配整个图像的大小,以生成完整图像说话的视频。这个模式的用法有些限制,适合正脸的头像,侧脸不合适:

怎么个不合适呢?看下面的栗子(还是官方的):
非正脸的图像,出来的动画效果不能被正确识别,出现脖子上下抖动的情况。而正脸照片,这表现的很像一个新闻主播在直播。这是 resize 模式。
(3) full 模型会自动处理裁剪脸部区域修改后再粘贴回原始图像。记住要使用 Remove head motion (works better with preprocess `full`)来保持原头部的位置。
不使用会怎样?看这里:
头会有想离开身体的想法。
这个模式我们常用,配合 emove head motion (works better with preprocess `full`) 和 Face enhancement 一起使用效果最好,看栗子(还是官方):
(enhancer 等同 Face enhancement)
只使用 remove head motion (works better with preprocess `full`) 的情况下,脸部会有轻微的马赛克感。再勾选 Face enhancement 后,清晰度就好了起来。
懒人用法:选择full模式,然后勾选 remove head motion 和 Face enhancement 参数,保留整图且清晰度最好:

得到:
FFmpeg 安装
FFmpeg 是一款用于处理音频、视频、字幕和相关元数据等多媒体内容的库和工具的集合。
SadTalker 需要使用它来构建视频。
下载地址:
https://github.com/BtbN/FFmpeg-Builds/releases
选择你系统的对应版本:

windows 选 ffmpeg-master-latest-win64-gpl.zip 。
下载后解压到一个目录(请随意):

然后复制bin文件夹目录,添加到电脑环境变量里:

D:FFmpegffmpegbin
环境变量打开方式:右键【我的电脑】图标,选择【属性】

单击【高级系统设置】,选择【环境变量】:

依次选择:

一路点击【确定】。
重启webui终端。
坑
1.人像要有清晰的五官,不然会出现以下这个错误:
can not detect the landmark from source image
比如下面这张二次元,AI识别不出来鼻子的位置:

文本到语音工具
1.剪影,用起来可能稍微麻烦一些
2.免费在线工具 ttsmaker 。地址:
https://ttsmaker.com/zh-cn

最后
小伙伴们是的人像尽可能的是正脸,或者小角度,角度太大会识别不好。
语音咬字要清晰,模糊不清的语音,AI不知道是个什么鬼。自然就对不准口型了。
完~
小伙伴们快快去体验吧!让你库存的照片和你聊天!