这个收割千万流量的AI视频换人，是不是吓到你了？

前几天，一个视频换人视频从 X 上火到微博。

就是这个视频，右下角边是原始的主播，一个男的；左边是 AI 换脸+换人之后的视频，变成了一个个楚楚动人的美女，但口型、动作、甚至光影都和右边的男的一模一样。

怎么样？是不是感觉非常真实，甚至有点毛骨悚然？

视频原作者@深夜聊AI 这两天发了篇复盘文章介绍，这个曝光量全网超过了千万流量。

其实，老粉们可能知道，这种视频换脸、动作捕捉的玩法，并不是什么新鲜事了。

但为什么，偏偏是这一次，它又火出圈了呢？

火爆的背后原因？

我仔细想了下，这波热潮的引爆点，不仅仅是技术效果好，当然，效果确实好，更重要的是这个视频呈现和传播的方式。

首先，最具杀伤力的，就是同屏对比的呈现方式。

以前我们看 AI 换脸，你只看到一个结果。比如一段马斯克说中文的视频，你觉得很牛，但你不知道原料是什么样的。

而这次刷屏的视频，它非常聪明地把换人前和换人后放在了同一个画面里。这种强烈的、实时的对比，带来的视觉冲击力是指数级增长的。

你的大脑会不自觉地去比较两边的每一个细节：哎，你看，左边大汉抬手了，右边美女也抬手了；左边光线暗下来了，右边也暗下来了！

这种所见即所得的对比，是最好的技术说明书。

其次，它找到了一个刚需的应用场景。

视频里换的是谁？是一个坐在镜头前讲话的人，这恰恰是很多自媒体人的常用姿势。

这一下就点燃了无数内容创作者的想象力，有多少人想做视频、想做直播，但又不愿意真人出镜？或者觉得自己的形象不够上镜？

现在，这个问题解决了。你可以让 AI 生成一个完美的数字替身，而你只需要在幕后提供动作和声音。这个应用场景太明确，太有钱景了。

最后，是性别反差带来的病毒式传播点。

美女 VS 大汉。这种强烈的反差，本身就是流量密码。它直接把这个技术的魔力拉满了。

如果只是把一个帅哥换成另一个帅哥，传播度绝对没有现在这么广。

这种反差带来的戏剧性，让普通人也乐于转发和讨论。所以你看，技术很重要，但如何「讲好一个技术的故事」同样重要。

动作模仿

这么火的玩法，我肯定要亲手去玩一遍。引爆这次热潮的主角，是通义万相 2.2-Animate 模型。

我必须说，玩过之后，我更震惊了：这个玩法的门槛，几乎约等于 0！

不需要复杂的部署，不需要昂贵的显卡，不需要敲一行代码。你只需要点点鼠标，上传图片和视频，AI 就能帮你搞定一切。

大家跟着我一步一步来就行。

1.首先需要在准备替换人物的视频中截一张图，建议最好截图视频的全部，不能只截部分，不然会影响效果。

这个就是我在自己 B 站视频中截的一张图。

再准备一张替换我自己的角色图，我随机找了一张美女图片。

把这两张图放在即梦中，生成和替换视频中背景一样的图。

参考提示词：将图片 1 的主体人物替换为图 2 中的主体人物，脸型保留图 2 的长相样貌，动作参考图片 1 中的人物姿势，保持背景不变

记得生成的图片比例一定选择一致。

生成的图片如下：

2.用通义万相 2.2 制作替换视频。

进入官网：

https://tongyi.aliyun.com/wan/explore

在底部找到数字人——动作模仿。

上传即梦生成的图片，再上传需要替换人物的视频，再点击右下角红框中的选项就可以开始了。

不需要会员，也不需要耗费积分，大概等五六分钟就完成了。

虽然也可以本地部署，但在官网上直接生成是目前最简单的体验方法，可惜的是替换的视频目前只支持最长 15 秒。

就这么简单，视频中的我都被美女们给替换掉了，虽然来回替换了好几个美女，但是美女们的动作、表情，以及视频里的光线，都和原始视频保持一致。

就连 AI 视频中经常出问题的手指，不仔细看的话破绽也不是特别明显。

为了验证效果，我又找了美女来替换其他博主的视频。

这个博主的动作相比于我来说，更加复杂，手势又多，头还摇来摇去，但是替换后的视频却基本都完美的模仿了下来。

尤其是美女说 MAX 时的口型，即使不听声音观看口型都知道她说的是 MAX ，可见动作模仿时的精确度。

这个老师开讲座的视频，原视频光线稍微暗一点，再来看替换主角后的视频，女生全身的光线同样也比较暗，很好的融入了环境。

女生的头发也随身体的摆动而摆动，肉眼可见的细节，绝对让你以为这就是原始视频。

还有斯嘉丽替换男生跳舞的视频，我就不多说了吧，动作百分百一致，不过脸型稍微有点崩。

这个制作流程是不是简单到令人发指？而效果更是让人难辨真假。

对口型

我在玩动作模仿功能的时候，发现它还有一个对口型的功能。

有这个功能，那根本不用自己录了口播视频再替换，直接上传一张美女图，再上传一段语音就可以了。

如此一来，找人替自己做主播这件事更简单了。

这就是用通义千问生成的对口型视频，说实话，动作稍显生硬。

我想起来，其实即梦也有以上这些类似的功能，用的人还不少。

就顺便用即梦也生成了一段对口型的视频，一对比，即梦生成的视频就自然多了，虽然那个捋头发的动作，稍显刻意，不过整体要比通义的更像真人。

即梦对口型效果这么好，那正好把上次生成的潘金莲声音配上画面，让大家感受一下，尤其是没看上那篇被删文章小伙伴们。

怎么样，这口型，多自然？这眼神，这姿态，有没有魅惑到你呢？

结语

最后，我想聊一点技术之外的，更严肃的话题。

这技术，是不是一把双刃剑？因为门槛约等于 0 ，意味着人人可用。

那个刷屏视频里，美女换大汉，大家哈哈一笑。但如果换的不是大汉，而是你的脸呢？

如果有人拿到了你的照片，去合成一段你的视频，用来诈骗、造谣，或者做更糟糕的事情……这个后果谁来承担？

技术的发展速度，永远快于法规的制定速度。

我们眼下，正处在一个 AI 技术发展如火如荼，但管控尺度相对比较宽松的草莽时期。

随着 AIGC 技术（尤其是视频生成）的门槛无限降低，它带来的社会伦理风险也会被无限放大。当眼见不再为实，社会的信任基石都会被动摇。

对此类内容的管控，势必会收紧。

我在想，有没有可能会在未来，所有的 AI 视频生成文件中，都被强制加入可以溯源的数字水印？

比如，我用通义万相生成的这些视频，虽然看起来和普通视频没区别，但在它的数据帧里，隐藏着一串加密信息，标记着：「此视频由通义万相在 2025 年 10 月 30 日生成，生成者账号 ID 为 XXXXX」。

这并非不可能。

当技术的潘多拉魔盒被打开时，我们作为超级个体，在享受技术红利、体验科技乐趣的同时，或许也该多一分敬畏，守住自己的底线。

本文已在公众号网罗灯下黑（ID：wldxh8）首发。

公众号简介：一个非技术出身的AIGC日记，写给正在和硅基共舞的你