AI视频产品能力评测，各产品表现如何？-ZOL问答

Sora出现之后，DiT架构在视频生成产品中成为主流技术。这大半年来，Luma AI和Kling突然崛起，成为视频生成领域的黑马，老牌的Runway也推出强大的Gen3模型。AI视频生成在画面表现力、语义理解、清晰度和可控性上有很大进步，并且多家产品在音画同步、笔刷工具等方面进行更新，增强了产品的可控性。
这篇文章将带大家知晓AI视频产品的最新能力、各产品优势并展示其实测效果。
此系列预计含闭源、开源两篇，下面是本文的目录。

前两个场景于9月初制作完成，当时主要对在AI视频生成方面最热门的Runway（Gen - 3）、Luma AI（Dream Machine1.5）以及可灵1.0展开了测试。
对5个不同场景的表现进行测试，Runway和Luma各有优势，可灵1.0在清晰度、语义理解、画面绘制方面仍需大力提升。

Runway的光影效果缺乏真实感，但整体对各场景的支持度较高。
Kling 1.0整体表现还是很糟，不过其在人物特写和光影方面表现不错。而Luma在人物特写方面比较弱，处理抽象材质运动时却有很好的表现。

9月末测评的案例显示，可灵1.5与Luma、Runway Gen - 3之间的差距在肉眼可见地缩小。

以下都是我多次测试后的主观体验，或许存在测试数据不够、内容维度有限等情况，欢迎大家补充。

物理交互的准确性仍有很大的提升空间。
AI视频尽管动作流畅度有很大提高，但大多仍存在运动合理性问题。实际测试时，视频中有时会有动作突变、不连贯的情况，平面图像生视频时这一问题更显著。
现阶段视频生成时长较短，这与之有很大关系。若提示词、首尾帧要求模型在短时间内处理更大幅度运动，该现象会更显著。
训练数据的多样性仍有待持续提高。
在我做的测试里，能发现类似场景且能力相近的产品，表现差别很大。就像下面这个案例，我在txt2vid中测试了一个关于艺术家在墙上喷绘的案例，Runway的表现非常好，可Kling 1.5还是没什么亮点。
工作所需，我会更留意平面风格图片生成的视频效果。综合来看，由于缺乏训练数据、画面深度信息难识别等原因，除官方Demo外，我真实测试发现，目前所有产品平面方向生成效果都不太理想。
一般我会先用提示词来辅助img2vid，文生图的时候也尽量在图里添加些可运动的装饰元素，像花、树叶、光斑之类的。要是生成效果不好，我就会改用Runway Gen - 2笔刷工具细致调整，防止出现大的问题。有时候二次元人物形象会被处理成真人，这很恐怖谷效应。
再如输入一张卡通狗图片，模型不顾提示词内容，自动生成带有狗狗叫刻板印象的画面。
大幅运动导致的模糊感至今仍未得到解决。

4. 可控性方面依旧存在不足。
在实际生产中，仅靠提示词难以精细描述需求，我们需要更多地掌控AI以实现目标效果。各公司在笔刷工具和运镜控制的支持上存在细微差异，仍有提升空间。
主体物在画面占比小的话，AI易产出镜头位移效果，要达目标效果需增加抽卡次数，因此最好选主体物占比大的图片。
生成视频时，描述词应是画面中存在且容易识别的内容。不然模型会生成新事物，使内容与画面不匹配，造成画面突变。
制作首尾帧视频时，要让画面有相近或相同元素，且保持一定相似比例，如此5秒过渡动画才能过渡得完整又丝滑。
Luma AI本是一家3D生成公司，之前其官方推特一直在发3D模型相关资讯。然而到了6月，它突然推出AI视频生成产品Dream Machine。当时，Runway、Pika还未推出新模型，Sora又遥不可及，Luma AI就这么横空出世了。
在接受海外独角兽采访时，Luma首席科学家称，团队实现4D生成主要考虑两种方案。一是由图像生成3D，再把3D动画转换为4D；二是直接生成视频内容，然后转化为4D。Luma觉得后者更具潜力，还能在一定程度上规避3D数据集不足的问题，这便是Dream Machine诞生的缘由。
4D是3D加时间，即三维空间里随时间改变的对象或环境。
Luma在生成视频时会关注一致性、深度信息（如物体和镜头距离、物体间远近）、光学（光在不同介质中的反射折射变化）以及动态物理现象。
6月我用1.0模型做测试，img2vid能力很强。大幅运动时瑕疵少，原图还原度佳，而且视频里每一段都是一次性输出的。

体验地址：https://lumalabs.ai
Dream Machine当前功能较为单一，仅具备txt2vid文生视频和img2vid图生视频这两种能力。除相机运动外，还支持延长4秒、循环动画、首尾帧动画能力。

产品发布不久便公布后续规划：会支持视频场景修改、尺寸设置和调色等功能。
8月底新推出的Dream Machine 1.5提升了对提示词的理解能力与视频生成能力。让我诧异的是，Luma在视频内文字的表现上也极为出色，这一效果是除Runway Gen3、海螺AI之外的产品目前做不到的。

前段时间我测评各产品的最新模型，发觉Pika labs效果虽好却太模糊，Runway老是生成怪异的运动画面……这些产品的实际表现和宣传片似乎相差甚远。
这恰恰是Luma AI此次更新最令人惊艳之处，官网展示的视频案例真实可靠。它的img2vid生成效果在诸多方面大幅领先Pika labs、Runway等产品，是当前能够公开体验的AI视频生成领域的佼佼者之一，具体体现于以下方面：
生成时长达5秒，每秒24帧，画面十分丝滑。
2.运动幅度更大，可使相机多角度位移。
3.提示词可支持增加相机、无人机控制的视角变动。

4.运动时一致性保持得较好，有时图片像变成了3D模型。

5. 分辨率高，能有效改善因运动幅度大而产生的模糊感，这是pika labs一直让我困扰的问题。
9月初，Luma上线了类似Animatediff V2模型的相机运动功能。我很喜爱这种由提示词触发选项的交互方式，它不像增加操作按钮那样。其视频节奏轻松又可爱，值得观看。

Luma和Kling现在都能通过输入起始与结束关键帧来生成视频，用户还能添加Prompt提示内容的变化，从而控制视角与主体物的运动。首尾帧功能衍生出不少新奇玩法，像：
多张首尾帧相连能接成更长视频，多场景切换有奇幻感，很多意想不到之事被联系起来。

2.借助季节、时间、环境和主体物生长变化，能呈现延时拍摄的效果。

3.达成意想不到的衔接效果。
像从微观到宏观转换、场景间转换之类的。

4.制作转场动画。
虽说还达不到Keynote神奇移动的效果，目前用AI来制作UI、PPT动画确实有点屈才了。不过可以发现，AI在处理首尾帧动画时，能让前后两帧的相同元素有合理且良好的过渡效果，而像只在尾帧出现的文字元素Design Odyssey，其动画更多是由AI自行发挥的。
若日后有产品可增加垂类数据训练，设计师制作UI、PPT动画或许会更轻松。

目前，Luma已经开放Dream Machine API以供开发者调用。
Runway是最先推出模型的AI视频产品，至今仍居王者之位。虽有Luma等新产品追赶，但这半年来，Runway在模型与产品功能方面持续快速迭代。
Runway的产品定位更倾向于影视与艺术表达。我测试发现，它在生成真实系、风景和空间视频方面表现更佳；对二次元场景支持不好（这也是此类软件的常见问题），经常会把二次元人物生成真人动画。
特别的是，Runway支持绿幕场景生成与视频绿幕抠像等功能，这对影视制作和后期进行AIVideo二次处理极为方便。
Runway目前支持的场景和视频案例可在此查看：https://runwayml.com/product/use-cases。

7月更新的Gen - 3，有Alpha Turbo（速度更快）与Alpha（表现力更强）两种模式。它对极为复杂的提示词描述理解能力增强了，图像运动元素识别能力也提高了，还能实现充满想象力的过渡以及场景元素的精确关键帧。
另外，可设置图片为动画首帧或尾帧，不过Gen3现在尚不支持笔刷等高级调节功能。

将图片作为尾帧输入时，更利于无中生有地生成元素，如下述水墨画就是很好的例子。

Runway单次生成视频最长可达10秒，且能延长至40秒，这是目前AI视频产品输出的最长时长。
此外，Gen - 3 Alpha Turbo已支持竖屏尺寸视频生成，在视频到视频（风格转绘）能力上加大发力，还宣称即将推出更多控制能力。
上半年，Runway的Gen2模型具备较多细节控制能力，还支持精细数值调节，在当前AI视频生成产品里可控性位居首位。
多笔刷对局部运动进行控制。
最多支持5个笔刷控制，涵盖物体运动方向与运动曲线调节。若调高Ambient，笔刷绘制区域的物体运动与周边环境联系增多，运动幅度也会加大。

支持水平或垂直平移、翻转，以及镜头缩放或旋转。

最终生成的效果进行对比：
Gen3在清晰度方面提升明显，画面更富想象力，仅凭提示词就能有很好效果，无需复杂控制。而Gen2则更适合需要精准控制运动范围的场景。

在已生成的视频下方能够选择Lip Sync，把对口型与img2vid能力相结合，从而使嘴形和视频其他部分都呈现自然的动态效果。

不管是工具栏里日益丰富的音频、视频处理能力，还是Runway Watch栏目中的出色合作案例，都表明Runway始终朝着影视制作方向稳步发展。要是日后能够打通AI生成与视频剪辑能力，Runway将会在影视制作中发挥极为关键的作用，成为视频领域不可或缺的重要工具。
今年6月，被视作国产之光的Kling因让老照片动起来让照片中的人拥抱等热门功能在互联网上大火。它高质量的视频效果、极低的价格以及良心的免费额度，使其大获好感。到了9月，Kling更新1.5模型能力，视频的画面表现力、对提示词的理解能力、画面清晰度都有大幅提升，跻身视频生成产品第一梯队。
目前，免费用户每天可免费获取66灵感值，1.0模型生成一次视频要10灵感值，1.5模型需35灵感值。付费用户能够拥有1.5模型，还可去水印、生成高清晰度视频、延长视频、运用大师运镜、增强AI生图画质。
快影：一款移动端APP。
网页版可访问：https://klingai.kuaishou.com/
除传统的txt2vid、img2vid外，Kling还具备首尾帧控制、视频延长和对口型能力。

txt2vid模式支持运镜控制。普通用户能使用水平/垂直运镜、推近/拉远、垂直/水平摇镜，还有四种有趣的大师运镜，不过仅付费用户可用。

9月中旬，Kling为1.0模型添加了运动笔刷控制功能。

在我进行的评测里，可灵的优点是运动幅度大，能带来惊喜效果（这一点和Luma相似，在img2vid方面甚至比Runway更好）。不过，在视频清晰度、语义理解和画面表现力上，可灵1.0远不如Runway和Luma的最新模型。可灵1.5进步显著，达到了我所认为的付费产品应有的水平。
9月24日，字节推出了PixelDance和Seaweed这两款视频AI模型。从官方演示来看，这两款模型在长提示词、人物连续动作转换、多镜头组合以及人物一致性方面表现出色，有望成为国内AI领域的头部核心竞争者。目前该产品仍处于开放内测申请阶段。
网页版可通过https://jimeng.jianying.com/ai - tool/home/进行访问。
内测申请地址：https://bit.ly/jimengai。
MiniMax推出的产品，出场视频演示令人惊艳。简单测试可知，其画面清晰度、表现力等方面均优于可灵1.0。在近期Vbench排行榜上，海螺还取得了16个维度综合评分第一名的成绩。
当前仅可使用txt2vid方案。网页版可访问：https://hailuoai.com/video。
阿里云旗下产品上半年有不少现象级案例广受关注，像奶牛猫跳洗澡舞、全民跳科目三（通义千问APP可体验）。9月其视频生成产品开放预约，生成一次视频要10分钟，测试发现生成效果不太理想。
网页版可访问：https://tongyi.aliyun.com/
移动端可在通义APP进行下载。
因篇幅所限，下篇点此查看：

解析大模型应用的最新方向：GPTs、中间层、Chatbot虚拟社交、AI Agent。
AI视频生成（中）：20个产品推荐与实践教学。
AI视频生成（下）：20个产品推荐与实践教学
搞懂语言大模型（番外篇）：精选40多个应用案例。
产品的发展趋向。
产品趋势02期(上)｜Arc号称最强，挑战Chrome，它到底牛在哪？
产品趋势02期(下)：Arc设计细节、槽点及后续规划大盘点
商业领域的创业。
Open AI创始人的斯坦福创业课，看完后我学到了什么？