当OpenAI发布会还在“产品雕刻”的产品雕刻时候,谷歌继续努力更新基本模型。时候半个月前,产品雕刻3D场景生成了基本模型,时候一周前,产品雕刻Gemini杀死了四面八方 2.今天是时候视频生成模型。
北京时间12月17日,产品雕刻谷歌发布了其文生视频模型VEO的时候下一个版本eo 2.谷歌在今年5月的I/O大会上首次宣布VEO已经7个月了。
但VeoAxtrix只在十几天前的12月3日出现,在此之前,时候用户只能使用VideoFX中的产品雕刻实验工具小规模试用该视频生成软件。
这个版本主要带来三个核心升级。时候首先,产品雕刻真实性和保真度大大提高,时候支持8s长度、产品雕刻清晰度是4K视频的输出,在细节、真实性和伪影减少方面有了很大的提高。
其次,VEO以其对物理学的理解和遵循详细指令的能力,能够高度准确地捕捉运动。这就是Sora几天前频繁翻车的地方。
第三,Veo 2还提供了更多的相机控制选项,可以输入“镜头慢慢推她的脸”等。、“在追逐车辆的过程中,摄像机趋于稳定”、“近距离特写镜头”来描述你需要的镜头模式。

当然,从谷歌目前给出的例子来看,Veo 2 对物理世界的理解确实达到了相当高的水平,尤其是人类甚至昆虫的动作表现。这些动作有很强的自然感与世界互动。例如,这只用喙捕猎的火烈鸟不希望前两天Sora演示时火山爆发的夸张。

在实际测试中,Veo也达到了SOTA的水平。谷歌在Meta发布的基准数据集MovieGenBench中选择了其他顶级模型,包括Sora。 上比拼了 1003 提示及相应的视频。
从整体表现来看,VEO占优的情况接近或超过50%,不占劣势的情况可达70%左右。

有趣的事情,Sora 在谷歌测试的所有模型中,Turbo实际上表现最差,而表现最好的是可灵1.5。

遵循指令,Veo性能也达到了SOTA,其他模型与整体性能排名没有太大区别。
在报告中,谷歌承认其模型也有缺点。在复杂的场景或复杂的运动中保持完全的一致性仍然无法突破。在他们自己的例子中,仍然会有凭空出现的角色。在运动中,人们仍然可能有不自然的“人工智能扭曲”。

一些网友在推特上做了测试。显示Veo 2.镜头控制和运动能力是值得的。提示词是“一个人坐在咖啡馆里喝咖啡的视频。过了一会儿,镜头切换到另一个视角,显示旁边桌子上的人在给他们写信。”的情况下,Veo 2能很好地完成导演叙事的镜头切换,写作动作也很自然。

当你把同一个提示给Sora时,它首先无法实现镜头切换。提示词中的两个人没有跟随,画面中只有一个人。写作动作有点像悬挂的画笔。

之后,我们测试了其他顶级模型。例如,海螺无法实现镜头切换,但部分镜头切换的逻辑是通过变焦实现的,空间与两个人物的关系也符合提示词。

混元的影视氛围直接被拉满,切镜也完成了。但视频中两人的关系并没有那么清晰。

但灵确实是最好的表现之一,两人的关系都被抓住了。除了审美和细节,它不如Veo 另外,其它部分几乎是完美的。

在另一个测试中,使用相同的提示词

这是Veo 2的结果

这是Sora的结果

就算Veo 2的输出是有缺陷的,但是Sora输得太慢,空荡荡的场景太多了。
至于其他模型,可灵输出的场景感很好,但是大臣的现实很刻意,从空间关系来说不太可能,有很多残影。

另一方面,海螺在提示词遵循上仅次于Veo 2、只是不满足于“镜头从女王身后取景”这一点。但是细节还原比V还原。eo 2差不少了。

看了这么久,谷歌评论中说的Sora是最差的。
在2025年开始之前,OpenAI的王冠看起来有点不稳定。难怪连微软CEO最近都在采访中大胆说:“没有OpenAI,我们也可以开发出最一流的模型。”
在这场人工智能战争中,似乎有很多逆转的好戏。
然而,谷歌这次仍然没有改变画饼的问题。Veo 2 目前仍处于内部测试阶段,只能在VideoFX上排队申请。我希望它能在25年内全面提高新产品的发布速度。把蛋糕画大师的定位给OpenAI。毕竟,Sora花了9个月的时间才发布,这与过去的谷歌相当。
本文来源:腾讯科技

Copyright@2003-2019 168.com All rights reserved. 瞎马临池网 版权所有