当OpenAI发布会还在“产品雕刻”的时候-瞎马临池网

本站提供热点，欢迎转载和分享。

当OpenAI发布会还在“产品雕刻”的时候

2026-01-04 18:05:57 来源：瞎马临池网浏览量：71816}

当OpenAI发布会还在“产品雕刻”的产品雕刻时候，谷歌继续努力更新基本模型。时候半个月前，产品雕刻3D场景生成了基本模型，时候一周前，产品雕刻Gemini杀死了四面八方 2.今天是时候视频生成模型。

北京时间12月17日，产品雕刻谷歌发布了其文生视频模型VEO的时候下一个版本eo 2.谷歌在今年5月的I/O大会上首次宣布VEO已经7个月了。

但VeoAxtrix只在十几天前的12月3日出现，在此之前，时候用户只能使用VideoFX中的产品雕刻实验工具小规模试用该视频生成软件。

这个版本主要带来三个核心升级。时候首先，产品雕刻真实性和保真度大大提高，时候支持8s长度、产品雕刻清晰度是4K视频的输出，在细节、真实性和伪影减少方面有了很大的提高。

其次，VEO以其对物理学的理解和遵循详细指令的能力，能够高度准确地捕捉运动。这就是Sora几天前频繁翻车的地方。

第三，Veo 2还提供了更多的相机控制选项，可以输入“镜头慢慢推她的脸”等。、“在追逐车辆的过程中，摄像机趋于稳定”、“近距离特写镜头”来描述你需要的镜头模式。

当然，从谷歌目前给出的例子来看，Veo 2 对物理世界的理解确实达到了相当高的水平，尤其是人类甚至昆虫的动作表现。这些动作有很强的自然感与世界互动。例如，这只用喙捕猎的火烈鸟不希望前两天Sora演示时火山爆发的夸张。

在实际测试中，Veo也达到了SOTA的水平。谷歌在Meta发布的基准数据集MovieGenBench中选择了其他顶级模型，包括Sora。上比拼了 1003 提示及相应的视频。

从整体表现来看，VEO占优的情况接近或超过50%，不占劣势的情况可达70%左右。

有趣的事情，Sora 在谷歌测试的所有模型中，Turbo实际上表现最差，而表现最好的是可灵1.5。

遵循指令，Veo性能也达到了SOTA，其他模型与整体性能排名没有太大区别。

在报告中，谷歌承认其模型也有缺点。在复杂的场景或复杂的运动中保持完全的一致性仍然无法突破。在他们自己的例子中，仍然会有凭空出现的角色。在运动中，人们仍然可能有不自然的“人工智能扭曲”。

一些网友在推特上做了测试。显示Veo 2.镜头控制和运动能力是值得的。提示词是“一个人坐在咖啡馆里喝咖啡的视频。过了一会儿，镜头切换到另一个视角，显示旁边桌子上的人在给他们写信。”的情况下，Veo 2能很好地完成导演叙事的镜头切换，写作动作也很自然。

当你把同一个提示给Sora时，它首先无法实现镜头切换。提示词中的两个人没有跟随，画面中只有一个人。写作动作有点像悬挂的画笔。

之后，我们测试了其他顶级模型。例如，海螺无法实现镜头切换，但部分镜头切换的逻辑是通过变焦实现的，空间与两个人物的关系也符合提示词。

混元的影视氛围直接被拉满，切镜也完成了。但视频中两人的关系并没有那么清晰。

但灵确实是最好的表现之一，两人的关系都被抓住了。除了审美和细节，它不如Veo 另外，其它部分几乎是完美的。

在另一个测试中，使用相同的提示词

这是Veo 2的结果

这是Sora的结果

就算Veo 2的输出是有缺陷的，但是Sora输得太慢，空荡荡的场景太多了。

至于其他模型，可灵输出的场景感很好，但是大臣的现实很刻意，从空间关系来说不太可能，有很多残影。

另一方面，海螺在提示词遵循上仅次于Veo 2、只是不满足于“镜头从女王身后取景”这一点。但是细节还原比V还原。eo 2差不少了。

看了这么久，谷歌评论中说的Sora是最差的。

在2025年开始之前，OpenAI的王冠看起来有点不稳定。难怪连微软CEO最近都在采访中大胆说:“没有OpenAI，我们也可以开发出最一流的模型。”

在这场人工智能战争中，似乎有很多逆转的好戏。

然而，谷歌这次仍然没有改变画饼的问题。Veo 2 目前仍处于内部测试阶段，只能在VideoFX上排队申请。我希望它能在25年内全面提高新产品的发布速度。把蛋糕画大师的定位给OpenAI。毕竟，Sora花了9个月的时间才发布，这与过去的谷歌相当。

本文来源：腾讯科技

【本文网址：http://geyva.rbhpvv.cn/post/121f4499834.html 欢迎转载】

热点推荐

Copyright@2003-2019 168.com All rights reserved. 瞎马临池网版权所有