谷歌昨夜在没有任何预告和市场宣传的情况下,悄然发布了 Veo 2和 Imagen 3的升级版本。与 OpenAI 此前长达12天的直播宣传攻势形成鲜明对比,谷歌的这一举动无疑展现了其对自身产品的强大自信。令人意想不到的是,这种低调的发布方式反而为谷歌赢得了更高的关注度。究其原因,在于这两款产品所展现出的卓越性能和强大功能着实令人惊艳。
Sora 开放测试后翻车。
网友:“看来文生视频还得再等等。”
Google:“等什么等!”
Veo 2可以像电影摄影师一样和我们交流。不必再费力和它讨论技术参数、猜测Gemini的标题,只要用习惯的术语说出想要的内容即可。作为谷歌最先进的视频生成模型,Veo 2更好地理解现实世界物理和运动的细微差别,理解电影摄影语言的能力(如镜头类型和效果),分辨率高达4K。
谷歌总结了该新模型的三大亮点。
首先是, 增强的真实感和保真度。
相较于其他的AI视频模型,Veo 2在细节、真实感、伪影减少方面得到了显著的改进。
基于对现实世界物理的理解,在Veo 2中,西红柿不仅会随着刀子的前后移动而移动,并且其横断面清晰可见。切片虽略显厚实,但前后始终保持一致,而且还能正确地叠放起来。
漫天飞舞的蜜蜂,安静排列的蜂箱,身穿白色养蜂服的养蜂人,后排矗立的向日葵,所有元素都合理的分布在画面中,呈现出丰富而细腻的质感层次。
其次是,领先的运动能力。
Veo 2能以精确的方式生成运动画面,这主要归功于它对物理学的理解、和遵循详细指令的能力。
第三个是,更强大的相机控制选项。
它能精确理解指令,创建各种拍摄风格、角度、运动效果,以及这些元素的组合。
Veo 2能深刻理解专业术语。只需在提示中输入【18mm lens】,Veo 2就得知创建拍摄广角镜头,或在提示中加入【浅景深】(shallow depth of field)它便可模糊背景,突出主体。
当然,光有效果视频也不够。Google 还做了一个人类观察者的评测,通过 Meta 发布的基准数据集 MovieGenBench,做了1003个数据。最后得到的结果,是这样的。
在比较图中,绿色条表示评估者更喜欢 Veo 2的输出而不是其竞争对手的百分比。结果显示,Veo 在整体偏好、指令遵循上都表现最佳。
当然,Veo 2仍然存在短板,谷歌承认创建真实、动态或复杂的视频,并在复杂场景或具有复杂运动的场景中保持完全一致性仍然是一项挑战。
目前,申请试用 Veo 2 还需要排队,网址给大家奉上:https://labs.google/fx/tools/video-fx
除了 Veo 2之外,Google 这波还发布了改进版的 AI 绘图 Imagen 3-002模型。谷歌于2024年5月14日的 I/O 开发者大会上首次发布了 Imagen 3。时隔半年,谷歌对 Imagen 3 进行了大幅改进和升级,推出了第二代版本。根据他们自己的评测结果显示,新版本在各项指标上均大幅领先,表现卓越。
首先是图像的整体质感,更加明亮,构图更为精准。
其次,它能精准执行用户的提示词指令,呈现出更为细腻的细节和更丰富的纹理效果。
1940年代的欧洲火车站笼罩在晨雾中,精致的铸铁拱门和蒙雾的玻璃窗勾勒出车站的轮廓。蒸汽从铁轨上袅袅升起,与浓雾交融。一对恋人在火车旁深情相拥,昏暗的琥珀色灯光将他们的身体勾勒成剪影。即将启程的火车若隐若现,红色的尾灯在雾中渐渐淡去。女子身着褪色的红色外套,紧握着一本小皮日记,男子则穿着饱经风霜的军装。空气中漂浮的尘埃在柔和的金色背光中闪烁。整个场景弥漫着忧伤而永恒的气息,令人联想起战时电影中那些刻骨铭心的离别场景。
最后,Google 还推出了一个新的玩法——生成式 AI 实验性项目 Whisk。
以往,我们都需要输入冗长、详细的文字提示来生成图像,Whisk 彻底改变了这一形式,现在只用图像就可了。把图片简单一拖,Whisk 就能帮我们创作。
在 Whisk 中,我们可以通过上传图片,来定义主体、场景和风格,然后将它们重新混合,创造出自己独特的作品,比如数字玩偶、珐琅徽章、精美贴纸。
Imagen 3升级版目前个人用户已可免费试用,同样也将网址奉上:
https://labs.google/fx/zh/tools/image-fx