作者 |董道利邮箱 | dongdaoli@pingwest.com 今天一早,谷歌 DeepMind 启动了 Project Genie,这是 Genie 3 世界模型的实验研究原型。这也是这个世界模型第一次以互动的形式向公众开放。目前,该原型首先向美国 18 岁或以上的 Google AI Ultra 用户(3 个月 125 美元)推出。 1 实际测量 Project Genie 与视频生成模型不同。 Project Genie 有两个填补职位空缺的方向。左边写环境提示,右边写主角提示。也可以上传参考图片。选择使用第一人称或第三人称代词。在您输入指示的单词后仅一分钟,Project Genie 就会显示世界模型视频的“第一帧”,如果您想要进行任何调整,您可以预览 view.r。同一个词我试了两次,还是有区别。 一旦你满意了预览结果后,您可以直接开始创建您的世界。世界生成后,用户就可以扮演角色并自由探索世界。 Project Genie 目前支持 720p 分辨率下约 1 分钟的交互式浏览。虽然时间和分辨率并不是最终的,但目前世界模型中最重要的就是“控制”。 Project Genie的角色控制方式接近传统游戏逻辑。用户可以使用WASD控制角色向前、向后、向左、向右移动,方向键独立控制视角以及向前、向后、向左、向右旋转镜头。最令人惊讶的是角色可以跳跃。与字符滚动相比,视点移动平滑得多,响应延迟也很小,整体操作感觉比视频播放更接近实时渲染。同时,该系统具有内置的基本物理限制。例如,当角色向场地边缘移动时,他会自然停止,而不是穿过模具或继续滑动。从制作质量上来说,Project Genie 与传统视频生成仍有明显差异,但在“世界还原”层面已经非常完整。通知中提到的体育场、草坪、夜景灯光、电子屏幕和挥舞旗帜的观众均已恢复。此外,角色的起始位置也是与环境相关的,从靠近中心圆的地方开始,穿着简单的训练服,与世界的总体环境相一致。让我们用照片再次生成一个世界。这次我上传了《Elden’s Ring》游戏的视频。 Project Genie 本质上再现了原始图像的环境特征,让您可以直接在生成的视频中看到某些效果。 Project Genie 生成的世界可以重复进入。对于这个测试,我们选择一个 diff与之前的足球场案例相比,路径不同。我尝试了垂直运动,而不是平面运动。角色在这个世界的初始位置是在悬崖边缘。所以我让这个角色跳下了悬崖。从结果来看,表现相当完美。角色起飞、下降、着陆点之间的空间关系视觉上合理,角色在下方路径上平稳下落,没有明显的空间变化。第二次跳崖时,角色甚至因坠落过程中撞到岩壁而暂时“被束缚”“坠落”。这个细节非常重要,表明Project Genie实际上是在计算角色与环境之间的物理碰撞,而不是简单地将物体抽象成三维图像。详细信息将在视频中添加。细节水平也是一个优点。起飞时脚上扬起灰尘,落地时稍微弯曲膝盖用它作为垫子。这些使得动作更加可靠。当然,你还存在一些缺陷。在最终场景中,角色应该落入水中,但没有水花效果,角色暂时悬浮在水面上。更值得注意的是世界风格的稳定性。即使角色进行了大幅度的、连续的空间运动后,整个世界也不会显得“变形”或失去风格。整体的末世氛围以及悬崖断壁之间的结构关系都被完美地保留下来,不会随着视角或位置的变化而崩溃。这种垂直运动测试比简单地在平坦的表面上行走更好。 Project Genie 所做的不仅仅是“看起来像世界”,它还寻求在移动时保持自洽的 3D 空间结构。让我们再次尝试第一人称视角,并将生成的世界更改为完全相反的风格,看看 Project Genie 处理问题的能力整体风格改变。最初,世界保持着良好的细节水平。但真正的考验从这里开始。根据你现有的世界,输入改变整个世界风格的额外提示,尝试将原来的现实环境转变为像素艺术风格。结果并没有延续之前案例中令人惊讶的表现。风格的变化更集中在人物层面。角色明显像素化,队友也往往显得有纹理。然而,他们发挥核心作用的环境基本没有改变。地形、光影、空间结构都保持了真实的表现手法。也就是说,风格的改变实际上并不影响“世界”,而更像是角色身上的一层外观变化。同时,风格的改变导致了一些细节的损失。例如,烟雾弹标志消失,变成了灭火器,其语义现场的ICS显示出明显的变化。虽然精灵计划能够维持世界本身的结构稳定性,但生成的世界的整体风格重写仍然明显弱于从头生成的情况。当然,用AI生成内容是一个卡片提取的迭代过程。也许通过更多的尝试,Project Genie 可以提供一个更加敏捷的世界。 1Project Genie 最重要的是证明其可行性。 Project Genie 生成了一个更大的模型系统。放眼来看,它的现状是很明显的:世界模式正在经历自己的“视频一代1.0时期”。当前的视频制作模型包括分辨率、摄像机语言和叙事连贯性,许多制作已接近“直接内容就绪”。但回到早期,视频制作真正令人震惊的不是图像的质量,而是人们意识到我的那一刻。法师可以连续移动。 Project Genie 所代表的世界模型场景与此非常相似。这不是关于与游戏或内容电影或电视相比“绘图有多好”,而是回答一个更基本的问题。也就是说,如果继续操纵模型,模型产生的世界会不会很快崩溃?因此,Project Genie 使设计权衡变得非常清晰。积极牺牲分辨率、图像精度和生成时间,以支持计算能力,以维持允许重复输入和持续探索的环境。你能站在悬崖边上,你能跳下悬崖,你能避免撞到岩壁吗?你能在移动后保持一致的世界观吗?这些问题比“图像看起来像特定游戏吗?”重要得多。从技术角度来看,Project Genie 的成立并不是为了实现单一突破,而是因为它完成了三件事:很容易同时实现:可持续性、一致的空间和有限的移动。 Project Genie(Genie3)的技术难点是维持一个隐式的世界状态。用户输入不再仅仅触发新图像的完成,而是被视为对世界状态的实际干预。角色能否前进取决于地形是否允许、是否掉落、是否依靠重力或限制、世界风格是否持续、状态是否持续继承。这意味着模型不再只是“预测下一个盒子”,而是考虑历史、规则和行动条件来推断世界接下来将如何演变。因此,Project Genie 看起来并不像一个完整的游戏或视频工具。它更像是一个尚未成熟但已经可以自主运行的系统原型。因此,Project Genie此时最重要的意义在于,对于第一次,普通用户将能够直观地认识到世界模型不仅仅是纸上的概念,而是在一定范围内实际上可以构建、引入、操作和维护。 单击“爱”即可。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号社交网络用户上传并发布。它是一个媒体平台,仅提供信息存储服务。