真实测试精灵：嘿伙计们，传说中的世界模型是谷歌创建的

作者 |董道利邮箱 | dongdaoli@pingwest.com 今天一早，谷歌 DeepMind 启动了 Project Genie，这是 Genie 3 世界模型的实验研究原型。这也是这个世界模型第一次以互动的形式向公众开放。目前，该原型首先向美国 18 岁或以上的 Google AI Ultra 用户（3 个月 125 美元）推出。 1 实际测量 Project Genie 与视频生成模型不同。 Project Genie 有两个填补职位空缺的方向。左边写环境提示，右边写主角提示。也可以上传参考图片。选择使用第一人称或第三人称代词。在您输入指示的单词后仅一分钟，Project Genie 就会显示世界模型视频的“第一帧”，如果您想要进行任何调整，您可以预览 view.r。同一个词我试了两次，还是有区别。一旦你满意了预览结果后，您可以直接开始创建您的世界。世界生成后，用户就可以扮演角色并自由探索世界。 Project Genie 目前支持 720p 分辨率下约 1 分钟的交互式浏览。虽然时间和分辨率并不是最终的，但目前世界模型中最重要的就是“控制”。 Project Genie的角色控制方式接近传统游戏逻辑。用户可以使用WASD控制角色向前、向后、向左、向右移动，方向键独立控制视角以及向前、向后、向左、向右旋转镜头。最令人惊讶的是角色可以跳跃。与字符滚动相比，视点移动平滑得多，响应延迟也很小，整体操作感觉比视频播放更接近实时渲染。同时，该系统具有内置的基本物理限制。例如，当角色向场地边缘移动时，他会自然停止，而不是穿过模具或继续滑动。从制作质量上来说，Project Genie 与传统视频生成仍有明显差异，但在“世界还原”层面已经非常完整。通知中提到的体育场、草坪、夜景灯光、电子屏幕和挥舞旗帜的观众均已恢复。此外，角色的起始位置也是与环境相关的，从靠近中心圆的地方开始，穿着简单的训练服，与世界的总体环境相一致。让我们用照片再次生成一个世界。这次我上传了《Elden’s Ring》游戏的视频。 Project Genie 本质上再现了原始图像的环境特征，让您可以直接在生成的视频中看到某些效果。 Project Genie 生成的世界可以重复进入。对于这个测试，我们选择一个 diff与之前的足球场案例相比，路径不同。我尝试了垂直运动，而不是平面运动。角色在这个世界的初始位置是在悬崖边缘。所以我让这个角色跳下了悬崖。从结果来看，表现相当完美。角色起飞、下降、着陆点之间的空间关系视觉上合理，角色在下方路径上平稳下落，没有明显的空间变化。第二次跳崖时，角色甚至因坠落过程中撞到岩壁而暂时“被束缚”“坠落”。这个细节非常重要，表明Project Genie实际上是在计算角色与环境之间的物理碰撞，而不是简单地将物体抽象成三维图像。详细信息将在视频中添加。细节水平也是一个优点。起飞时脚上扬起灰尘，落地时稍微弯曲膝盖用它作为垫子。这些使得动作更加可靠。当然，你还存在一些缺陷。在最终场景中，角色应该落入水中，但没有水花效果，角色暂时悬浮在水面上。更值得注意的是世界风格的稳定性。即使角色进行了大幅度的、连续的空间运动后，整个世界也不会显得“变形”或失去风格。整体的末世氛围以及悬崖断壁之间的结构关系都被完美地保留下来，不会随着视角或位置的变化而崩溃。这种垂直运动测试比简单地在平坦的表面上行走更好。 Project Genie 所做的不仅仅是“看起来像世界”，它还寻求在移动时保持自洽的 3D 空间结构。让我们再次尝试第一人称视角，并将生成的世界更改为完全相反的风格，看看 Project Genie 处理问题的能力整体风格改变。最初，世界保持着良好的细节水平。但真正的考验从这里开始。根据你现有的世界，输入改变整个世界风格的额外提示，尝试将原来的现实环境转变为像素艺术风格。结果并没有延续之前案例中令人惊讶的表现。风格的变化更集中在人物层面。角色明显像素化，队友也往往显得有纹理。然而，他们发挥核心作用的环境基本没有改变。地形、光影、空间结构都保持了真实的表现手法。也就是说，风格的改变实际上并不影响“世界”，而更像是角色身上的一层外观变化。同时，风格的改变导致了一些细节的损失。例如，烟雾弹标志消失，变成了灭火器，其语义现场的ICS显示出明显的变化。虽然精灵计划能够维持世界本身的结构稳定性，但生成的世界的整体风格重写仍然明显弱于从头生成的情况。当然，用AI生成内容是一个卡片提取的迭代过程。也许通过更多的尝试，Project Genie 可以提供一个更加敏捷的世界。 1Project Genie 最重要的是证明其可行性。 Project Genie 生成了一个更大的模型系统。放眼来看，它的现状是很明显的：世界模式正在经历自己的“视频一代1.0时期”。当前的视频制作模型包括分辨率、摄像机语言和叙事连贯性，许多制作已接近“直接内容就绪”。但回到早期，视频制作真正令人震惊的不是图像的质量，而是人们意识到我的那一刻。法师可以连续移动。 Project Genie 所代表的世界模型场景与此非常相似。这不是关于与游戏或内容电影或电视相比“绘图有多好”，而是回答一个更基本的问题。也就是说，如果继续操纵模型，模型产生的世界会不会很快崩溃？因此，Project Genie 使设计权衡变得非常清晰。积极牺牲分辨率、图像精度和生成时间，以支持计算能力，以维持允许重复输入和持续探索的环境。你能站在悬崖边上，你能跳下悬崖，你能避免撞到岩壁吗？你能在移动后保持一致的世界观吗？这些问题比“图像看起来像特定游戏吗？”重要得多。从技术角度来看，Project Genie 的成立并不是为了实现单一突破，而是因为它完成了三件事：很容易同时实现：可持续性、一致的空间和有限的移动。 Project Genie（Genie3）的技术难点是维持一个隐式的世界状态。用户输入不再仅仅触发新图像的完成，而是被视为对世界状态的实际干预。角色能否前进取决于地形是否允许、是否掉落、是否依靠重力或限制、世界风格是否持续、状态是否持续继承。这意味着模型不再只是“预测下一个盒子”，而是考虑历史、规则和行动条件来推断世界接下来将如何演变。因此，Project Genie 看起来并不像一个完整的游戏或视频工具。它更像是一个尚未成熟但已经可以自主运行的系统原型。因此，Project Genie此时最重要的意义在于，对于第一次，普通用户将能够直观地认识到世界模型不仅仅是纸上的概念，而是在一定范围内实际上可以构建、引入、操作和维护。单击“爱”即可。
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号社交网络用户上传并发布。它是一个媒体平台，仅提供信息存储服务。

真实测试精灵：嘿伙计们，传说中的世界模型是谷歌创建的

由 admin

发表回复取消回复

您错过了

新的一年我们要做一些基本的活动。

中国生物制药（01177）自主研发的国内1类创新药罗巴西替尼片获批上市。

以色列领空正式关闭

美国和以色列开始对伊拉克采取联合军事行动；图像显示德黑兰市中心升起浓烟

真实测试精灵：嘿伙计们，传说中的世界模型是谷歌创建的

由 admin

相关文章

中国生物制药（01177）自主研发的国内1类创新药罗巴西替尼片获批上市。

美国和以色列开始对伊拉克采取联合军事行动；图像显示德黑兰市中心升起浓烟

OpenRouter：2月份中国AI模型调用量全球首次超越美国

发表回复 取消回复

您错过了

新的一年我们要做一些基本的活动。

中国生物制药（01177）自主研发的国内1类创新药罗巴西替尼片获批上市。

以色列领空正式关闭

美国和以色列开始对伊拉克采取联合军事行动；图像显示德黑兰市中心升起浓烟

发表回复取消回复