首页 > 智慧写作 > 智慧写作 > 谷歌发布Genie 3:输入一句话,为你和智能体生成可玩的游戏世界

谷歌发布Genie 3:输入一句话,为你和智能体生成可玩的游戏世界

发布时间:2025-08-07 23:57:30来源: 13041198719

当地时间 8 月 5 日,谷歌 DeepMind 发布了其“世界模型”(World Model)的最新版本——Genie 3。该模型能够根据用户的文本或图像提示,实时生成可供用户及 AI 智能体(AI agent)进行互动的 3D 虚拟环境。相比前代产品,Genie 3 实现了向实时可交互虚拟世界模拟的重大跨越,尤其在互动时长和记忆连贯性上取得了巨大进步。

所谓“世界模型”,是一种旨在理解并模拟世界运行规律的 AI 系统。不同于传统的电子游戏需要开发者预先制作好所有 3D 资产和环境,世界模型可以仅凭一句指令,如“一个正在下雨的赛博朋克城市”或“一片阳光明媚的奇幻森林”,便能即时“创造”出一个对应的空间供用户进入探索。DeepMind 在这一领域已深耕十余年,从训练能够掌握复杂即时战略游戏的 AI,到为机器人和开放式学习开发模拟环境,Genie 系列模型正是这些研究的集大成者。

Genie 3 的核心突破在于其“实时交互性”和“长时程一致性”。此前的版本,如 2024 年 12 月发布的 Genie 2,虽然也能根据图像生成可互动的世界,但交互时间仅有 10 到 20 秒,且并非实时进行,分辨率也停留在 360p。而 Genie 3 则实现了质的提升,它能以 720p 的分辨率和每秒 24 帧(24fps)的速率流畅运行,用户可以持续进行长达数分钟的互动。

图丨Genie 3 的重要参数对比(DeepMind)

更重要的是,Genie 3 拥有了初步的“记忆”能力。在其技术演示中,模型能够维持大约一分钟的视觉记忆。如果一个用户在一个生成的房间墙壁上涂鸦,然后转身探索别处,过一会再回到原地,墙上的涂鸦依旧会保留。这种对环境状态的持续性记忆,是营造沉浸式体验的关键,它解决了前代模型在长时间交互后容易出现内容“遗忘”或前后矛盾的问题。DeepMind 的研究人员指出,这种长时程的一致性是一种涌现能力,并非被直接编码到模型中,这使得 Genie 3 生成的世界远比过去更加动态和丰富。

除了基础的导航探索,Genie 3 还引入了一项名为“可提示的世界事件”(promptable World Events)的功能。这允许用户在交互过程中,通过新的文本指令动态地改变世界。比如,用户可以在一个宁静的滑雪场景中输入指令“加入一群鹿”,模型便会实时在环境中生成相应的动态角色。

同样,用户也可以通过指令改变天气、添加物体,甚至召唤出完全不合常理的角色,如“穿着天鹅绒背心的大猩猩”。这种能力极大地增强了交互的自由度和创造性,使得这些 AI 生成的世界更像一个可以随意修改的“沙盒”,而不仅仅是一个被动探索的环境。

那么,谷歌为何要大力投入研发这样的世界模型?其应用远不仅限于游戏和娱乐。DeepMind 认为,Genie 3 更深远的目标在于推动通用人工智能(AGI,Artificial General Intelligence)的发展。研究人员认为,世界模型是通往 AGI 的关键基石,因为它们能够为 AI Agent 提供一个近乎无限的、丰富多样的模拟环境来进行训练。

为了验证这一点,DeepMind 已经将 Genie 3 用于其通用 AI 智能体 SIMA(Scalable, Instructable, Multiworld Agent)的训练。SIMA 的目标是学习在各种不同的 3D 虚拟环境中遵循自然语言指令来完成任务。通过在 Genie 3 生成的无数个世界中进行训练,SIMA 可以学习如何导航、与物体互动以及适应不可预见的突发状况,例如,指示 Agent 在一个虚拟花园里完成“靠近水管”这样的任务。这种方式为训练更强大、更通用的具身智能体(embodied agents),例如未来可能应用于工业、物流领域的自主机器人,提供了成本更低、效率更高且环境更多样化的解决方案。

不过,虽然 Genie 3 取得了巨大进步,但其目前仍存在诸多局限性。首先,Agent 本身能够执行的动作范围(action space)仍然有限,许多复杂的环境干预需要通过文本提示而非 Agent 的直接操作来完成。其次,模型在模拟多个独立的 AI 智能体在共享环境中进行复杂互动方面仍面临挑战。

此外,Genie 3 目前还无法以完美地理精度模拟现实世界中的真实地点,并且其文本渲染能力较弱,通常只有在输入提示词中明确提供时,才能生成清晰易读的文字。最后,虽然“数分钟”的互动时长已是巨大进步,但这与真正意义上可以长时间游玩的电子游戏或进行长期模拟的科学研究相比,仍有不小的距离。

目前,Genie 3 并不会向公众开放。谷歌仅提供一个“有限研究预览版”给一小部分经过挑选的学者和创作者使用。谷歌表示,此举的目的是为了在更广泛地推广这项技术之前,能够更好地理解其潜在的风险和挑战,并与社区合作,以负责任的方式推动技术发展。

虽然距离打造出如《星际迷航》中“全息甲板”那样的终极虚拟现实体验还有很长的路要走,但 Genie 3 作为第一个真正意义上实现了实时交互的通用世界模型,已经清晰地展示了这样一条技术路径的可能性。

智慧写作更多>>

又来一款“方盒子”,传祺越7官图发布,10多万能买到吗? 智界R7加长版谍照曝光:外观没变,后排更大,要跟理想L6抢用户? 大汉来了!尺寸看齐S级,颜值媲美帕拉梅拉,更有最强闪充! 奥迪E7X购车指南:五款配置详解,哪款最值得买 魏牌高山7新车型官图发布 尺寸增加 外观优化 能穿越无人区的五星级酒店,江铃原厂高原雪豹房车 明明魏牌V9X更强,为啥很多人还是更愿意选择大众ID.ERA 9X? 比亚迪新推的“兜底”政策见效,城市领航功能用户激增50% 星途全新SUV渲染图曝光,运动化设计全面升级 值不值得等上市? 定档 6 月 9 日亮相!新款本田 CR-V 新增2.0L混动,补齐动力短板 久违7年三菱越野神主牌复活!全新帕杰罗今年秋天全球首演 体验东风奕派M8:华为“六件套”是前菜,性能、空间也有料 长安NEVO Q05泰国投产卖12万起,配3C快充与三电终身质保 帕萨特和途观L终于带“电”,这一次,它能和国产混动掰手腕吗? 捷途全新“方盒子”SUV到店,造型硬朗帅气,配2.0T动力+8AT+四驱 福利重磅来袭,深蓝汽车六大明星亮相大湾区车展 张正萍:问界M9搭载6颗激光雷达不输FSD,智驾优劣交给市场评判 布加迪W16 Mistral《小王子归来》:无可比拟的文学致敬 ePro家族上市和ID. ERA 5S信息曝光,上汽大众深圳车展看点多 北欧豪华纯电旗舰沃尔沃EX90&沃尔沃ES90正式上市 不止是车,是“黄金标准”,华派666如何重塑家庭出行标杆? 400牛·米+四驱,斯柯达速派Combi测试:配得上更高评价? 打破车体边界,读懂ONE-BOX一体化设计的内核逻辑 史上最丑法拉利?法拉利Luce全球首发,纯电千匹动力 斯巴鲁全新纯电SUV 主打跨界动感风格中国也将引入 10万级合资务实之选!伊兰特兼顾空间与油耗,家用代步闭眼入! 雷军解释小米YU7 GT和Ultra有何不同 中国一汽全新力作,悦意08内饰设计细节正式亮相 三分钟换胎+四轮提悬+五分钟充饱=六边形战士 38.98万起,鸿蒙智行首款MPV,智界V9能否改写市场格局?