本周 ChatGPT 的表现让不少玩家感到有些异样。说不上是坏了,也不是变差了,就是……感觉不太一样。而且同时注意到这一点的玩家不在少数,让人很难将其仅仅视为错觉。
在 X 平台上,开发者和 AI 测试人员过去几天一直在对比截图、用秒表计时,并得出了一个共同的推论:OpenAI 正在 ChatGPT 中悄悄进行 A/B 测试,传闻该模型为 GPT-5.6,目前仅针对部分选择了 GPT-5.5 Pro 的 Pro 账号用户开放。

以更低价格畅玩游戏。
最高可享 80% 折优惠
引发猜测的规律
各方反馈中最一致的信号并非质量,而是响应时间。开发者 Conor Dart 进行了一项单指令 3D 网页游戏测试,涵盖了物理效果和摄像机控制,结果显示响应时间超过了 60 分钟。而在同样的指令下,GPT-5.5 Pro 的响应通常在 10 分钟左右。“虽然还不完美,但对于一个单指令 AI 游戏开发测试来说,这已经相当令人惊艳了,” Dart 在 X 上写道。
AI 测试员 Chetaslua 在进行机器人模拟测试时也观察到了类似的延迟,他指出响应时间延长到了 20 到 40 分钟,这种速度自 GPT-5.5 发布以来从未出现过。他还声称 GPT-5.6 Pro 在 3D 生成任务中击败了 Anthropic 的 Fable 5,并补充道:“一次性生成游戏的效果也很不错。”
开发者 Anshu Chimala 发布了一段对比视频,展示了 GPT-5.5 Pro 与他所标记的 GPT-5.6 Pro 在单指令落地页生成上的差异,并自称是“有幸提前用上 GPT-5.6 Pro 的幸运儿之一”。开发者 Dobroslav Radosavljevič 则从 OpenAI 的编码智能体 Codex 内部发出了类似的声音,称他运行的那个模型“感觉与 GPT-5.5 截然不同”。
泄露规格的真实性
一份归功于爆料人 Pankaj Kumar 的帖子比性能对比透露了更多细节。据称,该模型的知识截止日期推迟到了 2025 年 12 月,内部推理能力设置(一些测试者称之为“Juice Value”)从 768 提升到了 960,且 SVG 和 3D 设计生成能力据称在部分任务中超越了 Fable 5。据悉,该候选发布版本代号为 Kindle-Alpha。
AI 领域意见领袖 Leo 在推文中写道,该疑似模型“目前正在 ChatGPT 中针对部分 Pro 账号进行隐秘测试”,计划于 6 月 25 日公测。预测市场 Polymarket 本周关于 6 月 22 日至 28 日发布窗口的合约价格最高已达到 89%。
不过,并非所有的对比结果都令人满意。AI 基准测试员 Chris 给两个模型下达了相同的太空船构建指令。结果显示,疑似 GPT-5.6 Pro 耗时 87 分钟,而 GPT-5.5 Extra High 耗时 34 分 42 秒,且在太空船的核心几何结构上,Fable 5 的表现依然优于两者。“我原本粗略的预期是它能在某些基准测试中与 Fable 5 互有胜负,根据类别不同可能赢下一半,但总体上不会有明显的压倒性优势,”他写道。
OpenAI 为何动作频频
关键在于:OpenAI 目前面临着实实在在的竞争压力,这一点从发布时机上可见一斑。
中国的开源模型 GLM-5.2 在 FrontierSWE(一项针对 AI 智能体进行数小时工程任务的基准测试)中仅以一分之差落后于 Anthropic 的 Claude Opus 4.8,同时在同一测试中直接击败了 GPT-5.5。这对 OpenAI 在市场顶端的地位构成了挑战。
Anthropic 的处境也很复杂。其旗舰模型 Mythos 5 和 Fable 5 因 6 月 12 日发布的一项关于越狱漏洞争议的美国出口管制指令而被下架。如果这些模型重返市场,Anthropic 与 OpenAI 之间的质量差距可能会大幅缩小。在这种情况发生前,留给 OpenAI 发布竞争性更新的窗口期非常短。
目前最接近官方确认的消息是一份据称的内部备忘录。首席科学家 Jakub Pachocki 据称告诉 OpenAI 员工,下一代模型相比 GPT-5.5 有了实质性的提升。虽然这既不是发布日期,也不是规格表,更不是对 A/B 测试的确认,但它确实证实了新模型正在开发中。
OpenAI 在本文发布前未回复置评请求。
这对开发者意味着什么
对于那些使用 ChatGPT 进行游戏原型开发、工具构建和交互体验设计的开发者来说,这些影响值得关注。如果 3D 生成和单指令编码的改进在发布时能保持水准,GPT-5.6 可能会彻底改变单次指令会话所能实现的效果。这些早期测试中出现的类游戏用例——网页游戏、物理模拟、程序化设计——正是 AI 编码工具此前难以做到稳定且令人惊艳的领域。
大多数玩家和开发者在这些 AI 模型迭代周期中容易忽略的一点是,技术底线提升的速度有多快。GPT-5.5 已经能够处理那些曾经需要 GPT-4 多次会话和繁琐提示词才能完成的游戏原型任务。如果 GPT-5.6 真能在牺牲等待时间的情况下显著提升推理深度,那么这对许多开发者来说是一个非常值得的交换。
对于那些在 web3 领域进行开发的玩家,我们游戏攻略中涵盖的工具越来越依赖 AI 辅助开发流程,而一个更强的推理模型将影响从智能合约生成到程序化资产创建的方方面面。
如果 6 月 25 日的发布日期属实,接下来的几天要么会验证这一周以来的猜测,要么会揭开 AI 测试史上最大规模的“安慰剂效应”。请密切关注 OpenAI 的官方渠道,并持续关注我们的后续报道。在此期间,如果你想利用现有的 AI 工具做点什么,PuffGo Preseason 5 参与指南对于任何在等待新模型发布的同时探索 web3 游戏奖励的玩家来说都是一篇扎实的攻略。如果想要更具叙事性的内容,Coffee Talk Tokyo Tomodachill 指南详细介绍了个人资料、标签和隐藏帖子等内容。







