本週 ChatGPT 的表現有些微妙。並非故障,也沒變差,就是……感覺不太一樣。而且同時有足夠多的玩家察覺到了這一點,讓人難以忽視。
在 X 上,開發者與 AI 測試員們過去幾天一直在比對截圖、用碼表測量回應時間,並得出了一致的推論:OpenAI 正在 ChatGPT 內部悄悄進行 A/B 測試,針對部分選擇 GPT-5.5 Pro 的 Pro 帳號用戶,測試傳聞中的 GPT-5.6 模型。

以更低價格入手心儀遊戲。
享高達 80% 折扣優惠
引發猜測的規律
各篇貼文中出現最一致的訊號並非品質,而是時間。開發者 Conor Dart 進行了一項單指令 3D 網頁遊戲測試,涵蓋物理效果與鏡頭控制,結果顯示回應時間超過 60 分鐘。在同樣類型的指令下,GPT-5.5 Pro 通常在 10 分鐘內就能完成。「雖然還不完美,但對於單指令 AI 遊戲開發測試來說,這表現已經相當驚人,」Dart 在 X 上寫道。
AI 測試員 Chetaslua 在機器人模擬測試中也觀察到類似的延遲,他指出回應時間拉長至 20 到 40 分鐘,這種速度是 GPT-5.5 發布以來未曾見過的。他還聲稱 GPT-5.6 Pro 在 3D 生成任務中擊敗了 Anthropic 的 Fable 5,並補充道:「這也能一次性完成遊戲開發。」
開發者 Anshu Chimala 發布了一段對比影片,展示了他標記為 GPT-5.5 Pro 與 GPT-5.6 Pro 的單指令登陸頁面生成結果,並自稱是「少數幸運獲得 GPT-5.6 Pro 搶先體驗的用戶之一」。開發者 Dobroslav Radosavljevič 也呼應了 OpenAI 編碼代理 Codex 內部的看法,表示他正在運行的模型「感覺與 GPT-5.5 截然不同」。
洩漏規格的實際內容
一份歸屬於爆料者 Pankaj Kumar 的貼文比效能對比更進一步。據稱其細節包括:知識截止日期推遲至 2025 年 12 月;內部推理效能設定(部分測試員稱為「Juice Value」)從 768 提升至 960;以及改進後的 SVG 與 3D 設計生成能力,據稱在特定任務中超越了 Fable 5。該候選發布版本據傳代號為 Kindle-Alpha。
AI 網紅 Leo 在串文中寫道,該疑似模型「目前正在 ChatGPT 選擇 5.5 Pro 時進行隱蔽測試」,至少針對部分 Pro 帳號,並計畫於 6 月 25 日公開發布。預測市場 Polymarket 本週針對 6 月 22 日至 28 日發布窗口的合約價格一度高達 89%。
不過,並非所有的對比都令人滿意。AI 基準測試員 Chris 對兩個模型下達了相同的太空船建造指令。疑似 GPT-5.6 Pro 的運作時間為 87 分鐘,而 GPT-5.5 Extra High 為 34 分 42 秒,且在太空船的核心幾何結構上,Fable 5 的表現仍優於兩者。「我原本粗略預期它在某些基準測試中能與 Fable 5 互有勝負,根據類別可能贏下一半,但整體而言並未明顯超越,」他寫道。
OpenAI 為何動作頻頻?
關鍵在於:OpenAI 目前面臨真實的競爭壓力,而這反映在時間點上。
中國的開源模型 GLM-5.2 在 FrontierSWE(一項針對 AI 代理進行多小時工程任務評分的基準測試)上,僅以一分之差落後於 Anthropic 的 Claude Opus 4.8,同時在同一測試中直接擊敗了 GPT-5.5。這對 OpenAI 在市場頂端的定位構成了挑戰。
Anthropic 的處境也相當複雜。其旗艦模型 Mythos 5 與 Fable 5 因 6 月 12 日發布的美國出口管制指令(涉及爭議性的越獄漏洞)而被迫下架。如果這些模型重返市場,Anthropic 與 OpenAI 之間的品質差距可能會顯著拉大。在這種情況發生前,發布競爭性更新的窗口期非常短。
唯一接近官方確認的消息是一份據稱的內部備忘錄。首席科學家 Jakub Pachocki 據傳告訴 OpenAI 員工,下一個模型將比 GPT-5.5 有顯著提升。這並非發布日期、規格表,也不是對任何 A/B 測試的確認,但確實證實了有新東西正在開發中。
OpenAI 在本文發布前未回應置評請求。
這對開發者意味著什麼?
對於使用 ChatGPT 進行遊戲原型設計、工具開發與互動體驗的開發者來說,這些影響值得關注。如果 3D 生成與單指令編碼的改進在發布時得以實現,GPT-5.6 可能會實質改變單次對話中所能達成的極限。這些早期測試中出現的遊戲相關應用案例,如網頁遊戲、物理模擬、程序化設計,正是 AI 編碼工具過去難以穩定展現成果的領域。
大多數玩家與開發者在這些 AI 模型週期中忽略的是,技術門檻提升的速度有多快。GPT-5.5 已經能處理過去需要 GPT-4 多次對話與繁瑣指令才能完成的遊戲原型任務。如果 GPT-5.6 真能以更長的等待時間為代價換取更深度的推理能力,這將是許多開發者願意接受的交換。
對於在 web3 領域進行開發的人來說,我們遊戲攻略中涵蓋的工具越來越依賴 AI 輔助開發流程,而更強大的推理模型將影響從智慧合約生成到程序化資產創建的方方面面。
如果 6 月 25 日的發布日期屬實,接下來的幾天將會驗證這一週以來的猜測,或是揭露 AI 測試史上最協調的安慰劑效應。請密切關注 OpenAI 的官方頻道,並隨時回來查看我們的最新報導。在此期間,如果您想利用現有的 AI 工具做點什麼,PuffGo Preseason 5 參與攻略對於任何在等待下一個模型發布的同時,想探索 web3 遊戲獎勵的玩家來說,是一份紮實的讀物。若想了解更多敘事內容,Coffee Talk Tokyo Tomodachill 攻略完整涵蓋了個人檔案、標籤與隱藏貼文的詳細資訊。







