從 GPT Image-2 在 2026-04-21 推出開始,我就一直在想:能不能不要每次都切到 ChatGPT 的聊天視窗、一張一張點按鈕、再下載整理?尤其當我每週要產出 9 張一致風格的 IG carousel、每次都是同樣的步驟,重複幾次就覺得這條路長期不對。
直到我確認 Codex CLI 也支援 Image-2 的 image_gen tool,腦中閃過一個念頭:何不讓原本搭好的 Claude Code 系統,直接調用 Codex CLI 來生圖?
把這個想法推到底,我在過去一週做了 4 次完整實驗。最有感的不只是省時間——是看到一個方向:未來的工作流不會只用一個 AI 工具,而是讓不同強項的 AI 互相串接、各司其職。
下面這篇是這條路的整套思路。包含為何想串、三角色架構、過去 vs 現在的工作流對比、體感升級的三件事、誰該用誰可以不用、以及完整的命令 + prompt template,讓你看完能直接動手在自己的 Claude Code 上接起來。
一、為什麼想把 Codex 當生圖外掛?
大部分人對 Codex 的第一印象是 OpenAI 的 code 寫作工具——拿來寫程式、做 review。我也是這樣用的。
但 Codex CLI 有個容易被忽略的設定:內建 image_gen tool 走 ChatGPT Plus 訂閱的 quota。也就是說、只要你有 ChatGPT Plus、不需要額外設定 OpenAI API key、不需要按量計費,就能在終端機透過 Codex 直接呼叫 Image-2 生圖。
這跟我原本對 Codex 的認知完全不同。它不是 code-only tool——它對 Claude Code 來說、就是一個「生圖外掛」。
把它接進工作流的好處很直接:
- Claude Code 本來就在管我整套內容工作流(選題、寫稿、品質把關)
- Codex 對 Claude Code 來說、就是另一個能用的助手
- 那為什麼還要手動切去 ChatGPT 端、一張一張點?
想到這層之後、整個工作流的圖像就清楚了:兩個 AI 工具串接、各做各的事。
二、三角色架構:Claude × Codex × Image-2

把這條路走過一週、我把它抽象成三個角色:
- Claude Code = 大腦。負責規劃選題、寫 prompt pack、做品質把關、跑 QA review、決定該不該重生哪一張
- Codex = 手。接收 Claude Code 的指令、執行 codex exec 命令、調用 Image-2 tool、把產出落地到資料夾
- Image-2 = 視覺。負責生成繁中字精準、版型穩定、9 張一致風格的圖片
這三角色不是替代、是分工。Claude 不擅長精準渲染繁中字(它的圖片生成能力沒有 Image-2 強),Codex 不擅長規劃整套敘事(它沒有跑過你的 brand guidelines),Image-2 不擅長判斷「這張該不該重生」(它沒有 self-QA 的 reasoning)。
但三個串起來、每個負責自己最強的事、整體就成立了。
三、過去 vs 現在的工作流(4 個工具到 1 行命令)

這是這次升級最直觀的對比。
過去做一篇 carousel 的工作流
- 在 Claude Code 寫好內容後、用 HTML 模板做排版
- 用 Gemini API 生背景插圖
- 用 Playwright 自動截圖每張 slide
- 手動整合確認、修微調
四個工具切來切去、每篇花我大約一個下午。
現在這套變成
- Claude Code 寫好給 Codex 的 prompt pack(含 9 張 spec + chrome lock + banned tokens)
- Claude Code 跑一行命令
cat codex-instruction.txt | codex exec --full-auto --cd <cwd> -i avatar.png -i style.png
- Codex 在背景跑 12-15 分鐘、9 張 1080×1350 的 PNG 直接落到 codex-generated/ 資料夾
- Claude Code 收回、做 21-point QA review
從 4 個工具縮成 1 行命令、從一個下午縮成一小時。
四、體感升級的三件事
但效率不是最大的差異。真正讓我體感不同的是畫質:
- 繁中字筆劃精準到可印刷級。Image-2 是首款能精準渲染 CJK 密集字的模型。複雜字像「液冷散熱」「判斷」「畫質」都能正確、不糊不斷筆。這是過去 Gemini 插圖時代難達到的。
- 九張一起看的一致感。Reference image pin 機制讓跨張的 chrome / avatar / 紙感質地全鎖死、不再像過去那套會漂移。
- 版型穩定到 px 級。Token-level 的 chrome lock spec 讓 page number、kicker、footer pill 在 9 張之間 1px 級對齊。
這三件事是過去那套先排版、再後製插圖、再截圖的做法做不到的層級。
五、適用 vs 不適用情境
但不是每個人都需要這樣串。
ChatGPT 點按鈕已經很完整的場景
- 偶爾生一張簡報封面
- 偶爾生一張 Blog 配圖
- 一次性的 hero image 試做
真正會想串接自動化的場景
- 每週都要產出固定節奏的 carousel
- 寫專欄定期出視覺
- 做簡報 / 行銷素材模板的反覆迭代
對後一群人來說、每週省下半天、月底就是兩天。一年下來就是接近一個月的時間。
六、GPT 5.5 推出後、agent 終於成立

這一週試下來最有感的、反而不是省了多少時間——是看到一個方向。
GPT 5.5 在 2026-04-23 推出後、AI 真的能自己 plan、自己 check、跨工具跑完整個任務。OSWorld 78.7% 的 Computer Use 能力跟 Claude 4.7(78.0%)已經同級、原生 omnimodal 能同時處理文字、圖片、影片、聲音。
這意味著什麼?
意味著 agent 不再只是 prompt 工程的延伸——它真的開始能成立。從規劃 → 執行 → 檢查 → 迭代、整個 loop 都能跑、不用每一步都人工接力。
而當 agent 真的成立,跨工具串接就成了基本款。Claude 推理、Codex 執行、Image-2 視覺、Gemini 多模態、ChatGPT 入門易用——各家有各家的強項,怎麼讓它們互相串接、互相補位、各司其職,才是接下來幾年內容創作者真正要練的功。
七、5 分鐘把這套接起來(讓你的 AI 帶你跑)
這套設定看起來像工程師的事,其實只要會把字貼進對話框就能完成。下面三步驟、每一步都是「複製給你的 Claude Code、它幫你跑」,你不用打開終端機。
Step 1:裝 Codex Plugin
最簡單的方式:打開 Claude Code,找 Plugin 設定,搜尋「codex」、按新增。如果你的 Claude Code 是 VS Code 裡的對話框,貼下面這兩條也可以、它會自己幫你跑:
/plugin marketplace add openai/codex-plugin-cc
/plugin install codex@openai-codex
裝完跟 Claude Code 確認:跑 /codex:setup、看到引導畫面就 OK。
Step 2:用你的 ChatGPT 帳號登入 Codex
跟 Claude Code 說:「幫我用 ChatGPT 帳號登入 Codex、我跟你一起跑。」它會開瀏覽器登入頁讓你登入,登完回來自動綁定。完成後 Codex 顯示「已綁 ChatGPT 訂閱」,Plus 或 Pro 都行、不另計費(不需要 OpenAI API key)。
Step 3:教 Claude Code 何時叫 Codex 動工
最後一步,跟 Claude Code 說:「打開我這個專案的 CLAUDE.md(沒有就建一個),加一段告訴你以後遇到什麼任務該叫 Codex 動工。」複製下面這段給它:
使用者要圖像生成、infographic、繁中字密集視覺,
或寫程式 P0 變動的 adversarial review(找漏洞審查)時,
主動建議呼叫 Codex,不要自己硬做。
寫完之後跟 Claude Code 說:「下次我說『幫我做一張封面圖』、你會主動建議叫 Codex 嗎?」如果它答 yes、整套就接好了。
八、讓你的 AI 把這個能力記下來(skill 化)
裝完最容易踩的雷是:每次開新對話都要重新跟 AI 解釋「你要叫 Codex 不要自己生圖」。對人類 OK,對 AI 來說等於每天從頭認識你。
養 skill 的心法是——跟 AI 講過一次之後、請它打包成「skill」存起來,下次同類型對話它自動帶著這份能力跑、不用每次重講。
複製下面整段給你的 Claude Code:
從現在開始,當我們做重複性任務(生圖、Code Review、寫文案),
請照下面的「skill 打包協定」做:
第一次我問:盡力做、記下哪些做法 work。
第二次同類型任務:注意我上次怎麼修改你的成果、套用到這次。
第三次:主動提議把這個流程打包成 skill 存起來。
skill 是一個小檔案、含:
- 目標(一句話)
- 觸發條件(什麼情境呼叫)
- 步驟(有順序、可執行)
- 已踩過的雷(以及修法)
- 常用的參考檔案/命令
存到 ~/.claude/skills/{skill-name}/SKILL.md(或你工具對應的位置)。
下次觸發條件 match、你載入這個 skill 接著做、不從頭開始。
重點:不要讓我重複教你同一件事兩次。
貼完之後,未來做第三次同類型任務、Claude Code 會主動問你「要打包成 skill 嗎?」同意就建檔、之後永遠記得。這就是 AI 一次比一次更順的關鍵。
如果你的 AI 不支援 skill 機制(例如 ChatGPT Custom GPT 不寫檔)、改用「把這份協定存進 project memory / system prompt」、心法一樣——AI 累積經驗、不每次從頭。
結尾觀點
未來的 AI 工作流不會只用一個工具——這不是預測、這是已經在發生的現實。
Claude 4.7 的 reasoning + Computer Use、Codex 的 image_gen + code execution、GPT 5.5 的 omnimodal、Gemini 的 multimodal context、Image-2 的繁中字渲染——每家都有強項、每家也都有弱項。
把它們編排成一支隊伍、用 orchestration 邏輯讓它們互相串接、互相補位——這才是 2026 真正開始要練的功。
幫你成為自己 AI 團隊的主理人。
通用 prompt template — 封面圖場景
複製貼上後替換 {{ }} 變數、跑 codex exec:
你是一位 editorial illustrator。請生成一張 1024×1280 直式插圖。
【風格】
- 扁平 line-color 編輯式插圖
- 暖色調(不要 AI gradient、不要 neon、不要 glassmorphism)
- 紙感質地背景、輕柔暖色 spotlight
- 單一暖白底色 #FDFCF9
【主題】
{{你的場景描述,例如:「一個人坐在木桌前、合著的筆電、左側有窗光、桌上有植物」}}
【精準文字 overlay】(依字面渲染、圖中不准出現其他文字)
- 左上 kicker:「{{KICKER 英文標籤}}」UPPERCASE、letter-spacing 2px、字級 24px、weight 800、色 #D4623B
- 中央 H1:「{{你的中文主標}}」weight 900、最多 14 個中文字、色 #0F172A
【限制】
- 圖中只能出現上面指定的文字、其他不准
- 不要 emoji、不要 QR code、不要 URL、不要假按鈕
- 不要在 props / 場景 / 招牌上自動加任何文字
- 不要 watermark、logo、brand mark
更多場景模板(infographic 3-card、left-right compare、簡報 hero)會持續更新。完整 Skill 包含 4 個檔案:SKILL.md / README.md / references/3-step-setup.md / references/prompt-template.md。
拿到模板之後、你就能在自己的工作流上發展自己的版本——不必照搬我這套 9-slide pipeline、可以從你最常做的視覺類型(簡報封面 / blog hero / infographic)開始接起來。

